想抓取虎扑论坛比如:一条帖子里的发帖具体时间,回复,点击量,还有第一页回复用户的名字 以及详细信息,都要依次点击才能进去,怎么办
举报 使用道具
| 回复

共 15 个关于本帖的回复 最后回复于 2019-4-10 10:49

沙发
Fuller 管理员 发表于 2019-4-8 22:09:58 | 只看该作者
一般论坛都是最普通的网站,很少用一些动态技术,所以,要点进去的网页都会是有静态网址的,用层级采集最合适,可以大规模并行采集。层级采集的教程在这里:https://www.gooseeker.com/doc/article-343-1.html
你的主题名是什么?贴出来,管理员可以加载分析你的规则问题
举报 使用道具
板凳
a1641422659 初级会员 发表于 2019-4-8 22:38:33 | 只看该作者
Fuller 发表于 2019-4-8 22:09
一般论坛都是最普通的网站,很少用一些动态技术,所以,要点进去的网页都会是有静态网址的,用层级采集最合 ...

主题名NBA。NBA后面有个句号,我只设置采集了抓这些帖子还有翻页,层级我不会,教程看的不是很懂。
举报 使用道具
地板
Fuller 管理员 发表于 2019-4-8 22:47:24 | 只看该作者
a1641422659 发表于 2019-4-8 22:38
主题名NBA。NBA后面有个句号,我只设置采集了抓这些帖子还有翻页,层级我不会,教程看的不是很懂。
...



第一级做的很好啊,继续做下级规则,进入我上个帖子发出来的教程链接,看看层级采集的教程
举报 使用道具
5#
a1641422659 初级会员 发表于 2019-4-8 22:51:37 | 只看该作者
Fuller 发表于 2019-4-8 22:47
第一级做的很好啊,继续做下级规则,进入我上个帖子发出来的教程链接,看看层级采集的教程
...

好的,谢谢,我再试试。第一次用,不会再向您请教!


举报 使用道具
6#
a1641422659 初级会员 发表于 2019-4-9 15:39:28 | 只看该作者
a1641422659 发表于 2019-4-8 22:51
好的,谢谢,我再试试。第一次用,不会再向您请教!

为什么尝试二级主题只抓了一条帖子的内容就结束了,主题名话题主要内容。

举报 使用道具
7#
a1641422659 初级会员 发表于 2019-4-9 16:57:37 | 只看该作者
a1641422659 发表于 2019-4-9 15:39
为什么尝试二级主题只抓了一条帖子的内容就结束了,主题名话题主要内容。

...

找到了
举报 使用道具
8#
Fuller 管理员 发表于 2019-4-9 18:22:35 | 只看该作者

问题解决了?
举报 使用道具
9#
a1641422659 初级会员 发表于 2019-4-9 19:34:32 | 只看该作者

就是抓取 回复用户名的时候,只能抓一个,连贯抓取设置不好,总出现没有DOM,主题名  话题主要内容

举报 使用道具
10#
Fuller 管理员 发表于 2019-4-9 19:59:47 | 只看该作者
a1641422659 发表于 2019-4-9 19:34
就是抓取 回复用户名的时候,只能抓一个,连贯抓取设置不好,总出现没有DOM,主题名  话题主要内容

...

这个论坛应该这样看他的结构:
1,顶上是主贴
2,下面的是跟帖
一个主贴对应很多跟帖,而主贴的结构和跟帖的又不一样,那么他们不应该在同一级。可以在一个规则中建立两个整理箱(点击 新建 按钮),一个整理箱存主贴,一个整理箱存跟帖,后面这个整理箱应该做样例复制。

翻页到下一页后,只有跟帖了,那么应该另外建立一个规则,跟第一个规则主题名相同,但是规则编号不一样,那么,第二个规则只有后面这个整理箱。当爬虫运行的时候,他会去试哪个最合适。

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 16:17