规则名:微博_热门1,微博_热门2,微博_热门3,麻烦帮我看一下关联的是否正确,怎么第一个规则爬取的时候没反应。
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2019-9-28 23:12

沙发
Fuller 管理员 发表于 2018-10-10 17:08:12 | 只看该作者
没有看到 微博_热门3 与前面规则的关系。

一般不这样采集的,全部用连续动作,中间万一断了就失败了。应该用层级采集
第一级采集微博列表,同时采集到每个微博的地址
第二级进入每个微博,采集评论,翻页采集
举报 使用道具
板凳
zhenghy 中级会员 发表于 2018-10-10 17:59:52 | 只看该作者
第一级怎么采集微博的地址,它是点击评论,再点击‘查看更多’才能进入评论,有的评论少的就没有'查看更多'
举报 使用道具
地板
Fuller 管理员 发表于 2018-10-10 18:20:18 | 只看该作者
zhenghy 发表于 2018-10-10 17:59
第一级怎么采集微博的地址,它是点击评论,再点击‘查看更多’才能进入评论,有的评论少的就没有'查看更多' ...

第一级采集微博列表,每条微博的发布时间是一个超链接,那个就是微博详情页网址,把这个网址采集下来,作为第二级的线索。具体参看:https://www.gooseeker.com/doc/article-343-1.html

第二级就是微博详情页,一旦打开,其实下面显示的就是评论,你在这级直接定义采集评论的规则就行,再定义翻页,翻页不要用连续动作,用这个:https://www.gooseeker.com/doc/article-334-1.html
举报 使用道具
5#
zhenghy 中级会员 发表于 2018-10-11 13:52:49 | 只看该作者
你好,我已经改过来了,但是效果不行,麻烦你帮我再看一下,规则名‘微博_热门1’,怎么爬取几秒就不爬了,而且爬取的几个文件一样
举报 使用道具
6#
zhenghy 中级会员 发表于 2018-10-11 16:52:47 | 只看该作者
有人吗
举报 使用道具
7#
Fuller 管理员 发表于 2018-10-11 18:35:05 | 只看该作者
举报 使用道具
8#
zhenghy 中级会员 发表于 2018-10-11 19:19:19 | 只看该作者
滚动一会出现查看更多怎么搞
举报 使用道具
9#
Fuller 管理员 发表于 2018-10-11 19:47:36 | 只看该作者
zhenghy 发表于 2018-10-11 19:19
滚动一会出现查看更多怎么搞

“查看更多”跟“下一页”一样
举报 使用道具
10#
会飞的老鲸鱼 初级会员 发表于 2019-9-28 21:48:35 | 只看该作者
Fuller 发表于 2018-10-10 17:08
没有看到 微博_热门3 与前面规则的关系。

一般不这样采集的,全部用连续动作,中间万一断了就失败了。应该 ...

您好微博第一级我采集到了他们各自的链接,但是第二级别采集评论,不是做新规则吗,得输入新的显示评论的网址,可是那个微博打不开
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 17:20