问题:制作了一个关于爬取豆瓣评论的规则,分为3级。第一级,抓取电影列表;第二级,抓取当前电影详细信息;第三级,抓取当前电影评论。在抓取完毕当前电影评论指定页数之后,按照所定规则,应当转入下一个线索,进入下一部电影,并相应的抓取指定页数的在线评论。问题是在第三级线索切换时,显示匹配失败。我检查了抓取的数据,发现确实已经抓取了指定页数的数据,这是怎么回事呢?是线索切换过程中出了什么问题吗?规则ID:my_douban_20181207


举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-12-8 10:55

沙发
Fuller 管理员 发表于 2018-12-7 23:40:19 | 只看该作者
第三级是抓取评论,翻页抓取,我测试了一个线索,翻页很正常,你说的切换是什么意思?
举报 使用道具
板凳
yuanxiqd 初级会员 发表于 2018-12-8 09:03:15 | 只看该作者
Fuller 发表于 2018-12-7 23:40
第三级是抓取评论,翻页抓取,我测试了一个线索,翻页很正常,你说的切换是什么意思? ...

嗯,老师好。一个线索内的翻页没问题,采集10页评论之后,就会切换到下一条线索,继续翻页采集评论。就是两条线索之间切换的时候有问题。

举报 使用道具
地板
Fuller 管理员 发表于 2018-12-8 10:39:12 | 只看该作者
yuanxiqd 发表于 2018-12-8 09:03
嗯,老师好。一个线索内的翻页没问题,采集10页评论之后,就会切换到下一条线索,继续翻页采集评论。就是 ...

我正在运行测试,看到有失败的,估计是某个网页用这个规则不合适,要调整规则,方法是:
1,记下来失败的线索数:
把DS打数机窗口中的日志窗口显示出来,记住线索编号


2,运行MS谋数台:只有MS谋数台有加载失败线索功能

3,加载失败线索


不适合的网页会报告失败信息,比如,那个抓取内容无法定位,这样需要观察DOM结构有什么差别。要重新做内容映射。最好给抓取内容映射合适的定位标志,可以提高规则适应性。参看《定位标志精确采集范围
举报 使用道具
5#
Fuller 管理员 发表于 2018-12-8 10:40:41 | 只看该作者
有个很大的可能性是翻页到最后一页,网页结构变了,比如,一条评论都没有,但是还显示出来一页,这种必然就失败,不过这样不影响采集结果的完整性
举报 使用道具
6#
Fuller 管理员 发表于 2018-12-8 10:55:02 | 只看该作者


翻页到这里后,就出现这个了,可能是豆瓣故意做了限制,可以试试在集搜客浏览器中登录以后再抓取,看看能否抓到更多
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 16:07