如图,想抓取知乎某一用户专栏发布的文章的所有评论,评论区的结构比较统一,设置了内容标记、翻页、下一页的定位标记映射、样例复制,能成功抓取前几页(500多条评论里只能抓到前80多条),后面貌似出现了循环抓取前面评论的情况,并且在打数机的规则验证下显示“匹配失效”,想请教一下大神是哪里出错了,应该怎么改正?另外如果页数多于50页的话能全部抓取完吗?谢谢


举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2017-2-25 10:42

沙发
Fuller 管理员 发表于 2017-2-25 00:31:55 | 只看该作者
加载规则成功,你的规则看不出有大问题。我正在测试,我稍微改动了一下,在“创建规则”工作台上点击“定位”按钮,选择偏好class,这样生成的数据规则稍微好一些,定位规则中尽量少一些position()=xxx这样的判断,因为position()函数限制死了第几个位置。

你翻页到多少页失败的?
举报 使用道具
板凳
Fuller 管理员 发表于 2017-2-25 00:36:13 | 只看该作者
我把52个分页完整抓完了,我的DS打数机设置了滚屏参数
举报 使用道具
地板
Nicken 新手上路 发表于 2017-2-25 01:30:15 | 只看该作者
Fuller 发表于 2017-2-25 00:31
加载规则成功,你的规则看不出有大问题。我正在测试,我稍微改动了一下,在“创建规则”工作台上点击“定位 ...

我是第17页之后的都抓取不到,而且偶尔会有漏抓的情况;我一开始就是偏好class但是同样中途抓取失败。怎么样可以减少position()函数的使用呢?
举报 使用道具
5#
Nicken 新手上路 发表于 2017-2-25 01:30:47 | 只看该作者
Fuller 发表于 2017-2-25 00:36
我把52个分页完整抓完了,我的DS打数机设置了滚屏参数

我没有设置滚屏参数,会不会就是由于这个原因?
举报 使用道具
6#
Nicken 新手上路 发表于 2017-2-25 03:17:40 | 只看该作者
Fuller 发表于 2017-2-25 00:36
我把52个分页完整抓完了,我的DS打数机设置了滚屏参数

https://zhuanlan.zhihu.com/p/20490244?columnSlug=limiao
这个网址,添加线索之后我看着112页全部翻完了,也显示抓取成功,但是导出来只翻到20页,请帮忙看看什么问题

举报 使用道具
7#
Fuller 管理员 发表于 2017-2-25 10:38:29 | 只看该作者
Nicken 发表于 2017-2-25 03:17
https://zhuanlan.zhihu.com/p/20490244?columnSlug=limiao
这个网址,添加线索之后我看着112页全部翻完 ...

我还在抓你给的网页,通过观察,每次点击下一页的时候,回复内容区变成灰色的了,那是网站响应速度有点慢,所以要注意设置两个参数
1)DS菜单 配置-〉延迟抓取,我这里网络速度很快,我设置成3秒,你可以设置长一些
2)DS菜单 配置-〉滚屏参数,我设置滚屏次数是2
举报 使用道具
8#
Fuller 管理员 发表于 2017-2-25 10:42:09 | 只看该作者
我已经翻过70页了,很正常,应该是你的网速问题,再检查一下DS的参数设置。请注意,如果运行爬虫群模式,这些参数要在会员中心设置。在菜单上设置的是给单搜和集搜用的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 22:27