技术小白,使用的是GS浏览器和首页的快捷采集。要爬的知乎页面有900多条回答,但采集只能采到78条,观察了一下采集的过程,应该是下拉加载到中途卡住不动(已经加载出后面的内容了),然后就显示已采集完毕了 日志消息是“没有线索了,可添加新线索或者激活已有的线索”
求解如何解决,谢谢各位大神!采集的页面是https://www.zhihu.com/question/57763089


举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2018-1-11 14:10

数据集二期 中级会员 发表于 2018-1-11 09:16:01 | 显示全部楼层
昨天发布了一个最新的版本,解决有短视频网页无法滚屏的bug,可以重新下载软件使用试试。《下载链接
举报 使用道具
sakaivita 新手上路 发表于 2018-1-11 11:43:10 | 显示全部楼层
数据集二期 发表于 2018-1-11 09:16
昨天发布了一个最新的版本,解决有短视频网页无法滚屏的bug,可以重新下载软件使用试试。《下载链接》 ...

谢谢!用了最新版确实能多采集一点,但是也只有采到83条,离实际回答数还是差挺多。是否需要修改其他设置?
举报 使用道具
Fuller 管理员 发表于 2018-1-11 11:55:16 | 显示全部楼层
sakaivita 发表于 2018-1-11 11:43
谢谢!用了最新版确实能多采集一点,但是也只有采到83条,离实际回答数还是差挺多。是否需要修改其他设置 ...

主题名是什么?我们测试一下
举报 使用道具
sakaivita 新手上路 发表于 2018-1-11 12:25:43 | 显示全部楼层
Fuller 发表于 2018-1-11 11:55
主题名是什么?我们测试一下

谢谢!主题是知乎_独立问题所有回复采集,页面是https://www.zhihu.com/question/57763089

举报 使用道具
Fuller 管理员 发表于 2018-1-11 13:53:35 | 显示全部楼层
sakaivita 发表于 2018-1-11 12:25
谢谢!主题是知乎_独立问题所有回复采集,页面是https://www.zhihu.com/question/57763089

...

这个网页是瀑布流的,你做了一个翻页线索,根据“查看更多回答”翻页,我看到的瀑布流网页没有这个翻页标志。

这个瀑布流网页是没有尽头的,应该用连续动作中的连续滚屏,而且应该点击“高级设置”,在清除老数据中设置要清楚的老数据的xpath,否则,如果回复太多,滚屏到一定程度就会把内容全部耗光,造成程序崩溃
举报 使用道具
Fuller 管理员 发表于 2018-1-11 13:54:38 | 显示全部楼层
清除老数据的方法参看:http://www.gooseeker.com/doc/article-406-1.html ,旗舰版才有这个功能
举报 使用道具
sakaivita 新手上路 发表于 2018-1-11 14:10:13 | 显示全部楼层
Fuller 发表于 2018-1-11 13:54
清除老数据的方法参看:http://www.gooseeker.com/doc/article-406-1.html ,旗舰版才有这个功能 ...

明白了,我学一下,谢谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 23:24