本帖最后由 scraper 于 2016-12-30 15:29 编辑


【启动采集前的配置】

  • 预先登陆网站:是
  • 配置打码平台:否

【运行方法】— 详见数据DIY图文教程

  • 用GS爬虫浏览器或者是安装了爬虫软件的火狐浏览器访问知乎_独立话题动态内容采集页面;
  • 输入一个或多个搜索结果网址,然后点击“获取数据”;
  • 点击“启动采集”按钮,采集完成后点击“打包”按钮,就可以下载数据了。

【常见问题】— 欢迎跟帖留言
举报 使用道具
| 回复

共 48 个关于本帖的回复 最后回复于 2023-5-5 10:33

沙发
双鱼是篇小说 新手上路 发表于 2018-3-27 21:09:34 | 只看该作者
怎么只能采集前40条啊
举报 使用道具
板凳
shenzhenwan10 金牌会员 发表于 2018-3-27 21:48:30 | 只看该作者
双鱼是篇小说 发表于 2018-3-27 21:09
怎么只能采集前40条啊

你采集的网址是什么, 贴出来技术人员测试下

举报 使用道具
地板
双鱼是篇小说 新手上路 发表于 2018-3-27 22:31:11 | 只看该作者
谢谢
https://www.zhihu.com/topic/19739699/hot  
用那个知乎动态话题规则采集的
还有 采集精华话题的时候 知乎显示精华话题1000条 采集得到1000条 重复项300多条  只剩下600多条  说明数据采集是不完整的  你们刚回复说会加后台去重步骤 那加了之后 能收集完整的1000条数据吗
举报 使用道具
5#
umsung 高级会员 发表于 2018-3-28 09:32:21 | 只看该作者
双鱼是篇小说 发表于 2018-3-27 22:31
谢谢
https://www.zhihu.com/topic/19739699/hot  
用那个知乎动态话题规则采集的

知乎动态话题规则采集测试没有问题,你重新添加网址采集试试,采集的页数要选择全部,采集精华话题也是一样的,可以采集全

1.png (24.95 KB, 下载次数: 3041)

1.png
举报 使用道具
6#
双鱼是篇小说 新手上路 发表于 2018-3-28 12:06:36 | 只看该作者
umsung 发表于 2018-3-28 09:32
知乎动态话题规则采集测试没有问题,你重新添加网址采集试试,采集的页数要选择全部,采集精华话题也是一 ...

我按照你说的做了,选择了全部,然后采集到了44条数据 就这个动态话题 https://www.zhihu.com/topic/19739699/hot


举报 使用道具
7#
bowieD 金牌会员 发表于 2018-3-28 14:20:19 | 只看该作者
双鱼是篇小说 发表于 2018-3-28 12:06
我按照你说的做了,选择了全部,然后采集到了44条数据 就这个动态话题 https://www.zhihu.com/topic/1973 ...

是否因为网络原因采集中断,我这边测试是没问题的
举报 使用道具
8#
双鱼是篇小说 新手上路 发表于 2018-3-28 14:30:55 | 只看该作者
bowieD 发表于 2018-3-28 14:20
是否因为网络原因采集中断,我这边测试是没问题的

没有提示网络中断  很顺利地采集完成  还是40多条

举报 使用道具
9#
anlday 新手上路 发表于 2018-4-18 00:05:21 | 只看该作者
52个数据????
举报 使用道具
10#
maomao 论坛元老 发表于 2018-4-18 08:43:59 | 只看该作者
本帖最后由 maomao 于 2018-4-18 08:49 编辑
anlday 发表于 2018-4-18 00:05
52个数据????

打数机应该还在工作,你下载的只是一部分数据。此外,采集之前,要在gooseeker浏览器登陆知乎。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-22 21:16