本帖最后由 scraper 于 2016-12-30 17:19 编辑


【启动采集前的配置】

  • 预先登陆网站:是
  • 配置打码平台:否

【运行方法】— 详见数据DIY图文教程

  • 用GS爬虫浏览器或者是安装了爬虫软件的火狐浏览器访问知乎_独立话题精华内容采集页面;
  • 输入一个或多个搜索结果网址,然后点击“获取数据”;
  • 点击“启动采集”按钮,采集完成后点击“打包”按钮,就可以下载数据了。

【常见问题】— 欢迎跟帖留言
举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2018-3-28 13:34

沙发
pseudo_stormy 中级会员 发表于 2017-11-3 07:59:39 | 只看该作者
采取数据之后每条回答是片段的,需要按“显示全部”。有办法采取每条回答的全部吗?谢谢
举报 使用道具
板凳
umsung 高级会员 发表于 2017-11-3 09:25:10 | 只看该作者
pseudo_stormy 发表于 2017-11-3 07:59
采取数据之后每条回答是片段的,需要按“显示全部”。有办法采取每条回答的全部吗?谢谢 ...

可以使用连续动作点击“显示全部”之后再抓取数据。《连续点击动作》
举报 使用道具
地板
jackiezhung21 新手上路 发表于 2018-1-27 15:22:36 | 只看该作者
您好,无法采集到数据,采集状态最后都显示为 已停止,并且重新采集也无效。不知是何原因?
举报 使用道具
5#
wangyong 版主 发表于 2018-1-27 15:47:37 | 只看该作者
添加了什么链接?
举报 使用道具
6#
jackiezhung21 新手上路 发表于 2018-1-28 10:44:13 | 只看该作者
wangyong 发表于 2018-1-27 15:47
添加了什么链接?

抱歉才看到。
https://www.zhihu.com/topic/19563625/hot
一个知乎话题的链接
举报 使用道具
7#
wangyong 版主 发表于 2018-1-28 14:10:58 | 只看该作者
采这种链接是需要用动态话题的这个DIY
http://www.gooseeker.com/doc/thread-5710-1-1.html
举报 使用道具
8#
jackiezhung21 新手上路 发表于 2018-1-29 09:47:37 | 只看该作者
wangyong 发表于 2018-1-28 14:10
采这种链接是需要用动态话题的这个DIY
http://www.gooseeker.com/doc/thread-5710-1-1.html ...

很感谢。还是有两个问题:
一是动态话题(讨论)的数量超过1000条,能采集到的只有33条,不知道如何解决?
二是用精华的DIY采https://www.zhihu.com/topic/19563625/top-answers的时候,一直出现“匹配失败”,几次尝试最后都停止采集。不知什么原因?
举报 使用道具
9#
数据集二期 中级会员 发表于 2018-1-29 14:05:04 | 只看该作者
jackiezhung21 发表于 2018-1-29 09:47
很感谢。还是有两个问题:
一是动态话题(讨论)的数量超过1000条,能采集到的只有33条,不知道如何解决 ...

知乎的网页结构发生了变化,这个数据diy已经修改.
举报 使用道具
10#
双鱼是篇小说 新手上路 发表于 2018-3-27 21:11:38 | 只看该作者
本帖最后由 双鱼是篇小说 于 2018-3-27 21:18 编辑

精华内容采集有大量重复项  1000条里面有300多条  这样的数据还准确吗
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-22 15:25