知乎的关键词搜索结果是个瀑布流的网页,往下滚屏的时候,有新内容显示出来,我做了一个采集规则,在连续动作中选择了滚屏动作,我发现采集结果文件越来越大,每个结果文件都包含了上一个结果文件的内容,重复数据太多了,清除老数据怎么用?
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2021-2-19 11:47

Fuller 管理员 发表于 2021-2-19 10:37:30 | 显示全部楼层
采集知乎网站的快捷采集工具很多很全,尽量使用现成的,不用自己做采集规则,在网络舆情分析和文本分析等课题研究项目中,知乎这个平台是很受关注的,所以,我们有针对性地定义了一系列快捷采集工具,供研究者使用,入口是:https://www.gooseeker.com/res/da ... =%E7%9F%A5%E4%B9%8E
要选择合适的页面类型
举报 使用道具
Fuller 管理员 发表于 2021-2-19 10:48:53 | 显示全部楼层
如果要自己定义规则,要注意看这几个教程,都是高级教程中的:1,怎样设置连续滚屏:https://www.gooseeker.com/doc/article-373-1.html
2,怎样设置清除老数据:https://www.gooseeker.com/doc/article-406-1.html

注意:
1,当前集搜客网络爬虫已经是10.2.0了,界面做了很大改进,产品名字叫数据管家——增强版网络爬虫,功能是对老版本进行了增强,如果看到的教程是老界面的,对应到新界面应该没有难度
2,清除老数据是旗舰版功能,应该购买旗舰版
举报 使用道具
发誓学好内容分析 金牌会员 发表于 2021-2-19 11:07:52 | 显示全部楼层
Fuller 发表于 2021-2-19 10:48
如果要自己定义规则,要注意看这几个教程,都是高级教程中的:1,怎样设置连续滚屏:https://www.gooseeker ...

如果我买了旗舰版,怎么知道清除老数据生效了呢?
举报 使用道具
wangyong 版主 发表于 2021-2-19 11:10:32 | 显示全部楼层
本帖最后由 wangyong 于 2021-2-19 11:50 编辑

采集完成知乎关键词搜索结果后,如果要继续采集每个问题的所有答案,可以使用知乎_独立问题所有回复采集来采集
知乎快捷.png
选择输入多条网址后,将每个要采集的问题链接添加进快捷采集中就可以采集数据
知乎独立问题Excel.png


举报 使用道具
Fuller 管理员 发表于 2021-2-19 11:11:04 | 显示全部楼层
发誓学好内容分析 发表于 2021-2-19 11:07
如果我买了旗舰版,怎么知道清除老数据生效了呢?

首先你可以看到网络爬虫的结果文件不再越来越大了,这里说的结果文件是原始采集结果文件,xml格式的。

其次,在爬虫软件运行过程中,注意观察右边的滚动条,因为开了清除老数据,滚动条的长度比例基本上不变,不会越来越短。

滚动条20210219111039.png
举报 使用道具
发誓学好内容分析 金牌会员 发表于 2021-2-19 11:42:29 | 显示全部楼层
我感觉我设置的清除老数据没有生效,是xpath没有写对吗?
举报 使用道具
Fuller 管理员 发表于 2021-2-19 11:47:57 | 显示全部楼层
发誓学好内容分析 发表于 2021-2-19 11:42
我感觉我设置的清除老数据没有生效,是xpath没有写对吗?

清除老数据的xpath是: //*[@class='Card SearchResult-Card']

如下图,这个xpath代表了所有搜索结果条目,可以在DOM树窗口中输入这个xpath,点击搜索按钮,看看是不是能定位到所有条目,不能只定位到一条结果

搜索图20210219114739.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 03:22