GooSeeker集搜客网络爬虫,简单高效的网页采集器

知乎话题结构分析

503 144 3 所需积分:0 更新时间:2017-03-29 22:28 类别: 免费资源

规则介绍

必须预先登录知乎,然后在运行这个规则,一定要仔细看运行方法说明:http://www.gooseeker.com/doc/article-389-1.html 。因为只能在爬虫群模式下运行,否则会无限重复采集数据 注:请先登录所抓取的网站,再运行该规则。 (如果该规则与描述不符或无效,您可 申诉。)

采集内容

信息字段 网页内容
当前话题
当前话题名
父级话题
父级话题树
子级话题
子级话题名
子级话题网址

数据截图

用户评论

  1. weepinglcr 2017-04-04 14:39

    好用吗?

  2. Fuller 2017-04-04 15:42

    好用

  3. ly52610 2017-04-08 19:56

    这个挺好用,及时帮了我的忙!!

关于作者

作者其他资源更多 >

专利检索_搜索结果
这是一组规则中的第二个,第一个规则的名字是“专利检索_自动输入查询条件”,第一个抓取规则自动输入检索条件,会自动过渡到这个规则,所以,本规则一般不直接运行。加载这个规则时请注意,因为样本页面一开始是没有检索结果的,等提示进行后续分析时,先输入检索条件,等看到检索结果再选择“后续分析”菜单。相关教程参看:http://www.gooseeker.com/doc/article-162-1.html
专利检索_自动输入查询条件
这是一组抓取规则的第一个,与它配套的第二个抓取规则是“专利检索_搜索结果”,这个规则作为抓取的入口,能够自动输入检索关键词,利用了GooSeeker V5.4.0版本的连续动作功能,等自动提交以后,就能显示检索结果,由第二个抓取规则把检索结果抓下来。
中国食品农产品认证证书
中国食品农产品认证信息系统网站最大特点是用了很多iframe,嵌套在一起展示证书信息。无论iframe有多少层,集搜客GooSeeker网络爬虫都一视同仁,就像没有iframe一样定义抓取规则。有个详细攻略讲解抓取规则定义过程:http://www.gooseeker.com/doc/article-189-1.html
V8.9 版权所有 © 2007-2016 GooSeeker 深圳市天据电子商务有限公司
粤ICP备11065265号-2 粤公网安备 44030502000239号