规则介绍
必须预先登录知乎,然后在运行这个规则,一定要仔细看运行方法说明:http://www.gooseeker.com/doc/article-389-1.html 。因为只能在爬虫群模式下运行,否则会无限重复采集数据 注:请先登录所抓取的网站,再运行该规则。 (如果该规则与描述不符或无效,您可 申诉。)
采集内容
规则_1
|
信息字段 | 网页内容 |
---|---|
当前话题 | |
当前话题名 | |
父级话题 | |
父级话题树 | |
子级话题 | |
子级话题名 | |
子级话题网址 |
数据截图

用户评论

-
数据集 2018-01-22 15:43
采集知乎话题可以直接使用[url=http://www.gooseeker.com/res/datadiy.html?category=&web=%E7%9F%A5%E4%B9%8E]数据diy[/url],添加要采集的知乎网址到数据diy,启动采集就可以。但添加的网址页面结构必须要与样本页面的结构一致
关于作者
作者其他资源更多 >
- 微博兴趣搜索_测试悬浮信息
- 这个规则是两个主题中的第一个,按照搜索条件把相同兴趣的人搜出来,而且翻页抓取所有人。这个主题用于演示连续动作,即连续不断地移动鼠标,悬浮则每个人的头像上,把弹出的个人信息抓下来,抓的过程是由第二个主题完成的:微博兴趣搜索_测试悬浮信息_悬浮动作 。详细内容请查看教程板块的连续动作相关文章
- 微博兴趣搜索_测试悬浮信息_悬浮动作
- 这是连续动作抓取模式下的第二个主题,不要单独运行这个主题,而是运行第一个:微博兴趣搜索_测试悬浮信息 。运行第一个后,会在网页上连续做鼠标悬浮动作,就能连续使用本规则把个人信息抓取下来。这是用于演示连续动作抓取功能的,详细用法请查看教程板块的相关文章
- 链家房源列表
- 这个抓取规则需要一点小技巧,因为在网页上,发布时间、单价和总价所用的html标签和属性完全一样,如果要同时抓取这三个内容,大家都抓成发布时间。这是因为抓取规则自动定位网页上的位置的时候,自动使用了div[@class='div-cun']/text()这个表达式。要解决这个问题,要么自定义xpath。如果嫌麻烦,就用个小技巧,选择包含这三块内容的总DIV,在网页上的位置是div[@class='dealType'],使用他的@class作为定位标志,也就是选择这个div,做定位标志映射,都映射给这3个抓取内容,这样,GooSeeker爬虫会自动计算出他们所在的位置是在这个总div下的不同节点