配套软件版本:V9及更低 集搜客网络爬虫软件 新版本对应教程:V10及更高 数据管家——增强版网络爬虫 的对应教程是《网络爬虫采集列表数据》 注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。 一、操作步骤(观看视频) 采集列表时,可以看到多条结构相同的信息,我们把一条信息称为一个样例,例如,表格中的每一行就是一个样例,又如,京东搜索列表中的每个商品也是一个样例。具有两个样例以上的列表网页,做样例复制就能把整个列表都采集下来。下面京东列表页为案例,操作步骤下: 二、案例规则+操作步骤
第一步:打开网页 1.1,打开GS爬虫浏览器,输入上述样本网址并Enter,加载出网页后再点击网址输入栏后面的“定义规则”按钮,可以看到一个浮窗显示出来,称为工作台,在上面定义规则; 1.2,在工作台中输入主题名,可以点击“查重”看看名字是否被占用。 第二步:标注信息 2.1,在浏览器窗口双击要采集的内容,在弹出小窗中输入标签名,打勾确认或Enter,即完成了一个标注操作。首次标注还要输入整理箱名称。这也是标签与网页信息建立映射关系的过程。 2.2,重复上一步骤,对其他信息进行标注。 第三步:样例复制 3.1,点击第一个样例里的任一内容,可以看到,在下面的DOM窗口,光标自动定位到了一个节点,右击这个节点,选择 样例复制映射→第一个。 3.2,然后,点击第二个样例里的任一内容,同样,在下面的DOM窗口,光标自动定位到了一个节点,右击这个节点,选择 样例复制映射→第二个。 这样就完成了样例复制映射。 注意:有时样例复制的操作没有错误,但是测试后,只采集到一条数据。问题多半出在整理箱的定位方式上。整理箱默认的定位方式是“偏ID”,可是京东列表网页的整理箱定位方式一般要选”绝对定位“。 第四步:存规则,抓数据 4.1,规则测试成功后,点击“存规则”; 4.2,点击“爬数据”,弹出DS打数机,开始抓取数据。 4.3,采集成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中,详情见文章《查看数据结果》。 |
Heart2019: 为什么测试时能够显示出来一页的数据,但是爬取不出来呢?
temprani: 你好,这个网址的样例复制映射无效,求解答 <a href="http://scjg.tj.gov.cn/gzfw/zhcx/sphsptjjscxkxxsjcx/index.html" target="_blank">http://scjg.tj.gov.cn/gzfw/zhcx/sphsptjjscxkxxsjcx/index.html</a>
Xiao_ze: 抓取失败(超时),抓取规则不合适或者超时时间设置太短,出现这个提示该怎么解决
ssoonzero: 今天第一次看,感觉不是人用的,完全不符合正常思维啊
agreas: 为什么我采集到的列表数据是重复的
wekrior: 单个测试的时候是好的。 列表就怕不出数据了。结果都是重复的,求解 样例复制后,爬出来结果如下: <代码>601668</代码> <名称>中国建筑</名称> <最新价> ...
wekrior: 单个测试的时候是好的。 列表就怕不出数据了。结果都是重复的,求解 样例复制后,爬出来结果如下: <代码>601668</代码> <名称>中国建筑</名称> <最新价> ...
laughingduan: 如果是一个下拉列表没有文章,怎么能一直往下拉呢,比如<a href="http://www.meipai.com/square/59?single_column=1" target="_blank">http://www.meipai.com/square/59?single_column=1</a>
大锅方便面: 请教一下问什么设置好了样例,在浏览器里边的输出规则都能看到网页应该采集的信息,但是运行规则采集的结果文件里边只有一条数据。 这是什么原因造成的呢?谢谢 ...