集搜客GooSeeker网络爬虫

标题: 为什么抓了一部分数据就停止了 [打印本页]

作者: lijunke    时间: 2016-2-25 18:14
标题: 为什么抓了一部分数据就停止了
制定了一个规则,共有100页,抓了36页就停了,为什么

作者: Fuller    时间: 2016-2-25 19:06
请告知主题名,我们可以做检查,如果是翻页停止,很可能是设置了定时器触发,导致“下一页”还没有生效就去点击
作者: it9527    时间: 2016-2-25 20:23
提示: 作者被禁止或删除 内容自动屏蔽
作者: lijunke    时间: 2016-2-26 08:07
Fuller 发表于 2016-2-25 19:06
请告知主题名,我们可以做检查,如果是翻页停止,很可能是设置了定时器触发,导致“下一页”还没有生效就去 ...

主题名:淘宝店铺信息_1
作者: Fuller    时间: 2016-2-26 09:29
lijunke 发表于 2016-2-26 08:07
主题名:淘宝店铺信息_1

我加载看了,规则做得挺好,翻页规则也正确,如下
  1. //*[@class='ui-page']//a[.//text()="下一页>>"]
复制代码

先 用ui-page确定翻页区,然后用标志 “下一页”确定点击位置。很合适。那么做如下检查
1,每次中断是否在相同页码?如果在相同页码,在MS谋数台上加载了抓取规则以后,翻页到那里,选择菜单 文件-》分析页面,看看是否有分析失败的情况
2,把DS打数机运行中断以后的界面截个图,主要截下部日志窗口,看看是什么报错日志
3,检查 定时器触发 是不是打开了,如果打开了,那么暂时关闭,重新测试。定时器触发会过早执行抓取,那时候“下一页”翻页条还没有显示出来就去点击,会失败
4,一直观察DS打数机窗口,看看翻页到中断的时候有没有出现验证码。

如果是手工启动的抓取,没有停歇功能,会过于频繁抓取网页,遭到封锁,可以用会员中心的爬虫调度功能,设置一个间歇时间。具体看爬虫群的介绍:http://www.gooseeker.com/doc/article-200-1.html

作者: lijunke    时间: 2016-2-26 16:09
Fuller 发表于 2016-2-26 09:29
我加载看了,规则做得挺好,翻页规则也正确,如下

先 用ui-page确定翻页区,然后用标志 “下一页”确定 ...

按照所提示进行了调度,和以前的结果一样
抓取失败(超时),抓取规则不合适或者超时时间设置太短
作者: Fuller    时间: 2016-2-26 17:09
你可以观察一下窗口,看看验证码有没有出现,我这里挺好,运行正常,另外还有一个从中断的地方接上的方法,这个这个网址
  1. https://list.tmall.com/search_product.htm?type=pc&q=%D7%A8%C2%F4%B5%EA&totalPage=100&sort=s&style=w&from=.list.pc_1_searchbutton&jumpto=80
复制代码
里面的jumpto=80就是页码,如果你在35也中断了,那么构造一个jumpto=35的网址,在会员中心-》爬虫管理-》规则管理那里,添加线索,那么用新线索从中断的地方开始爬


作者: Fuller    时间: 2016-2-26 17:21
lijunke 发表于 2016-2-26 16:09
按照所提示进行了调度,和以前的结果一样
抓取失败(超时),抓取规则不合适或者超时时间设置太短 ...

看到那个中断位置了,到那一页,主营品牌就没有了,而你把这个抓取内容设置成 关键内容 ,抓不到就失败了。你可以不设置这个的关键内容,但是一定要有一个抓取内容设置成关键内容
作者: lijunke    时间: 2016-3-1 08:13
Fuller 发表于 2016-2-26 17:21
看到那个中断位置了,到那一页,主营品牌就没有了,而你把这个抓取内容设置成 关键内容 ,抓不到就失败了 ...

分析了2天,也发现了这个问题,这个还能调出来修改吗?

作者: Fuller    时间: 2016-3-1 09:22
lijunke 发表于 2016-3-1 08:13
分析了2天,也发现了这个问题,这个还能调出来修改吗?

规则加载方法看这里:http://www.gooseeker.com/doc/article-124-1.html

那些缺少的内容,不要设置“关键内容”,一个抓取规则至少给一个抓取内容设置“关键内容”,其它根据需要设置




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2