集搜客GooSeeker网络爬虫

标题: 请问下,有个别数据爬取不完整,有没可能是翻页速度太快导致的? [打印本页]

作者: TonyJiang    时间: 2017-1-16 10:28
标题: 请问下,有个别数据爬取不完整,有没可能是翻页速度太快导致的?
如题,浏览器上看是有数据的,但是抓取结果里面有些没有数据,会不会是翻页速度太快造成的

作者: quyixuan    时间: 2017-1-16 10:31
首先检查一下规则,看看输出的信息是否有漏,没有的话,再试试放慢采集速度

作者: TonyJiang    时间: 2017-1-16 10:32
quyixuan 发表于 2017-1-16 10:31
首先检查一下规则,看看输出的信息是否有漏,没有的话,再试试放慢采集速度
...

[attach]4641[/attach]
不管滚屏速度放到多慢,网页最下端的这几个地方都是空的,请问是什么原因造成的?(规则检测的时候没出现这种情况)



作者: quyixuan    时间: 2017-1-16 10:33
TonyJiang 发表于 2017-1-16 10:32
不管滚屏速度放到多慢,网页最下端的这几个地方都是空的,请问是什么原因造成的?(规则检测的时候没出现 ...

抓到的是-,不是空,说明网页上显示的就是-
你看下实际采集的时候网页上是否加载出来具体的数字,而不是-

如果是加载网页慢造成的,那就设置一下延时抓取
[attach]4642[/attach]





作者: TonyJiang    时间: 2017-1-16 10:36
quyixuan 发表于 2017-1-16 10:33
抓到的是-,不是空,说明网页上显示的就是-
你看下实际采集的时候网页上是否加载出来具体的数字,而不是-
...

看了下,集搜客的浏览器显示的是-,但是其他浏览器显示的是数字的[attach]4643[/attach]

作者: quyixuan    时间: 2017-1-16 10:37
TonyJiang 发表于 2017-1-16 10:36
看了下,集搜客的浏览器显示的是-,但是其他浏览器显示的是数字的

可能是浏览器版本的问题,最新GS浏览器可以换useragent,换成火狐45试试
[attach]4644[/attach]






欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2