集搜客GooSeeker网络爬虫

标题: 跪求大神帮助!爬虫页面不全。 [打印本页]

作者: lygtwq    时间: 2017-5-2 16:44
标题: 跪求大神帮助!爬虫页面不全。
您好,我是徐州工程的学生,在做论文,关于同程旅游网站的服务质量分析,需要抓取评价的信息。抓取了很多次,都是不行,大约有800多个页面,总会在100左右的时候,就会不显示抓取内容,xml存下来的页面显示价格是在计算,其他的点评数量就直接不显示,请问一下,这是什么原因呢?

作者: shengchengx    时间: 2017-5-2 16:51
应该是网速问题
可以打开滚屏 速度慢一点 这样就可以在这个页面加载时间长一点
作者: lygtwq    时间: 2017-5-2 16:53
shengchengx 发表于 2017-5-2 16:51
应该是网速问题
可以打开滚屏 速度慢一点 这样就可以在这个页面加载时间长一点 ...

我试试

作者: lygtwq    时间: 2017-5-2 17:03
shengchengx 发表于 2017-5-2 16:51
应该是网速问题
可以打开滚屏 速度慢一点 这样就可以在这个页面加载时间长一点 ...

还是不行,这是我的配置。我是业余的,看的不太懂,都是百度来的。

作者: HJLing    时间: 2017-5-2 17:07
把滚屏次数改成5 滚屏速度改成1看看
作者: lygtwq    时间: 2017-5-2 17:16
HJLing 发表于 2017-5-2 17:07
把滚屏次数改成5 滚屏速度改成1看看

还是不可以,只显示出一个价格,其他的都没有显示。

作者: HJLing    时间: 2017-5-2 17:18
lygtwq 发表于 2017-5-2 17:16
还是不可以,只显示出一个价格,其他的都没有显示。

用爬虫群就要在调度里设置
用单搜集搜就要在配置-滚屏参数里设置

不能在配置设置然后用爬虫群
不然不起作用


作者: HJLing    时间: 2017-5-2 17:20
好评那些在页面最下方
可以尝试把滚屏次数调大一点比如10
具体哪个合适都是尝试出来的
作者: lygtwq    时间: 2017-5-2 17:21
HJLing 发表于 2017-5-2 17:20
好评那些在页面最下方
可以尝试把滚屏次数调大一点比如10
具体哪个合适都是尝试出来的 ...

我是用单搜的,只需要设置滚屏次数和速度就可以了是吧?我一个一个试试,谢谢

作者: HJLing    时间: 2017-5-2 17:23
lygtwq 发表于 2017-5-2 17:21
我是用单搜的,只需要设置滚屏次数和速度就可以了是吧?我一个一个试试,谢谢
...

滚屏参数的解释见《集搜客GooSeeker专有名词解释-滚屏参数


作者: Fuller    时间: 2017-5-3 09:41
仔细看了你的规则,你的的二级规则所抓取的网页比较长,所以需要把滚屏参数加大,让爬虫尽量慢下来。你可以试试。而且为了提高规则适应性,你可以给二级规则里的爬取内容加上定位标志映射。看这篇帖子http://www.gooseeker.com/doc/article-344-1.html

作者: lygtwq    时间: 2017-5-3 12:04
Fuller 发表于 2017-5-3 09:41
仔细看了你的规则,你的的二级规则所抓取的网页比较长,所以需要把滚屏参数加大,让爬虫尽量慢下来。你可以 ...

还是不可以,爬到67个页面的时候就开始不显示了。滚屏是10,速度1,一级页面线索叫:田论文。二级页面线索叫:田论文二级。

作者: HJLing    时间: 2017-5-3 14:18
lygtwq 发表于 2017-5-3 12:04
还是不可以,爬到67个页面的时候就开始不显示了。滚屏是10,速度1,一级页面线索叫:田论文。二级页面线 ...

测试了上面截图那个网址
采集的确有缺失
用那个网址加载规则也是有报错的
你根据那个页面改一下规则吧
让它可以适应这个页面
如果一个规则做不到
可以新建一个主题名相同规则编号不同的主题

参考教程《规则怎么查看、修改、另存、删除》和《怎么在同一个主题名下建立多个规则






欢迎光临 集搜客GooSeeker网络爬虫 (http://www.gooseeker.com/doc/) Powered by Discuz! X3.2