主题名——【完整版设备核准】

我用以上主题抓取时,一开始都能正常翻页。
我尝试了6、7次,都只能抓取30-200多页不等,然后就告诉我【采集完成】了。

不过目标抓取的网页总共有1432页!

之前我设置了一个叫做【设备核准】的主题用于练习(当时我是第一次用),其中只有两个采集的字段内容,当时是可以爬完1432页的。

求教!!

举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2017-4-24 17:42

scraper 论坛元老 发表于 2017-4-24 15:59:03 | 显示全部楼层
按照你的描述那就不是规则问题了
应该是网站问题

你试试放慢采集速度
不要采得太快

如果还是会中断的话
可以再做一个规则用连续动作
直接输入断开的那一页
再继续采集
举报 使用道具
quyixuan 金牌会员 发表于 2017-4-24 16:04:04 | 显示全部楼层
你看一下DS下方的日志窗口有报错吗
举报 使用道具
keymanleon 新手上路 发表于 2017-4-24 16:12:32 | 显示全部楼层
quyixuan 发表于 2017-4-24 16:04
你看一下DS下方的日志窗口有报错吗

下方没有报错。

其实我也觉得这个网站的抓取逻辑很简单,就是不懂为什么总是断
举报 使用道具
quyixuan 金牌会员 发表于 2017-4-24 16:13:51 | 显示全部楼层
本帖最后由 quyixuan 于 2017-4-24 16:17 编辑
keymanleon 发表于 2017-4-24 16:12
下方没有报错。

其实我也觉得这个网站的抓取逻辑很简单,就是不懂为什么总是断

没有报错那就应该是这个网站本身的原因了
我加载这个网站的网页的时候发现加载有点慢,你可以试试把超时时长设置长一点,也可以在打数机上设置延时抓取
网页加载慢的话有可能翻页标志都没加载出来就开始采集了,这种情况会被认为不用翻页,所以你的翻页就中断了

举报 使用道具
keymanleon 新手上路 发表于 2017-4-24 16:14:23 | 显示全部楼层
scraper 发表于 2017-4-24 15:59
按照你的描述那就不是规则问题了
应该是网站问题

谢谢你的回复!

请问如何设置采集速度?大概多少为宜?
举报 使用道具
scraper 论坛元老 发表于 2017-4-24 16:16:00 | 显示全部楼层
keymanleon 发表于 2017-4-24 16:14
谢谢你的回复!

请问如何设置采集速度?大概多少为宜?

这个也没有一个准确的数字
有的网站反爬虫比较厉害

你可以先调慢一点
觉得挺正常的就稍微调快一点点
滚屏参数都是实时起作用的

举报 使用道具
keymanleon 新手上路 发表于 2017-4-24 16:33:24 | 显示全部楼层
scraper 发表于 2017-4-24 16:16
这个也没有一个准确的数字
有的网站反爬虫比较厉害

影响采集速度的参数就只有【滚屏次数】和【滚屏速度】这两项是吗?
我原来这两项都是2,看来我只能调成两个1了
举报 使用道具
scraper 论坛元老 发表于 2017-4-24 16:37:39 | 显示全部楼层
keymanleon 发表于 2017-4-24 16:33
影响采集速度的参数就只有【滚屏次数】和【滚屏速度】这两项是吗?
我原来这两项都是2,看来我只能调成两 ...

要把滚屏次数设大一点

举报 使用道具
scraper 论坛元老 发表于 2017-4-24 16:46:03 | 显示全部楼层
keymanleon 发表于 2017-4-24 16:33
影响采集速度的参数就只有【滚屏次数】和【滚屏速度】这两项是吗?
我原来这两项都是2,看来我只能调成两 ...

滚屏参数看这个
怎么样优化DS打数机/爬虫参数提高抓取速度


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 16:22