主题名: 京东健康保险  翻页采集主题名:淘宝连衣裙详情二级  层级采集

收到的提示都是抓取失败超时,抓取规则不合适或者超时时间设置太短
延时设置我已经从5调成40,可是还是不可以
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2018-5-30 14:56

wangyong 版主 发表于 2018-5-30 11:26:27 | 显示全部楼层
这个是采集失败的提示,需要修改规则

按照通过失败线索编号修改规则操作

举报 使用道具
爱过傻狗的喵喵 新手上路 发表于 2018-5-30 11:31:55 | 显示全部楼层
MS查找后提示如图片
KX[3]DL}XZ~8HY1Z9Z{}@22.png
举报 使用道具
爱过傻狗的喵喵 新手上路 发表于 2018-5-30 11:33:03 | 显示全部楼层
MS图片如下

不好意思,刚刚图片错误

不好意思,刚刚图片错误
举报 使用道具
Fuller 管理员 发表于 2018-5-30 11:50:24 | 显示全部楼层
主题名 京东健康保险 这个规则,本来是很简单的,但是你在创建规则工作台上选择了绝对定位,结果翻页到第二页规则就不适应了。绝对定位很容易出这个问题,适应度不够。应该点击“定位”按钮,选择偏好id
举报 使用道具
Fuller 管理员 发表于 2018-5-30 11:50:48 | 显示全部楼层

加载失败规则的时候,填写的线索编号是多少?
举报 使用道具
Fuller 管理员 发表于 2018-5-30 11:52:19 | 显示全部楼层
京东健康保险 这个网页特别好抓,都可以不用设置滚屏,也不需要修改延时,也不需要修改超时时长
举报 使用道具
爱过傻狗的喵喵 新手上路 发表于 2018-5-30 13:24:52 | 显示全部楼层
谢谢亲,超级感谢~
调整定位后,可以抓出来了,不过ds报告提示爬虫空间还有优化空间 线索标号:50417375
亲可以帮我看看 主题名: 淘宝连衣裙详情二级,创建这个耳机详情,提示抓取失败 线索编号是 50388893,麻烦了
举报 使用道具
Fuller 管理员 发表于 2018-5-30 14:56:52 | 显示全部楼层
爱过傻狗的喵喵 发表于 2018-5-30 13:24
谢谢亲,超级感谢~
调整定位后,可以抓出来了,不过ds报告提示爬虫空间还有优化空间 线索标号:50417375
亲 ...

有些网页上有动态程序代码,会一直运行,DS打数机就一直等待这种代码,想等完了再抓,结果一直等到了超时。数据还是能抓下来,就是变慢了。遇到这种情况,选择菜单 配置-》定时器触发,勾上就好了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 14:22