显示抓取失败,到ms谋数台,按线索号加载规则,测试后,

【输出信息】没有问题。



线索编号35922204,规则名称【微博关键字爬取_雾霾】,麻烦帮忙看一下 哪里存在问题

1.jpg (32.58 KB, 下载次数: 1102)

1.jpg

2.jpg (42.44 KB, 下载次数: 1112)

2.jpg
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2018-1-19 17:10

沙发
Fuller 管理员 发表于 2018-1-19 16:05:47 | 只看该作者
DS打数机的滚屏功能打开了吗?
举报 使用道具
板凳
数据集二期 中级会员 发表于 2018-1-19 16:14:13 | 只看该作者
采集的时候
1,要登陆微博账号
2,要把滚屏打开

加载你的规则是没问题的。
举报 使用道具
地板
ShanA930 金牌会员 发表于 2018-1-19 16:22:14 | 只看该作者
Fuller 发表于 2018-1-19 16:05
DS打数机的滚屏功能打开了吗?

您好,请问是设置【滚屏参数】么,速度和次数都设置为2了

举报 使用道具
5#
数据集二期 中级会员 发表于 2018-1-19 16:32:36 | 只看该作者
ShanA930 发表于 2018-1-19 16:22
您好,请问是设置【滚屏参数】么,速度和次数都设置为2了

是的,只要滚屏次数不为零就会滚屏,观察在采集的时候打数机有没有往下滚动 就知道是否有滚屏了。
举报 使用道具
6#
ShanA930 金牌会员 发表于 2018-1-19 16:56:36 | 只看该作者
数据集二期 发表于 2018-1-19 16:32
是的,只要滚屏次数不为零就会滚屏,观察在采集的时候打数机有没有往下滚动 就知道是否有滚屏了。
...


还想请问,就是一下子激活很多个网页,然后启动【爬虫群】,就很容易出错,从而导致这些网页爬取到的东西会很少。
而当我一个一个激活,爬去的时候,有些抓取失败的,就可以抓取成功了,请问这是什么原因啊


1516352177(1).jpg (29.84 KB, 下载次数: 1066)

1516352177(1).jpg
举报 使用道具
7#
数据集 高级会员 发表于 2018-1-19 17:10:19 | 只看该作者
本帖最后由 数据集 于 2018-1-19 17:18 编辑
ShanA930 发表于 2018-1-19 16:56
还想请问,就是一下子激活很多个网页,然后启动【爬虫群】,就很容易出错,从而导致这些网页爬取到的东 ...

规则适应性不够,失败的网页结构和样本页面稍微有点不同就会报错,给抓取内容做上定位映射吧。同时检查失败的页面结构是不是和样本页面结构差异很大,如果差别很大就需要制作不同的规则。
另外,规则的抓取内容只要设置一个关键内容就可以了,否则遇到没有勾选关键内容的页面就会报错。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-11 21:50