7 10100

第三级采集出错

dolphin_1983 于 2020-2-27 16:11 发表 [复制链接]
老师,您好,我编制了一个三级的层进采集规则,前两层好像没问题,但第三层进去运行了一会儿就显示超时和错误。我该怎么解决呢?任务名称如下。

QQ图片20200227161053.png
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2020-2-27 18:42

maomao 论坛元老 发表于 2020-2-27 16:13:32 | 显示全部楼层
出错的时候,打数机窗口是怎样的,网页正常加载出来了吗,有没有出验证码之类的?
举报 使用道具
dolphin_1983 初级会员 发表于 2020-2-27 17:17:05 | 显示全部楼层
maomao 发表于 2020-2-27 16:13
出错的时候,打数机窗口是怎样的,网页正常加载出来了吗,有没有出验证码之类的? ...

1.png 2.png

显示是这个样子的。正常来讲是应该抓取的各个地块的交易详情里的,但不知道为什么,抓取页面显示的还是列表的页面。

举报 使用道具
dolphin_1983 初级会员 发表于 2020-2-27 17:24:08 | 显示全部楼层
dolphin_1983 发表于 2020-2-27 17:17
显示是这个样子的。正常来讲是应该抓取的各个地块的交易详情里的,但不知道为什么,抓取页面显示的还是 ...

老师,是否可以帮我加载一下规则试试,看看问题到底出在哪里。
举报 使用道具
月球漫步 中级会员 发表于 2020-2-27 17:53:32 | 显示全部楼层
dolphin_1983 发表于 2020-2-27 17:24
老师,是否可以帮我加载一下规则试试,看看问题到底出在哪里。

1、层级采集,每个层级的网址链接很重要,这个不能弄错,
注意:第一层级采集到的网址,点击‘下级线索’的弹出框中一定要填第二级的任务名
          第二层级采集到的网址,点击‘下级线索’的弹出框中一定要填第三级的任务名
详细参看这个教程:http://gooseeker.com/doc/article-343-1.html

2、要确保第一级和第二级规则没有出错,检查的的方法是:导出一、二级规则的数据出来查看,需要采集到的字段都采集到没有,采集的下级线索有没有采集正确。

举报 使用道具
Fuller 管理员 发表于 2020-2-27 18:31:03 | 显示全部楼层
dolphin_1983 发表于 2020-2-27 17:24
老师,是否可以帮我加载一下规则试试,看看问题到底出在哪里。

在你发出来的截图上,能够看到失败线索编号,记住这个编号,打开MS谋数台(一定要MS谋数台,在集搜客浏览器上不行),加载分析失败线索,参考这个文章《加载分析失败线索》。我没有加载你的线索的权限
举报 使用道具
Fuller 管理员 发表于 2020-2-27 18:38:30 | 显示全部楼层
跳着20200227183627.png

这样挑着采集数据,成功的可能性很小,每个网页上这些字段的顺序都会不一样。有时候即使采集到了,也可能是错位的。

要想可靠运行,还是要像我上个帖子说的,做样例复制,把每一项都采集下来。导成excel后,把不要的过滤掉
举报 使用道具
dolphin_1983 初级会员 发表于 2020-2-27 18:42:41 | 显示全部楼层
好的,谢谢老师,我从新编辑一下试试。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 20:51