9 13768

数据抓取失败(超时)

li97124 于 2020-2-21 15:00 发表 [复制链接]
总共267个线索,前18个成功了。后续一直失败。不知道是什么那里出问题了。
求大神解答。

分析后的原因

分析后的原因

但是我之前抓取成功了18条

但是我之前抓取成功了18条
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2020-2-21 19:25

Fuller 管理员 发表于 2020-2-21 15:53:27 | 显示全部楼层
如果不是被封锁了,那么就是规则不适应,提高适应性的方法是给抓取内容做定位标志映射,参看教程《定位标志精确采集范围
界面下部是日志窗口,记住里面的线索编号,按照这个教程加载和分析失败原因:《怎样解决规则失败和遗漏问题
举报 使用道具
li97124 初级会员 发表于 2020-2-21 16:40:40 | 显示全部楼层
不是规则的原因。(我又重新做了内容定位标志映射,还是出现问题)
我查了失败原因:无法定位容器或者无法定位抓取内容。
举报 使用道具
li97124 初级会员 发表于 2020-2-21 16:49:22 | 显示全部楼层
Fuller 发表于 2020-2-21 15:53
如果不是被封锁了,那么就是规则不适应,提高适应性的方法是给抓取内容做定位标志映射,参看教程《定位标志 ...

不是规则的原因。(我又重新做了内容定位标志映射,还是出现问题)
我查了失败原因:无法定位容器或者无法定位抓取内容。


求帮看哪里出了问题
13D499B4-75FB-4FC5-B9BC-7910C34A964F.jpeg
3A61CF52-C694-4A79-869E-205A8DB9AAC6.jpeg
67862294-77E6-4CDC-81BF-40CFD08CE0B5.jpeg
E2D8D353-4963-4C34-BA2C-E3CA1A867703.jpeg
CF116AF0-C3D0-4916-A2F4-17EAB4D47621.jpeg
D23397AA-FE1C-4C93-9B30-3657152D867A.jpeg
举报 使用道具
Fuller 管理员 发表于 2020-2-21 17:02:36 | 显示全部楼层
li97124 发表于 2020-2-21 16:49
不是规则的原因。(我又重新做了内容定位标志映射,还是出现问题)
我查了失败原因:无法定位容器或者无 ...

我加载了你的规则,有两大问题:
1,不应该选择绝对定位。像这些经营性的网站,都是动态网页,绝对定位基本上会失败。因为在网页上采集单条内容,选择“偏好id”比较合适
2,没有做定位标志映射,影响规则的适应性。

看下图,我是这样做的。如果还不行,你把失败的网址发出来几个

定位20200221165911.png
举报 使用道具
li97124 初级会员 发表于 2020-2-21 17:38:18 | 显示全部楼层
Fuller 发表于 2020-2-21 17:02
我加载了你的规则,有两大问题:
1,不应该选择绝对定位。像这些经营性的网站,都是动态网页,绝对定位基 ...

我重新改了规则,还是不行。

这是目前的几个线索编号网址


https://you.ctrip.com/travels/wulong120015/3905256.html

https://you.ctrip.com/travels/chongqing158/3790448.html

https://you.ctrip.com/travels/chongqing158/3786722.html


不知道是不是网络原因,状态面板栏验证规则下面一直显示匹配失败。


举报 使用道具
Fuller 管理员 发表于 2020-2-21 18:27:45 | 显示全部楼层
li97124 发表于 2020-2-21 17:38
我重新改了规则,还是不行。

这是目前的几个线索编号网址

他们的网页结构都不一样,有的有标题,有的没有,所以这个规则就不适合
举报 使用道具
li97124 初级会员 发表于 2020-2-21 18:32:01 | 显示全部楼层
Fuller 发表于 2020-2-21 18:27
他们的网页结构都不一样,有的有标题,有的没有,所以这个规则就不适合
...

那咋整呀。哎,
需要论文数据……
那请问还有其他方法爬它的数据吗?

举报 使用道具
Fuller 管理员 发表于 2020-2-21 18:37:40 | 显示全部楼层
结构20200221183534.png

这个结构就不一样,就是标题不一样,内容的定位标志还有效。我估计这个网站有好几套模板,那么就要定义多个规则,让这些规则的任务名相同,规则编号不一样,那么爬虫会选一个合适的。

编号20200221183718.png
举报 使用道具
li97124 初级会员 发表于 2020-2-21 19:25:28 | 显示全部楼层
Fuller 发表于 2020-2-21 18:37
这个结构就不一样,就是标题不一样,内容的定位标志还有效。我估计这个网站有好几套模板,那么就要定义多 ...

好的,谢谢。我去试试。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 03:02