快捷导航
9 468

网站爬取失败求助

蔚儿 于 2019-4-11 20:28 发表 [复制链接]
目前在爬取天眼查数据,规则为corp_url_test
有两个字段设置为非关键字段,但是在DS启动规则时发现如果这两个字段抓取不到还是会报错,请问是什么问题?

问题1.PNG 问题2.PNG



举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2019-4-15 16:33

Fuller 管理员 发表于 2019-4-11 21:07:33 | 显示全部楼层
用DS打数机采集成功的,但是用MS谋数台加载规则可能失败。这种情况很正常,因为没有设置关键内容的,DS打数机抓取的时候尽力去抓,抓不到也不报错,而MS谋数台加载规则的时候却要把所有字段加载上来,所以就会分析失败
举报 使用道具
蔚儿 高级会员 发表于 2019-4-15 12:43:18 | 显示全部楼层
Fuller 发表于 2019-4-11 21:07
用DS打数机采集成功的,但是用MS谋数台加载规则可能失败。这种情况很正常,因为没有设置关键内容的,DS打数 ...

但是我设置了关键内容的话,很多又抓不到就会失败,这个怎么办呢?

举报 使用道具
wangyong 版主 发表于 2019-4-15 13:54:07 | 显示全部楼层
蔚儿 发表于 2019-4-15 12:43
但是我设置了关键内容的话,很多又抓不到就会失败,这个怎么办呢?

抓取失败的页面网页上是有对应的内容吗?
举报 使用道具
Fuller 管理员 发表于 2019-4-15 14:38:47 | 显示全部楼层
尽量用上定位标志映射,我估计你遇到的问题就没有了。
举报 使用道具
蔚儿 高级会员 发表于 2019-4-15 15:37:45 | 显示全部楼层
wangyong 发表于 2019-4-15 13:54
抓取失败的页面网页上是有对应的内容吗?

页面有内容,测试的时候都能通过,但是大量的失败。一百条能爬10条这样子,URL页面好像形式不太统一

举报 使用道具
Fuller 管理员 发表于 2019-4-15 15:45:44 | 显示全部楼层
蔚儿 发表于 2019-4-15 15:37
页面有内容,测试的时候都能通过,但是大量的失败。一百条能爬10条这样子,URL页面好像形式不太统一

...

用上定位标志映射,会最大限度地避免网页结构变化造成的失败
举报 使用道具
蔚儿 高级会员 发表于 2019-4-15 15:59:56 | 显示全部楼层
Fuller 发表于 2019-4-15 15:45
用上定位标志映射,会最大限度地避免网页结构变化造成的失败

我试了定位标志映射,如图,还是测试通过,一抓就错,不知道问题出在哪里,请赐教


tyc结果.PNG
tyc00.PNG
举报 使用道具
蔚儿 高级会员 发表于 2019-4-15 16:05:36 | 显示全部楼层
Fuller 发表于 2019-4-15 15:45
用上定位标志映射,会最大限度地避免网页结构变化造成的失败

规则如下
https://www.gooseeker.com/secure ... ew/share376194.html
https://www.gooseeker.com/secure ... ew/share366882.html
此前一直使用都没问题

举报 使用道具
Fuller 管理员 发表于 2019-4-15 16:33:17 | 显示全部楼层
不要用自定义xpath,而且你用的自定义xpath是以 // 开头的,这种不能用于样例复制的情形,因为样例复制的情形下,自定义xpath应该以 ./ 开头,表示抓取内容的表达式应该相对于容器节点的位置。

这个网页其实是很好采集的,做内容映射,再做定位标志映射,再修改一下定位偏好,变成偏好class,就更好了
定位标志20190415163058.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 摘取泉港区政府工作报告中的数字遇到的问题
  • 调度设置参数说明
  • 集搜客网络爬虫软件实现自动网页截屏
  • 怎样使用搜狐新闻搜索列表快捷工具抓取关键
  • 用于清洗文本内容的Excel函数公式

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2019-7-18 01:36