目前在爬取天眼查数据,规则为corp_url_test
有两个字段设置为非关键字段,但是在DS启动规则时发现如果这两个字段抓取不到还是会报错,请问是什么问题?





举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2019-4-15 16:33

沙发
Fuller 管理员 发表于 2019-4-11 21:07:33 | 只看该作者
用DS打数机采集成功的,但是用MS谋数台加载规则可能失败。这种情况很正常,因为没有设置关键内容的,DS打数机抓取的时候尽力去抓,抓不到也不报错,而MS谋数台加载规则的时候却要把所有字段加载上来,所以就会分析失败
举报 使用道具
板凳
蔚儿 高级会员 发表于 2019-4-15 12:43:18 | 只看该作者
Fuller 发表于 2019-4-11 21:07
用DS打数机采集成功的,但是用MS谋数台加载规则可能失败。这种情况很正常,因为没有设置关键内容的,DS打数 ...

但是我设置了关键内容的话,很多又抓不到就会失败,这个怎么办呢?

举报 使用道具
地板
wangyong 版主 发表于 2019-4-15 13:54:07 | 只看该作者
蔚儿 发表于 2019-4-15 12:43
但是我设置了关键内容的话,很多又抓不到就会失败,这个怎么办呢?

抓取失败的页面网页上是有对应的内容吗?
举报 使用道具
5#
Fuller 管理员 发表于 2019-4-15 14:38:47 | 只看该作者
尽量用上定位标志映射,我估计你遇到的问题就没有了。
举报 使用道具
6#
蔚儿 高级会员 发表于 2019-4-15 15:37:45 | 只看该作者
wangyong 发表于 2019-4-15 13:54
抓取失败的页面网页上是有对应的内容吗?

页面有内容,测试的时候都能通过,但是大量的失败。一百条能爬10条这样子,URL页面好像形式不太统一

举报 使用道具
7#
Fuller 管理员 发表于 2019-4-15 15:45:44 | 只看该作者
蔚儿 发表于 2019-4-15 15:37
页面有内容,测试的时候都能通过,但是大量的失败。一百条能爬10条这样子,URL页面好像形式不太统一

...

用上定位标志映射,会最大限度地避免网页结构变化造成的失败
举报 使用道具
8#
蔚儿 高级会员 发表于 2019-4-15 15:59:56 | 只看该作者
Fuller 发表于 2019-4-15 15:45
用上定位标志映射,会最大限度地避免网页结构变化造成的失败

我试了定位标志映射,如图,还是测试通过,一抓就错,不知道问题出在哪里,请赐教


tyc结果.PNG (155.53 KB, 下载次数: 728)

tyc结果.PNG

tyc00.PNG (87.94 KB, 下载次数: 783)

tyc00.PNG
举报 使用道具
9#
蔚儿 高级会员 发表于 2019-4-15 16:05:36 | 只看该作者
Fuller 发表于 2019-4-15 15:45
用上定位标志映射,会最大限度地避免网页结构变化造成的失败

规则如下
https://www.gooseeker.com/secure ... ew/share376194.html
https://www.gooseeker.com/secure ... ew/share366882.html
此前一直使用都没问题

举报 使用道具
10#
Fuller 管理员 发表于 2019-4-15 16:33:17 | 只看该作者
不要用自定义xpath,而且你用的自定义xpath是以 // 开头的,这种不能用于样例复制的情形,因为样例复制的情形下,自定义xpath应该以 ./ 开头,表示抓取内容的表达式应该相对于容器节点的位置。

这个网页其实是很好采集的,做内容映射,再做定位标志映射,再修改一下定位偏好,变成偏好class,就更好了

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 15:08