MS媒数台测试时没问题,但是DS爬数据时总会出现匹配失败
举报 使用道具
| 回复

共 22 个关于本帖的回复 最后回复于 2019-4-11 16:46

沙发
Fuller 管理员 发表于 2019-4-10 15:08:11 | 只看该作者
失败率有些高,可以加载分析一下失败原因,参看这个帖子,可以加载分析失败线索:https://www.gooseeker.com/doc/thread-13085-1-1.html
举报 使用道具
板凳
Fuller 管理员 发表于 2019-4-10 15:09:00 | 只看该作者
为了提高规则的适应性,尽量用上定位标志映射,参看《定位标志精确采集范围
举报 使用道具
地板
a1641422659 初级会员 发表于 2019-4-10 15:35:15 | 只看该作者
Fuller 发表于 2019-4-10 15:08
失败率有些高,可以加载分析一下失败原因,参看这个帖子,可以加载分析失败线索:https://www.gooseeker.co ...

选择一条分析之后出现这个,然后我抓取的内容做了样例复制了,还能否进行定位标志映射
举报 使用道具
5#
Fuller 管理员 发表于 2019-4-10 16:02:18 | 只看该作者
a1641422659 发表于 2019-4-10 15:35
选择一条分析之后出现这个,然后我抓取的内容做了样例复制了,还能否进行定位标志映射
...

根据这个提示来看,很可能是定义的规则有问题。你用了自定义xpath吗?
举报 使用道具
6#
a1641422659 初级会员 发表于 2019-4-10 16:07:17 | 只看该作者
Fuller 发表于 2019-4-10 16:02
根据这个提示来看,很可能是定义的规则有问题。你用了自定义xpath吗?

没有啊,又试着重新抓取 找到一条失败的 分析页面了一下,又是这样
举报 使用道具
7#
a1641422659 初级会员 发表于 2019-4-10 16:33:14 | 只看该作者
Fuller 发表于 2019-4-10 16:02
根据这个提示来看,很可能是定义的规则有问题。你用了自定义xpath吗?

而且规则测试时是可以的呀。

举报 使用道具
8#
Fuller 管理员 发表于 2019-4-10 17:46:17 | 只看该作者
a1641422659 发表于 2019-4-10 16:07
没有啊,又试着重新抓取 找到一条失败的 分析页面了一下,又是这样

这个截图跟上一个有个关键区别,没有这个提示:缺少抓取内容的定位规则
只有一个提示,“无法定位容器”,说明在网页上有好几个区域,都含有你要抓的两个抓取内容。加载规则的时候会使用第一个找到的位置,而那个位置上其实并不是你要你的内容。

只出现“无法定位容器”好解决,如果这个容器上并没有做样例复制的话,就给他做一个定位标志映射,定位标志映射可以限定网页上的位置。当遇到网页上有多个位置能定位到抓取内容的时候,也不会选错了。

这个意思就是说:容器上做的定位标志映射可以预先在网页上先划定一个区域,然后在这个区域中抓取内容,就很精准
举报 使用道具
9#
a1641422659 初级会员 发表于 2019-4-10 19:18:11 | 只看该作者
Fuller 发表于 2019-4-10 17:46
这个截图跟上一个有个关键区别,没有这个提示:缺少抓取内容的定位规则
只有一个提示,“无法定位容器” ...

根据您的提示我尝试进行了定位标志映射,但还是匹配失败,结果还是这样,而且这次基本全失败了,您能不能帮我看看我的规则是不是有问题啊。
举报 使用道具
10#
wangyong 版主 发表于 2019-4-10 19:34:44 | 只看该作者
现在直接加载你这规则没有报错,可以把采集失败的链接发出来,帮你分析 一下是什么问题造成失败的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 05:08