如下图中,我抓取的内容有四个。金额、支持人数、限额人数、剩余人数。这个需要做样例复制来抓取。

但是在实际抓取中,发现有几条抓取失败的线索。加载后看到,这个样例的第一个只有金额和支持人数,所以显示抓取规则失败了(我也没有勾选关键内容)。如下图,针对这种情况,我如何更改下规则?


QQ截图20160718093256.jpg (15.81 KB, 下载次数: 622)

QQ截图20160718093256.jpg
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-7-18 10:35

沙发
Fuller 管理员 发表于 2016-7-18 10:35:44 | 只看该作者
是否用上了定位标志映射?在内容映射之上再用上定位标志映射,规则的适应性会提高很多。这样,即便有些网页没有这个字段,因为没有勾关键内容,还是能抓取其它字段的。

如果定位标志映射也用了,那么就得用其他手段,可以选择:
1,同一个主题名下建立多个抓取规则,各自用不同的“规则编号”进行区分,DS打数机会自动去匹配一个合适的
2,自定义xpath,让抓取规则更有灵活性,比如,自定义xpath的时候,定位表达式和内容表达式可以不一样
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 15:21