这是目标网页:https://book.douban.com/review/best/?icn=index-reviewer测试的时候不会没有跳着抓取


采集结果是跳着


哪里出了问题呢?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-10-26 18:52

沙发
Fuller 管理员 发表于 2016-10-26 18:52:06 | 只看该作者
可能的原因:
1)样例复制映射的时候,第一个样例和第二个样例对应的节点不是相邻的兄弟,而是跳开的
2)奇偶行的@class值不一样,MS谋数台生成抓取规则的时候,往往会自动选择@class或者@id作为定位标志,他自动选的不合适,需要点击“创建规则”工作台上的“定位”按钮来修改定位偏好,比如,换一下偏好id,或者偏好class等

如果还解决不了,把主题名帖出来,我帮你诊断一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 18:34