请给我看看,我的主题是“国家标准公告中的标准列表20190428”,第一个整理箱里的抓取的“实施日期”,怎么结果抓出来是“标准编号”的内容?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2019-4-29 09:53

沙发
Fuller 管理员 发表于 2019-4-29 09:53:06 | 只看该作者

这是因为这两个字段有相同的class值,集搜客网络爬虫总是尽量使用这些作为定位标志,在这种情况下,因为定位标志相同,就混淆了。一种方法就是点击定位按钮,选择只用id,就避开相同class的影响。

定位标志是可以提高规则的适应性的,可以参看《定位标志精确采集范围
防止不合适的定位标志造成混淆,可以参看:https://www.gooseeker.com/doc/thread-707-1-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 07:03