规则名:
第一级:lowyinstitute
第二级:lowyinstitute下一级
第一级是正确的,可以抓取到信息
第二级卡在网页中最后一个部分就匹配失败了,不是很明白为什么,求解

如图,到More这里就匹配失败了

如图,到More这里就匹配失败了
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-3-18 23:05

sangsang1806 新手上路 发表于 2018-3-18 19:37:07 | 显示全部楼层
刚刚去看了一下,匹配失败的位置每次推送内容是不一样的,可能就是这个原因导致了爬虫失败。请问这种问题要怎么解决呢?
举报 使用道具
maomao 论坛元老 发表于 2018-3-18 22:59:44 | 显示全部楼层
我现在用的网络访问不了这个网站。我看了一下你的截图,我建议你做上定位标志映射,就能提高规则的适应性,参看:http://www.gooseeker.com/doc/article-344-1.html
如果定位标志映射还不行,你再尝试一下修改定位偏好。在创建规则工作台上,点击“定位”按钮,选择只用class试试
举报 使用道具
maomao 论坛元老 发表于 2018-3-18 23:05:52 | 显示全部楼层
规则加载上来了,修改定位偏好应该有用

只用id.png

点击“定位”按钮,你现在用的是偏好id,点击“测试”按钮,看数据规则,在xpath用了一个id,估计这个id在每个网页上都不一样,可能代表一篇特定的新闻。如果改用偏好class,可能就好了,你试试
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 20:11