新人一枚,学习翻页时,按照教程操作,可翻页定位下一页时,总是提示找不到网页位置,定位失败,该怎么办?望解答一下。
QQ图片20180622081930.jpg
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-6-22 12:27

MebiuW 初级会员 发表于 2018-6-22 09:12:24 | 显示全部楼层
打开网页,定义规则之前,先把网页滚到底,让网页完全加载出来,然后再开始定义规则
举报 使用道具
王小妮子 新手上路 发表于 2018-6-22 09:55:07 | 显示全部楼层
MebiuW 发表于 2018-6-22 09:12
打开网页,定义规则之前,先把网页滚到底,让网页完全加载出来,然后再开始定义规则 ...

谢啦。
举报 使用道具
Fuller 管理员 发表于 2018-6-22 12:27:46 | 显示全部楼层

标准的处理过程是:
1,加载网页,拉动滚动条,拉到底,把网页内容都显示出来
2,点击“定义规则”,进入到定位规则模式
3,定义爬虫规则

其中第二步,进入定义规则模式的时候,会根据现有网页内容把DOM树显示出来,如果在这以后,网页上出现新内容,DOM树中没有立即提现出来,会碰到提示框说没有定位到节点。此时,只有用菜单 规则-》刷新页面结构,把DOM树刷新一遍

但是,要注意,每次刷新,DOM上的节点编号会变化,如果影响到正在定义的规则,那么这个规则就无法存盘了,只有重新做内容映射。所以,刷新页面结构之前最好存一次规则,万一节点重新编号影响了规则,可以通过加载规则的方式,把以前做的工作恢复起来
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 03:10