https://www.huoqiu.cn/plan/combination.html

@class 什么的 都用了。。。
中级教程里面说改线索规则,我编辑器不知道为啥不显示线索规则。。。
总之,就是抓不了,求解!
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2015-11-2 17:31

沙发
ym 版主 发表于 2015-10-29 21:36:40 | 只看该作者
本帖最后由 ym 于 2015-10-29 22:38 编辑

我测试过你发的网址了,用翻页线索都会重复,原因暂时不明,但是可以改成新建一个整理箱单抓〉的@href了,并把它作为下级线索,主题名填当前主题就可以,这样就会把下一页网址采下来作为新的线索,用DS采数据时,输入线索数就填一个比翻页总数大的数字,这样每抓完一页就会自动抓下一页,不用每次都点单搜/集搜输入线索数啦

举报 使用道具
板凳
ym 版主 发表于 2015-10-30 00:19:53 | 只看该作者
本帖最后由 ym 于 2015-10-30 15:14 编辑

按照上面的操作还是会翻页到中间就失败,重新分析网页规则,发现要把定位标志LI[@class='next diamond']映射给整理箱顶点,得到的提取翻页网址的路径才是正确的,详细分析如下

图一和图二的区别是起始点路径不同,通常起始点路径修改后,目标抓取内容的路径也会发生变化,但在这里就没有不同。图一的定位标志是映射给顶点生成的起始点路径是//*[@class='next diamond  '],这是以属性值来定位的,更加精准和适应性强,在每一页中都能准确找到下一页的网址。

图一
而图二把标志值映射给了整理箱中的抓取内容page,得到的起始点路径是 //*[@id='repay-list-pager']/ul/li[position()=8],这是用序号来绝对定位的,与目标抓取内容的提取路径a/@href放在一起看,就是表示提取第8个LI下的A节点里的@href,这种用序号来定位的路径较容易出错,因为翻页到中间后下一页对应的节点不是在第8个LI了。
图二


举报 使用道具
地板
流年似水 中级会员 发表于 2015-10-30 12:35:50 | 只看该作者
举报 使用道具
5#
hehanbo 初级会员 发表于 2015-11-2 17:31:53 | 只看该作者
ym 发表于 2015-10-30 00:19
按照上面的操作还是会翻页到中间就失败,重新分析网页规则,发现要把定位标志LI[@class='next diamond']映 ...

依然。。。抓不了。。。求视频。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 00:52