我成功抓取了除了这个网站以外所有含“>”的网站。。。，但就这个不行

hehanbo

https://www.huoqiu.cn/plan/combination.html

@class 什么的都用了。。。
中级教程里面说改线索规则，我编辑器不知道为啥不显示线索规则。。。
总之，就是抓不了，求解！

ym · 发表于 2015-10-29 21:36:40

本帖最后由 ym 于 2015-10-29 22:38 编辑

我测试过你发的网址了,用翻页线索都会重复,原因暂时不明,但是可以改成新建一个整理箱单抓〉的@href了，并把它作为下级线索，主题名填当前主题就可以，这样就会把下一页网址采下来作为新的线索,用DS采数据时，输入线索数就填一个比翻页总数大的数字，这样每抓完一页就会自动抓下一页，不用每次都点单搜/集搜输入线索数啦

ym · 发表于 2015-10-30 00:19:53

本帖最后由 ym 于 2015-10-30 15:14 编辑

按照上面的操作还是会翻页到中间就失败，重新分析网页规则，发现要把定位标志LI[@class='next diamond']映射给整理箱顶点，得到的提取翻页网址的路径才是正确的，详细分析如下

图一和图二的区别是起始点路径不同，通常起始点路径修改后，目标抓取内容的路径也会发生变化，但在这里就没有不同。图一的定位标志是映射给顶点生成的起始点路径是//*[@class='next diamond ']，这是以属性值来定位的，更加精准和适应性强，在每一页中都能准确找到下一页的网址。

图一
而图二把标志值映射给了整理箱中的抓取内容page，得到的起始点路径是 //*[@id='repay-list-pager']/ul/li[position()=8]，这是用序号来绝对定位的，与目标抓取内容的提取路径a/@href放在一起看，就是表示提取第8个LI下的A节点里的@href，这种用序号来定位的路径较容易出错，因为翻页到中间后下一页对应的节点不是在第8个LI了。
图二

流年似水 · 发表于 2015-10-30 12:35:50

将多个XML结果文件合并导入excel

hehanbo · 发表于 2015-11-2 17:31:53

ym 发表于 2015-10-30 00:19
按照上面的操作还是会翻页到中间就失败，重新分析网页规则，发现要把定位标志LI[@class='next diamond']映 ...

依然。。。抓不了。。。求视频。

我成功抓取了除了这个网站以外所有含“>”的网站。。。，但就这个不行

共 4 个关于本帖的回复最后回复于 2015-11-2 17:31

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

我成功抓取了除了这个网站以外所有含“>”的网站。。。，但就这个不行

共 4 个关于本帖的回复 最后回复于 2015-11-2 17:31

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 4 个关于本帖的回复最后回复于 2015-11-2 17:31