集搜客GooSeeker网络爬虫

标题: 请教一个翻页的问题,一直翻页失败 [打印本页]

作者: giratinar    时间: 2016-7-2 14:47
标题: 请教一个翻页的问题,一直翻页失败
这两天在爬http://www.gter.net/offer/index.html这个网页的数据
但是发现设置好翻页以后运行起来不会翻页,一直不停地爬第一页
不知道有没有大神能解答一下

它的翻页标志是“>”,但是网页结构里看又有“下一页”的文本,试了单纯定位到class也不行
作者: Fuller    时间: 2016-7-2 15:17
抓取规则名是什么?管理员帮你看看
作者: ym    时间: 2016-7-4 09:44
看这两篇帖子可以解决
http://www.gooseeker.com/doc/thread-616-1-1.html
http://www.gooseeker.com/doc/thread-1992-1-1.html
作者: giratinar    时间: 2016-9-22 22:26
Fuller 发表于 2016-7-2 15:17
抓取规则名是什么?管理员帮你看看

不好意思这么久才看到   叫 美国留学
作者: Fuller    时间: 2016-9-22 23:03
[attach]1650[/attach]

主要原因是网页上有多个翻页区,最上面有一个隐藏的,即使你用下面那个做映射,DS打数机按照顺序找的时候,也会找到第一个(最上面那个),导致翻页失败,所以,要想办法让生成的xpath只能定位到一个(下面那个)

[attach]1651[/attach]

用下面那个->符号代表的A节点做实验,如果使用偏好class,生成了xpath以后,点击右边的“搜索”,能搜到3个,说明@class='button next'这个定位标志不能用。

如果选择偏好id,生成的xpath就是唯一的了,所以,如下图,要为翻页规则选择定位选项:偏好id

[attach]1652[/attach]

这样就能翻页了





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2