不论是相对线索，还是记号线索，都无法翻页，求解！

simonylan

跟着教程走，，，
最开始用记号线索，然后就一直卡在第一页，不断对第一页进行爬虫，爬了很多次第一页
后来用，相对线索，收集完第一页后，就采集完成了，。。。

一直卡在这儿，学不下去了，求解

simonylan · 发表于 2017-9-28 19:20:59

https://bbs.pku.edu.cn/v2/post-read.php?bid=52&threadid=16232434

这是要爬的地址

Fuller · 发表于 2017-9-28 20:19:16

simonylan 发表于 2017-9-28 19:20
https://bbs.pku.edu.cn/v2/post-read.php?bid=52&threadid=16232434

这是要爬的地址

你做的规则名是什么？我帮你诊断一下

umsung · 发表于 2017-9-29 10:08:20

本帖最后由 umsung 于 2017-9-29 10:23 编辑

把规则名发出来，看下你的规则

simonylan · 发表于 2017-9-29 14:08:26

umsung 发表于 2017-9-29 10:08
把规则名发出来，看下你的规则

规则名：dzcfr

simonylan · 发表于 2017-9-29 14:08:38

umsung 发表于 2017-9-29 10:08
把规则名发出来，看下你的规则

dzcfr

shengchengx · 发表于 2017-9-29 15:50:03

1，你这个网站比较特殊，似乎用普通的线索翻页翻不过去，你的规则是没有问题的。
2，这个网站每一页都有独立的网址，可以通过构造网址的方法去取抓每一页的数据。《如何构造网址》，把构造好的网址直接添加通过打数机或者爬虫群批量添加到规则中去就可以爬取每一页的数据了。

Fuller · 发表于 2017-9-29 15:55:03

simonylan 发表于 2017-9-29 14:08
dzcfr

在爬虫路线工作台上，点击查看规则，看到的是

复制代码

可以看到这是要点击div节点，而div下面的a节点才是要点击的。我还在尝试怎样让爬虫点击a，这个网页有些怪

Fuller · 发表于 2017-9-29 15:55:47

Fuller 发表于 2017-9-29 15:55
在爬虫路线工作台上，点击查看规则，看到的是

可以看到这是要点击div节点，而div下面的a节点才是要点击 ...

怪在a节点下没有text，那个“下一页 >”不是在a节点下

Fuller · 发表于 2017-9-29 15:59:39

查看规则得到的规则是下面红框那个。可以采取这个步骤
1，先存规则
2，手工在中间红框那里修改xpath
3，点击保存修改

就可以了，这样手工修改的规则，到下次存规则时，会被自动生成的冲掉，需要再次修改。

共 12 个关于本帖的回复最后回复于 2017-10-1 15:58

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页