跟着教程走,,,
最开始用记号线索,然后就一直卡在第一页,不断对第一页进行爬虫,爬了很多次第一页
后来用,相对线索,收集完第一页后,就采集完成了,。。。



一直卡在这儿,学不下去了,求解
举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2017-10-1 15:58

沙发
simonylan 中级会员 发表于 2017-9-28 19:20:59 | 只看该作者
https://bbs.pku.edu.cn/v2/post-read.php?bid=52&threadid=16232434

这是要爬的地址
举报 使用道具
板凳
Fuller 管理员 发表于 2017-9-28 20:19:16 | 只看该作者
simonylan 发表于 2017-9-28 19:20
https://bbs.pku.edu.cn/v2/post-read.php?bid=52&threadid=16232434

这是要爬的地址

你做的规则名是什么?我帮你诊断一下
举报 使用道具
地板
umsung 高级会员 发表于 2017-9-29 10:08:20 | 只看该作者
本帖最后由 umsung 于 2017-9-29 10:23 编辑

把规则名发出来,看下你的规则
举报 使用道具
5#
simonylan 中级会员 发表于 2017-9-29 14:08:26 | 只看该作者
umsung 发表于 2017-9-29 10:08
把规则名发出来,看下你的规则

规则名:dzcfr
举报 使用道具
6#
simonylan 中级会员 发表于 2017-9-29 14:08:38 | 只看该作者
umsung 发表于 2017-9-29 10:08
把规则名发出来,看下你的规则

dzcfr
举报 使用道具
7#
shengchengx 金牌会员 发表于 2017-9-29 15:50:03 | 只看该作者
1,你这个网站比较特殊,似乎用普通的线索翻页翻不过去,你的规则是没有问题的。
2,这个网站每一页都有独立的网址,可以通过构造网址的方法去取抓每一页的数据。《如何构造网址》,把构造好的网址直接添加通过打数机或者爬虫群批量添加到规则中去就可以爬取每一页的数据了。
举报 使用道具
8#
Fuller 管理员 发表于 2017-9-29 15:55:03 | 只看该作者

在爬虫路线工作台上,点击查看规则,看到的是
  1. //*[@class='paging']/div[.//text()="下一页 >"]
复制代码


可以看到这是要点击div节点,而div下面的a节点才是要点击的。我还在尝试怎样让爬虫点击a,这个网页有些怪


举报 使用道具
9#
Fuller 管理员 发表于 2017-9-29 15:55:47 | 只看该作者
Fuller 发表于 2017-9-29 15:55
在爬虫路线工作台上,点击查看规则,看到的是

可以看到这是要点击div节点,而div下面的a节点才是要点击 ...

怪在a节点下没有text,那个“下一页 >”不是在a节点下
举报 使用道具
10#
Fuller 管理员 发表于 2017-9-29 15:59:39 | 只看该作者


查看规则得到的规则是下面红框那个。可以采取这个步骤
1,先存规则
2,手工在中间红框那里修改xpath
3,点击保存修改

就可以了,这样手工修改的规则,到下次存规则时,会被自动生成的冲掉,需要再次修改。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 21:22