新人小白,在爬取天涯论坛帖子的评论列表时,遇到问题,有的帖子有翻页,有的帖子没有翻页,所以我创建了一个主题两个规则,来对应这种情况。可是添加翻页的网址,DS打数机只爬一页;添加不翻页的网址,就爬取成功。
求高手查看主题:天涯论坛二级评论列表爬取 (包含规则_1和规则_2)
翻页的测试页面:http://bbs.tianya.cn/post-house-233470-1.shtml
不翻页的测试页面:http://bbs.tianya.cn/post-house-661608-1.shtml
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-4-14 09:24

沙发
ym 版主 发表于 2016-6-24 09:33:36 | 只看该作者
本帖最后由 ym 于 2016-6-24 09:34 编辑

对于有翻页和无翻页的网页,不用分开做两个规则,只要做一个规则(包含翻页设置)就行,因为爬虫程序会自动查找翻页的标记,如果存在翻页标记,就会自动点击翻页,如果不存在就不翻页。
而你分开做两个规则,规则里没有分别设置特有的关键内容,这样爬虫就区分不出是哪种网页要用哪个规则,默认就会用最简单的那个规则去采集网页数据。
举报 使用道具
板凳
liqiuyi 初级会员 发表于 2016-6-24 12:54:19 | 只看该作者
ym 发表于 2016-6-24 09:33
对于有翻页和无翻页的网页,不用分开做两个规则,只要做一个规则(包含翻页设置)就行,因为爬虫程序会自动 ...

我删除了另一条不翻页的规则,只用翻页的规则抓取数据成功了。感谢大神的帮助。
举报 使用道具
地板
liqiuyi 初级会员 发表于 2016-6-24 12:55:12 | 只看该作者
ym 发表于 2016-6-24 09:33
对于有翻页和无翻页的网页,不用分开做两个规则,只要做一个规则(包含翻页设置)就行,因为爬虫程序会自动 ...

谢大神。
举报 使用道具
5#
真是醉了 初级会员 发表于 2017-4-13 20:20:25 | 只看该作者
我做了一个可以翻页抓取数据的规则,在制定规则页面可以翻页抓取,但是把它用在同样结构的其他网页中,它只可以所添加线索的一页,不会翻页,该怎么解决

举报 使用道具
6#
Fuller 管理员 发表于 2017-4-13 22:10:48 | 只看该作者
真是醉了 发表于 2017-4-13 20:20
我做了一个可以翻页抓取数据的规则,在制定规则页面可以翻页抓取,但是把它用在同样结构的其他网页中,它只 ...

可能你做线索定位映射的时候,没有选择整个翻页区。把主题名发出来,给你诊断一下。
举报 使用道具
7#
真是醉了 初级会员 发表于 2017-4-14 09:02:55 | 只看该作者
star_1   谢谢啦 刚刚看到回复 不好意思
举报 使用道具
8#
真是醉了 初级会员 发表于 2017-4-14 09:04:01 | 只看该作者
Fuller 发表于 2017-4-13 22:10
可能你做线索定位映射的时候,没有选择整个翻页区。把主题名发出来,给你诊断一下。
...

star_1   非常感谢  刚刚看到回复
举报 使用道具
9#
Fuller 管理员 发表于 2017-4-14 09:24:38 | 只看该作者
真是醉了 发表于 2017-4-14 09:04
star_1   非常感谢  刚刚看到回复

失败的那个网址发出来我测试一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 13:57