我正在抓网易的跟帖,不过翻到第二页就过不去了,试了几种方法都不行。
它的每一页的url是一样的,原文档我记得有这方面的解决方法,但现在布局变了,行不通。
规则名是:网易跟帖2
原网页链接是:http://comment.news.163.com/news ... EC0001B0S22TQ1.html
我需要抓取的是最新跟帖,请各位高手支招,谢谢!
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2015-8-16 14:46

沙发
gz51837844 管理员 发表于 2015-8-15 20:58:17 | 只看该作者
你的翻页线索是用class名称为"pages"的节点映射的,但是页面上存在多个class名称为"pages"的节点。
可以改成用"pages"的父节点"titleBar titleBar-top"来做线索映射,其它不变。
举报 使用道具
板凳
yihongfa 初级会员 发表于 2015-8-16 07:28:36 | 只看该作者
好的,谢谢!
举报 使用道具
地板
yihongfa 初级会员 发表于 2015-8-16 07:42:57 | 只看该作者
gz51837844 发表于 2015-8-15 20:58
你的翻页线索是用class名称为"pages"的节点映射的,但是页面上存在多个class名称为"pages"的节点。
可以改 ...

我试了一下,还是不行,只能抓两页。状态面板总是显示:AGA_L和Again2
我新设了一个规则,是按你的方法做的:网易跟帖3
请指教,谢谢!
举报 使用道具
5#
gooseeker_info 金牌会员 发表于 2015-8-16 09:47:45 | 只看该作者
网易新闻跟帖有如下特点:
1,网页上有很多class和id,可以用来做定位标志映射,以提高抓取规则的适应度
2,抓取多个样例的时候,可以不只使用样例复制映射,用定位标志映射,给最顶层的list抓取内容做定位标志映射,而且需要双击list这个抓取内容,在编辑窗口中选择class作为定位标志,不要用id,因为id是唯一的
3,这个网页上有很多js代码,一直运行,可以设置定时器触发,提高抓取速度
举报 使用道具
6#
gooseeker_info 金牌会员 发表于 2015-8-16 09:56:07 | 只看该作者
刚才发布了一个新资源,可以参考,http://www.gooseeker.com/doc/thread-232-1-1.html ,但是要等管理员审核了才能看
举报 使用道具
7#
comcsr 新手上路 发表于 2015-8-16 14:46:30 | 只看该作者
gooseeker_info 发表于 2015-8-16 09:47
网易新闻跟帖有如下特点:
1,网页上有很多class和id,可以用来做定位标志映射,以提高抓取规则的适应度
2 ...

太谢谢了!点赞!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 10:01