快捷导航
我正在抓网易的跟帖,不过翻到第二页就过不去了,试了几种方法都不行。
它的每一页的url是一样的,原文档我记得有这方面的解决方法,但现在布局变了,行不通。
规则名是:网易跟帖2
原网页链接是:http://comment.news.163.com/news ... EC0001B0S22TQ1.html
我需要抓取的是最新跟帖,请各位高手支招,谢谢!
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2015-8-16 14:46

gz51837844 管理员 发表于 2015-8-15 20:58:17 | 显示全部楼层
你的翻页线索是用class名称为"pages"的节点映射的,但是页面上存在多个class名称为"pages"的节点。
可以改成用"pages"的父节点"titleBar titleBar-top"来做线索映射,其它不变。
举报 使用道具
yihongfa 初级会员 发表于 2015-8-16 07:28:36 | 显示全部楼层
好的,谢谢!
举报 使用道具
yihongfa 初级会员 发表于 2015-8-16 07:42:57 | 显示全部楼层
gz51837844 发表于 2015-8-15 20:58
你的翻页线索是用class名称为"pages"的节点映射的,但是页面上存在多个class名称为"pages"的节点。
可以改 ...

我试了一下,还是不行,只能抓两页。状态面板总是显示:AGA_L和Again2
我新设了一个规则,是按你的方法做的:网易跟帖3
请指教,谢谢!
举报 使用道具
gooseeker_info 金牌会员 发表于 2015-8-16 09:47:45 | 显示全部楼层
网易新闻跟帖有如下特点:
1,网页上有很多class和id,可以用来做定位标志映射,以提高抓取规则的适应度
2,抓取多个样例的时候,可以不只使用样例复制映射,用定位标志映射,给最顶层的list抓取内容做定位标志映射,而且需要双击list这个抓取内容,在编辑窗口中选择class作为定位标志,不要用id,因为id是唯一的
3,这个网页上有很多js代码,一直运行,可以设置定时器触发,提高抓取速度
举报 使用道具
gooseeker_info 金牌会员 发表于 2015-8-16 09:56:07 | 显示全部楼层
刚才发布了一个新资源,可以参考,http://www.gooseeker.com/doc/thread-232-1-1.html ,但是要等管理员审核了才能看
举报 使用道具
comcsr 新手上路 发表于 2015-8-16 14:46:30 | 显示全部楼层
gooseeker_info 发表于 2015-8-16 09:47
网易新闻跟帖有如下特点:
1,网页上有很多class和id,可以用来做定位标志映射,以提高抓取规则的适应度
2 ...

太谢谢了!点赞!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 新闻内容分词后在Jupyter Notebook中使用TF
  • Jupyter Notebook使用sklearn的TF-IDF算法
  • 基于TSC 理论的网络社区中知识动员模式研究
  • 网页数据采集使用嵌套整理箱获得有层次的数
  • 我国旅游管理研究的知识来源与结构—基于文

热门用户

GMT+8, 2021-7-31 14:11