Python 爬虫如何获取onclick里面内容,不需要用selenium 模拟点击,而是直接获得哦你click返回参数?具体比如说
https://www.tripadvisor.com/Show ... rginia.html#REVIEWS

Tripadvisor 网站,crawl的时候我需要点击next 刷新界面
<a data-page-number="2" data-offset="4" href="/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#or5" class="nav next rndBtn ui_button primary taLnk" onclick=" ta.trackEventOnPage('STANDARD_PAGINATION', 'next', '2', 0);
">Next</a>

但是这个next 执行之后url从
https://www.tripadvisor.com/Show ... e_Virginia.html#or0


变成
https://www.tripadvisor.com/Show ... _Virginia.html#or05

就是 从 xxx#or0 变成 xxx#or5

也就是说是只是改变了hashtag, scrapy 的request 是只能获取hashtag之前的url,无法区分第一页和第二页。

所以我想知道,如何能通过 next, 继续crawl下一个界面?
非常感谢
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-10-17 18:34

沙发
quyixuan 金牌会员 发表于 2016-10-17 17:50:03 | 只看该作者
用Python的webdriver驱动火狐,针对next做模拟点击,不用分析click返回参数。
举报 使用道具
板凳
Fuller 管理员 发表于 2016-10-17 18:34:12 | 只看该作者
现在越来越多这类网站了,通过一点点分析网址特征和抓包分析http消息参数,这种方式太耗时耗力,有些网站,比如,淘宝,点击一个链接会发送10几个http消息,这样一点点分析太难了。用GooSeeker网络爬虫可以完全模拟人的点击行为,不用分析网址或者http消息
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-2 17:30