Python 爬虫如何获取onclick（非url链接）之后网页？

酱紫

Python 爬虫如何获取onclick里面内容，不需要用selenium 模拟点击，而是直接获得哦你click返回参数？具体比如说
https://www.tripadvisor.com/Show ... rginia.html#REVIEWS

Tripadvisor 网站，crawl的时候我需要点击next 刷新界面
<a data-page-number="2" data-offset="4" href="/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#or5" class="nav next rndBtn ui_button primary taLnk" onclick=" ta.trackEventOnPage('STANDARD_PAGINATION', 'next', '2', 0);
">Next</a>

但是这个next 执行之后url从
https://www.tripadvisor.com/Show ... e_Virginia.html#or0

变成
https://www.tripadvisor.com/Show ... _Virginia.html#or05

就是从 xxx#or0 变成 xxx#or5

也就是说是只是改变了hashtag， scrapy 的request 是只能获取hashtag之前的url，无法区分第一页和第二页。

所以我想知道，如何能通过 next，继续crawl下一个界面？
非常感谢

quyixuan · 发表于 2016-10-17 17:50:03

用Python的webdriver驱动火狐，针对next做模拟点击，不用分析click返回参数。

Fuller · 发表于 2016-10-17 18:34:12

现在越来越多这类网站了，通过一点点分析网址特征和抓包分析http消息参数，这种方式太耗时耗力，有些网站，比如，淘宝，点击一个链接会发送10几个http消息，这样一点点分析太难了。用GooSeeker网络爬虫可以完全模拟人的点击行为，不用分析网址或者http消息

Python 爬虫如何获取onclick（非url链接）之后网页？

共 2 个关于本帖的回复最后回复于 2016-10-17 18:34

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

Python 爬虫如何获取onclick（非url链接）之后网页？

共 2 个关于本帖的回复 最后回复于 2016-10-17 18:34

推荐板块

精彩推荐

热门话题

热门用户

共 2 个关于本帖的回复最后回复于 2016-10-17 18:34