本帖最后由 759924607 于 2017-3-6 19:20 编辑
使用python编写了一个爬虫,抓取列表页和列表页下详情页的内容。
页面内的标签及内容,经过检验都可以爬下来。
基本上爬上4页——5页,就会出错。但是重新启动程序,又可以继续了。请求的代码如下:
- headers = {
- 'user-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36',
- 'Cookies': 'gr_user_id=91e943c5-19cf-4e7e-aea5-78185d313eea; acw_tc=AQAAALpII0N6OgMA+gNo3wE+5udYk6yb; identity=18810608417%40163.com; remember_code=3u5pM0ub0l; acw_sc=58b0f63d97240f5b84aea5add74aeaa04f74ca2e; session=19ac8fc2767bb2060d97478b349ae9b97c82bc00; _gat=1; _ga=GA1.2.234080670.1486720403; gr_session_id_eee5a46c52000d401f969f4535bdaa78=538090ad-ddf9-4380-b6cd-2f8ec0161f22; Hm_lvt_1c587ad486cdb6b962e94fc2002edf89=1486720401,1487638108,1487934410,1487992382; Hm_lpvt_1c587ad486cdb6b962e94fc2002edf89=1487993752'
- }
- companyweb_data = requests.get(url, headers=headers)
复制代码
从这个情况看,应该不是封IP。我没有使用任何代理,重新启动程序可以正常运行,因此判断不是被封IP。
求各位大神分析下,出现错误,到底是什么原因导致的?
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 4 个关于本帖的回复 最后回复于 2017-3-7 14:56