出现这个情况，是什么原因导致的呢？

加为好友

本帖最后由 759924607 于 2017-3-6 19:20 编辑

使用python编写了一个爬虫，抓取列表页和列表页下详情页的内容。
页面内的标签及内容，经过检验都可以爬下来。

基本上爬上4页——5页，就会出错。但是重新启动程序，又可以继续了。请求的代码如下：

headers = {
'user-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36',
'Cookies': 'gr_user_id=91e943c5-19cf-4e7e-aea5-78185d313eea; acw_tc=AQAAALpII0N6OgMA+gNo3wE+5udYk6yb; identity=18810608417%40163.com; remember_code=3u5pM0ub0l; acw_sc=58b0f63d97240f5b84aea5add74aeaa04f74ca2e; session=19ac8fc2767bb2060d97478b349ae9b97c82bc00; _gat=1; _ga=GA1.2.234080670.1486720403; gr_session_id_eee5a46c52000d401f969f4535bdaa78=538090ad-ddf9-4380-b6cd-2f8ec0161f22; Hm_lvt_1c587ad486cdb6b962e94fc2002edf89=1486720401,1487638108,1487934410,1487992382; Hm_lpvt_1c587ad486cdb6b962e94fc2002edf89=1487993752'
}
companyweb_data = requests.get(url, headers=headers)

复制代码

从这个情况看，应该不是封IP。我没有使用任何代理，重新启动程序可以正常运行，因此判断不是被封IP。

求各位大神分析下，出现错误，到底是什么原因导致的？

shenzhenwan10 · 发表于 2017-3-6 19:20:44

你说的"重新启动程序"可以正常运行, 那运行的情况还是和重启前一样吗: "基本上爬上4页——5页，就会出错。"

759924607 · 发表于 2017-3-6 19:22:09

shenzhenwan10 发表于 2017-3-6 19:20
你说的"重新启动程序"可以正常运行, 那运行的情况还是和重启前一样吗: "基本上爬上4页——5页，就会出错。" ...

有时候是3页，有时候是到5页。不一定。不过，每次都不能顺利的采集，如果设定10页，中间一定会出错。

shenzhenwan10 · 发表于 2017-3-6 19:41:27

看你贴出的图里, 已经报了错误: Remote end closed connection without response
会不会是你爬的太快?
不如试下集搜客爬虫, 看看爬取相同的页面是否也会出错

759924607 · 发表于 2017-3-7 14:56:45

shenzhenwan10 发表于 2017-3-6 19:41
看你贴出的图里, 已经报了错误: Remote end closed connection without response
会不会是你爬的太快?
不如 ...

大神您说IP没有被封，为什么连接会被限制呢。是不是我headers的问题？我是把浏览器中的headers复制到代码里边，然后进行请求的。

共 4 个关于本帖的回复最后回复于 2017-3-7 14:56

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页