本帖最后由 759924607 于 2017-3-6 19:20 编辑

使用python编写了一个爬虫,抓取列表页和列表页下详情页的内容。
页面内的标签及内容,经过检验都可以爬下来。

基本上爬上4页——5页,就会出错。但是重新启动程序,又可以继续了。请求的代码如下:

  1. headers = {
  2.             'user-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36',
  3.             'Cookies': 'gr_user_id=91e943c5-19cf-4e7e-aea5-78185d313eea; acw_tc=AQAAALpII0N6OgMA+gNo3wE+5udYk6yb; identity=18810608417%40163.com; remember_code=3u5pM0ub0l; acw_sc=58b0f63d97240f5b84aea5add74aeaa04f74ca2e; session=19ac8fc2767bb2060d97478b349ae9b97c82bc00; _gat=1; _ga=GA1.2.234080670.1486720403; gr_session_id_eee5a46c52000d401f969f4535bdaa78=538090ad-ddf9-4380-b6cd-2f8ec0161f22; Hm_lvt_1c587ad486cdb6b962e94fc2002edf89=1486720401,1487638108,1487934410,1487992382; Hm_lpvt_1c587ad486cdb6b962e94fc2002edf89=1487993752'
  4.         }
  5. companyweb_data = requests.get(url, headers=headers)
复制代码



从这个情况看,应该不是封IP。我没有使用任何代理,重新启动程序可以正常运行,因此判断不是被封IP。


求各位大神分析下,出现错误,到底是什么原因导致的?

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-3-7 14:56

沙发
shenzhenwan10 金牌会员 发表于 2017-3-6 19:20:44 | 只看该作者
你说的"重新启动程序"可以正常运行, 那运行的情况还是和重启前一样吗: "基本上爬上4页——5页,就会出错。"
举报 使用道具
板凳
759924607 高级会员 发表于 2017-3-6 19:22:09 | 只看该作者
shenzhenwan10 发表于 2017-3-6 19:20
你说的"重新启动程序"可以正常运行, 那运行的情况还是和重启前一样吗: "基本上爬上4页——5页,就会出错。" ...

有时候是3页,有时候是到5页。不一定。不过,每次都不能顺利的采集,如果设定10页,中间一定会出错。
举报 使用道具
地板
shenzhenwan10 金牌会员 发表于 2017-3-6 19:41:27 | 只看该作者
看你贴出的图里, 已经报了错误: Remote end closed connection without response
会不会是你爬的太快?
不如试下集搜客爬虫, 看看爬取相同的页面是否也会出错
举报 使用道具
5#
759924607 高级会员 发表于 2017-3-7 14:56:45 | 只看该作者
shenzhenwan10 发表于 2017-3-6 19:41
看你贴出的图里, 已经报了错误: Remote end closed connection without response
会不会是你爬的太快?
不如 ...

大神 您说IP没有被封,为什么连接会被限制呢。是不是我headers的问题?我是把浏览器中的headers复制到代码里边,然后进行请求的。


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 09:18