上图是在DS打数机中截的。这个网页本身在浏览器中是可以打开的。而且,一开始爬数据的时候,显示出了页面。但爬了一页,就出现这种情况了。
这是IP被封?还是别的原因导致的?我爬取参数设置的也不快,而且没有使用爬虫群,就单窗口爬数据。
对于这种情况,我该怎么处理才能继续抓数据?

举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2016-9-25 15:16

沙发
Fuller 管理员 发表于 2016-9-25 14:13:08 | 只看该作者
你用的是GS爬虫浏览器还是Firefox插件?

GS爬虫浏览器有自己的User Agent,很容易被对方网站识别,用Firefox会好一些
举报 使用道具
板凳
2445406817 中级会员 发表于 2016-9-25 14:29:07 | 只看该作者
Fuller 发表于 2016-9-25 14:13
你用的是GS爬虫浏览器还是Firefox插件?

GS爬虫浏览器有自己的User Agent,很容易被对方网站识别,用Firef ...

我用的火狐插件,而且刚刚让同事帮忙爬了一下,也出现了这样的问题。他电脑是在宿舍的,我用的公司的电脑。都不行。
您在遇到这种问题的时候,怎么处理的?
规则名称:itjuzi活跃机构抓取 、itjuzi活跃机构详情
举报 使用道具
地板
Fuller 管理员 发表于 2016-9-25 14:40:38 | 只看该作者
2445406817 发表于 2016-9-25 14:29
我用的火狐插件,而且刚刚让同事帮忙爬了一下,也出现了这样的问题。他电脑是在宿舍的,我用的公司的电脑 ...

在火狐的菜单中找到 工具-〉选项,在里面能找到清cookie和历史记录的选项。清了以后,重新启动火狐和爬虫。

只运行一个爬虫窗口,只爬详情页试试,多少页会封锁?

每个网站有不同的反爬机制,周一我让同事研究一下,要找到它的反爬机制。如果它使用检测人的行为的话,我们可以模拟人的行为
举报 使用道具
5#
Fuller 管理员 发表于 2016-9-25 14:48:27 | 只看该作者
刚才加载看了,是不是抓取 “itjuzi活跃机构详情”的时候封锁的,这个规则有个模拟点击,展开全部投资组合,很可能是在这里做了行为检测。

可以另存一套规则,只要两级,不要点击展开投资组合,如果这套规则没有封锁,就可以确定这个点击行为需要加入一些模拟人的行为。

在连续动作里面有一点点模拟人的行为,使用点击动作,点击动作有几个高级设置,可以组合试一下,比如,勾上“窗口可见”和“模拟点击”,如果不行,只勾“窗口可见”不勾“模拟点击”
举报 使用道具
6#
2445406817 中级会员 发表于 2016-9-25 14:49:56 | 只看该作者
Fuller 发表于 2016-9-25 14:40
在火狐的菜单中找到 工具-〉选项,在里面能找到清cookie和历史记录的选项。清了以后,重新启动火狐和爬虫 ...

也不行。应该不是我规则建立的问题。先抓列表页,下级线索转向详情页,之后模拟点击再抓详情页的内容。规则名就是上边说到的,您可以到时候看一下。
举报 使用道具
7#
Fuller 管理员 发表于 2016-9-25 15:16:07 | 只看该作者
似乎是他的网站不稳定,这一会连首页都访问不了了,有些时候,网站有bug,也会被误判成反爬
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 03:09