|
有一个大的IP池是解决反爬的重要途径,甚至可以发展成“众爬”,集搜客有工作组概念,可以发起一个工作组,在全国范围内召集参与者。不过,这个技术触及多方利益,暂时没有开放。
另外,我发现越来越多的网站采取一些识别真人行为的算法,比如,根据鼠标的轨迹和其它按键动作,来判断是否是机器人。好像是在V7版本,集搜客的MS谋数台上增加了一个事件录制功能,目前开放了鼠标移动事件的录制功能,还可以对每个样本做一个简单标注。这样就可以大量录制一些事件样本,经过特定的特征提取以后,给真人行为建模。这个项目还在研究阶段。已经用在了滑块验证码破解,未来可能会在抓取网页之前先在网页上做点动作。
还有,就是很多网站的网页不能独立访问,而是要沿着一个访问路径,如果直接通过网址加载一个网页,会遇到失效网址提示。我把这种网站模式称为“会话模式”,为了解决这个问题,集搜客网络爬虫用连续动作功能,沿着一个访问路径到达要抓取的网页。也许一些状态信息记录在cookie中,也许一些状态信息生成以后当成url参数,如果用Python编程,这些事情都要编程处理。
如果要做一个通用的网络爬虫,这些零零碎碎的问题都需要解决,要开发一个比较复杂的爬虫框架出来,根据技术的发展,不断往里填爬虫功能 |
|
共 2 个关于本帖的回复 最后回复于 2016-11-3 10:32