模拟真人行为的反爬虫的一些研究

2016-9-18 21:56| 发布者: Fuller| 查看: 6238| 评论: 0

摘要: 最近沉浸在反爬研究，先用百度拓词工具搜集了所有关于反爬的内容，最后归纳一下其实反爬策略也不多。反正每种反爬策略都是抬高了爬虫运行成本，直到高到让爬数据的感觉不划算。那么在爬虫开发者方面，就要想办法怎样 ...

最近沉浸在反爬研究，先用百度拓词工具搜集了所有关于反爬的内容，最后归纳一下其实反爬策略也不多。反正每种反爬策略都是抬高了爬虫运行成本，直到高到让爬数据的感觉不划算。那么在爬虫开发者方面，就要想办法怎样进一步提高效率降低运行成本。

具体那些常见的反爬就不说了（可以看《反爬虫应对方法》），我只说说最近在做的事情应对反爬。

最近主要研究网站的机器人识别程序，有些网站使用了很复杂的机器人识别程序。我先做了一个专门的行为录制程序（在MS谋数台的开发者工具菜单栏中），用来录制大量的真人浏览网页的行为和浏览器事件，并且进行标注，然后，从这些数据中抽取特征，用一些算法，包括有监督的机器学习，建立行为模型。本来想用来破解滑动验证码，不过滑动验证码太弱了，需要找一个更加复杂的网站检验这个模型

鲜花

握手

雷人

路过

鸡蛋

收藏邀请

上一篇：百度拓词工具应用（2）：消除信息不对称，调对话语频下一篇：Python即时网络爬虫项目启动说明

模拟真人行为的反爬虫的一些研究

最新评论

相关分类

下级分类

热门排行