最近沉浸在反爬研究,先用百度拓词工具搜集了所有关于反爬的内容,最后归纳一下其实反爬策略也不多。反正每种反爬策略都是抬高了爬虫运行成本,直到高到让爬数据的感觉不划算。那么在爬虫开发者方面,就要想办法怎样进一步提高效率降低运行成本。 具体那些常见的反爬就不说了(可以看《反爬虫应对方法》),我只说说最近在做的事情应对反爬。 最近主要研究网站的机器人识别程序,有些网站使用了很复杂的机器人识别程序。我先做了一个专门的行为录制程序(在MS谋数台的开发者工具菜单栏中),用来录制大量的真人浏览网页的行为和浏览器事件,并且进行标注,然后,从这些数据中抽取特征,用一些算法,包括有监督的机器学习,建立行为模型。本来想用来破解滑动验证码,不过滑动验证码太弱了,需要找一个更加复杂的网站检验这个模型 |