问:感觉用python爬那些加密的没搜到资源,你们这个爬加密的会容易些吗?比如说百度指数
答:关于加密的数据,大家有时候说法不够严谨。
有时候,服务器发下来的是一堆数字,比如,json,其实没有加密,只是用起来不方便。这种情形,如果等浏览器把内容都解析显示出来了,就好处理了,GooSeeker软件处理这类情形最方便,不用自己去解析。
百度指数好难,要比淘宝指数难,因为他们的数字用图片显示的。还不是普通的图片,比如,12345,这串数字不是在图片上挨着显示的,而是在一张大背景图上,好多乱码,其中包含这5个数字,用css控制,把这5个数字按照顺序“露”出来。这样,OCR程序也犯难了。
夏天我们给一科研单位解决这个问题,根据css的定位,把数字小图切下来,合一起交给ocr。图、css参数等等都能用GooSeeker抓取下来。再开发一个拼装程序就行了。
问题是是否值得去做。数据抓取就是这样,只要有足够投入,很多数据都能抓,是否值得去做?因为GooSeeker内嵌了浏览器核心,能看到的基本上都能抓到,有些主要看是否值得去抓,还有是否值得去开发程序做后续处理
|
|
|
|
|
共 8 个关于本帖的回复 最后回复于 2016-2-22 15:50