问:感觉用python爬那些加密的没搜到资源,你们这个爬加密的会容易些吗?比如说百度指数

答:关于加密的数据,大家有时候说法不够严谨。

有时候,服务器发下来的是一堆数字,比如,json,其实没有加密,只是用起来不方便。这种情形,如果等浏览器把内容都解析显示出来了,就好处理了,GooSeeker软件处理这类情形最方便,不用自己去解析。

百度指数好难,要比淘宝指数难,因为他们的数字用图片显示的。还不是普通的图片,比如,12345,这串数字不是在图片上挨着显示的,而是在一张大背景图上,好多乱码,其中包含这5个数字,用css控制,把这5个数字按照顺序“露”出来。这样,OCR程序也犯难了。

夏天我们给一科研单位解决这个问题,根据css的定位,把数字小图切下来,合一起交给ocr。图、css参数等等都能用GooSeeker抓取下来。再开发一个拼装程序就行了。

问题是是否值得去做。数据抓取就是这样,只要有足够投入,很多数据都能抓,是否值得去做?因为GooSeeker内嵌了浏览器核心,能看到的基本上都能抓到,有些主要看是否值得去抓,还有是否值得去开发程序做后续处理

举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2016-2-22 15:50

沙发
yangdengpan 新手上路 发表于 2016-1-19 15:50:28 | 只看该作者
回答很专业,管理是不是做爬虫出身的?听过亚一爬,亚二爬吗?
举报 使用道具
板凳
Fuller 管理员 发表于 2016-1-19 21:15:46 | 只看该作者
yangdengpan 发表于 2016-1-19 15:50
回答很专业,管理是不是做爬虫出身的?听过亚一爬,亚二爬吗?

你提的这个问题,我百度了一下,没有查到准确答案,似乎亚一爬是百度的李彦宏,亚二爬到底是谁?

看到这篇:http://sg.weibo.com/user/pennyliang/3929841176589108
还是不知道亚二爬是谁
举报 使用道具
地板
yangdengpan 新手上路 发表于 2016-1-26 11:00:27 | 只看该作者
嗯,亚二爬就是你刚爬出来的那位
举报 使用道具
5#
Fuller 管理员 发表于 2016-1-26 23:25:41 | 只看该作者
yangdengpan 发表于 2016-1-26 11:00
嗯,亚二爬就是你刚爬出来的那位

其实我心里一直在猜测,难道你说的亚二爬是红极一时的负责实时搜索的亚妹?她才堪称亚“二爬”。

亚二爬这个名号是怎么来的?
举报 使用道具
6#
riolaw 初级会员 发表于 2016-2-3 16:14:29 | 只看该作者
小白贸然提问,canvas算不算加密的数据。我想爬平台里面借款期限分布的数据,他显示的节点名是canvas。这个能爬吗?我试过是失败的。
举报 使用道具
7#
Fuller 管理员 发表于 2016-2-3 16:55:05 | 只看该作者
riolaw 发表于 2016-2-3 16:14
小白贸然提问,canvas算不算加密的数据。我想爬平台里面借款期限分布的数据,他显示的节点名是canvas。这个 ...

这个不算加密,而是另一种网页标签。目前下载到的GooSeeker软件抓取不到SVG里面的数据,我记不清楚这个canvas是不是svg命名空间里面的,如果是html5的图形功能里面的,肯定能抓到。

另外,要注意,很多内容用XPath定位不到的,虽然网页上显示了,但是他们是html标签的property,而不是attribute,就不能用xpath抓取他们,所以,GooSeeker整理箱就抓取不了。需要在这些节点上做连续动作,才能抓取。参看:http://www.gooseeker.com/doc/article-141-1.html

目前,MS谋数台上有个开发者模式,能自定义抓取代码,但是因为还没有排到这个功能,它的手册没有写出来,要等一段时间我们公布怎样使用它
举报 使用道具
8#
riolaw 初级会员 发表于 2016-2-3 18:33:00 | 只看该作者
Fuller 发表于 2016-2-3 16:55
这个不算加密,而是另一种网页标签。目前下载到的GooSeeker软件抓取不到SVG里面的数据,我记不清楚这个ca ...

好的 期待你们进一步的完善更新 谢谢
举报 使用道具
9#
ym 版主 发表于 2016-2-22 15:50:31 | 只看该作者
百度指数,可以去淘宝搜索,有人专门提取这个数据,一个词大概1.5元~
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-5 15:02