本帖最后由 ym 于 2016-8-31 11:11 编辑

网址:从http://v.kuaidadi.com/提取数据(交流群 341350898    337462280     481335253)

操作步骤:
第一步,安装Firefox火狐浏览器

第二步,打开火狐的菜单栏,在最顶上,点鼠标右键,选择“菜单栏”

第三步,选择工具-》web开发者-》浏览器控制台


第四步:在火狐浏览器窗口打开你们要抓数据的那个网址目标数据:出租车分布 打车难易度  打车需求量抢单时间 车费 和出行轨迹

第五步:点击地图,到你们需要的那个尺度

回到浏览器控制台,会看到消息一条条出现了

根据我的实验,标志成 XHR 的那些消息含有ZIP数据

在其中一条消息中用鼠标右键,选择菜单“在新的浏览器标签页中打开”,就能看到数据了,你想怎么保存,你自己选择了



分析过程:
分析:这些数据实时在变,轨迹能看就能抓下来,但要确定采集频度。


攻略:
大家用MS谋数台的时候,可以玩一个功能:用快捷键冻结页面。比如,要抓取鼠标悬浮以后出现的内容,要定义抓取规则,首先要冻结住,按alt键,就能选择 “文件”菜单,选择“冻结页面”,就能针对冻结页面做抓取规则,
目前大家用的这个版本还没有开放抓取svg上的内容,上面那个功能只能玩一下了。这个地图上的信息都存在于svg上,要定制一些代码。


要做鼠标模拟悬浮和点击,要写一些javascript代码的,一个月前给朋友做过百度指数和淘宝指数的抓取,每做一个要花费挺长时间的调试,难度很大啊,这个抓取要在这么短时间内出数据难度太大了。用抓包工具,配合手工处理,可能是一条路。用浏览器的抓包工具看这个东西,似乎定期把一个zip发过来的


底下是一个进度条,在前进的时候,实时在发包,
放到底好像就停止了


抓到的数据是这样的



大家有没有人会用wireshark?
这个软件可以把所有消息存下来,只要他们的数据不加密,就能分解出来,一般会用json格式




看到是没有加密的数据




举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2016-9-4 17:07

沙发
剑剑剑 新手上路 发表于 2015-9-11 12:25:58 | 只看该作者
然后呢
举报 使用道具
板凳
zpp13251240 新手上路 发表于 2015-9-11 13:01:46 | 只看该作者
哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈好
举报 使用道具
地板
ym 版主 发表于 2015-9-11 13:09:15 | 只看该作者
想了解更多和看数据可以加官方群341350898  看公告和群文件
举报 使用道具
5#
ChrisZenn 新手上路 发表于 2015-9-11 15:26:18 | 只看该作者
ym 发表于 2015-9-11 13:09
想了解更多和看数据可以加官方群341350898  看公告和群文件

群主  求申请通过  已发验证信息
举报 使用道具
6#
lijunze 新手上路 发表于 2015-9-11 22:37:50 | 只看该作者
版主,能不能截取每个时间段的数据  具体到每个小时的??求帮助~~
举报 使用道具
7#
ym 版主 发表于 2015-9-11 23:05:24 | 只看该作者
lijunze 发表于 2015-9-11 22:37
版主,能不能截取每个时间段的数据  具体到每个小时的??求帮助~~

网站源数据是以天为单位记录数据的,估计没办法
举报 使用道具
8#
ym 版主 发表于 2015-9-11 23:07:45 | 只看该作者
本帖最后由 ym 于 2015-9-11 23:11 编辑

旧群已满, 可以加到新群481335253, 还是看去群公告和群文件里看攻略和资料
举报 使用道具
9#
485543 新手上路 发表于 2015-9-12 11:39:21 | 只看该作者
请问,在抓取了困难度的summary后,其数值是从0.1到0.8的,那么到底数值小难还是数值大比较困难
举报 使用道具
10#
727005482 新手上路 发表于 2016-4-13 12:41:55 | 只看该作者
不错   就是看不了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-22 22:17