快捷导航
13 15978

2015年数据建模大赛B题数据获取攻略

ym 于 2015-9-11 11:45 发表 置顶 [复制链接]
本帖最后由 ym 于 2016-8-31 11:11 编辑

网址:从http://v.kuaidadi.com/提取数据(交流群 341350898    337462280     481335253)

操作步骤:
第一步,安装Firefox火狐浏览器

第二步,打开火狐的菜单栏,在最顶上,点鼠标右键,选择“菜单栏”

第三步,选择工具-》web开发者-》浏览器控制台
QQ图片20150911115518.png

第四步:在火狐浏览器窗口打开你们要抓数据的那个网址目标数据:出租车分布 打车难易度  打车需求量抢单时间 车费 和出行轨迹

第五步:点击地图,到你们需要的那个尺度

回到浏览器控制台,会看到消息一条条出现了

根据我的实验,标志成 XHR 的那些消息含有ZIP数据
QQ图片20150911115122.png
在其中一条消息中用鼠标右键,选择菜单“在新的浏览器标签页中打开”,就能看到数据了,你想怎么保存,你自己选择了



分析过程:
分析:这些数据实时在变,轨迹能看就能抓下来,但要确定采集频度。


攻略:
大家用MS谋数台的时候,可以玩一个功能:用快捷键冻结页面。比如,要抓取鼠标悬浮以后出现的内容,要定义抓取规则,首先要冻结住,按alt键,就能选择 “文件”菜单,选择“冻结页面”,就能针对冻结页面做抓取规则,
目前大家用的这个版本还没有开放抓取svg上的内容,上面那个功能只能玩一下了。这个地图上的信息都存在于svg上,要定制一些代码。


要做鼠标模拟悬浮和点击,要写一些javascript代码的,一个月前给朋友做过百度指数和淘宝指数的抓取,每做一个要花费挺长时间的调试,难度很大啊,这个抓取要在这么短时间内出数据难度太大了。用抓包工具,配合手工处理,可能是一条路。用浏览器的抓包工具看这个东西,似乎定期把一个zip发过来的
QQ图片20150911113749.png

底下是一个进度条,在前进的时候,实时在发包,
放到底好像就停止了
QQ图片20150911114034.png

抓到的数据是这样的

QQ图片20150911114238.png

大家有没有人会用wireshark?
这个软件可以把所有消息存下来,只要他们的数据不加密,就能分解出来,一般会用json格式
QQ图片20150911114401.png

QQ图片20150911114427.png

看到是没有加密的数据
QQ图片20150911114509.png



举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2016-9-4 17:07

剑剑剑 新手上路 发表于 2015-9-11 12:25:58 | 显示全部楼层
然后呢
举报 使用道具
zpp13251240 新手上路 发表于 2015-9-11 13:01:46 | 显示全部楼层
哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈好
举报 使用道具
ym 版主 发表于 2015-9-11 13:09:15 | 显示全部楼层
想了解更多和看数据可以加官方群341350898  看公告和群文件
举报 使用道具
ChrisZenn 新手上路 发表于 2015-9-11 15:26:18 | 显示全部楼层
ym 发表于 2015-9-11 13:09
想了解更多和看数据可以加官方群341350898  看公告和群文件

群主  求申请通过  已发验证信息
举报 使用道具
lijunze 新手上路 发表于 2015-9-11 22:37:50 | 显示全部楼层
版主,能不能截取每个时间段的数据  具体到每个小时的??求帮助~~
举报 使用道具
ym 版主 发表于 2015-9-11 23:05:24 | 显示全部楼层
lijunze 发表于 2015-9-11 22:37
版主,能不能截取每个时间段的数据  具体到每个小时的??求帮助~~

网站源数据是以天为单位记录数据的,估计没办法
举报 使用道具
ym 版主 发表于 2015-9-11 23:07:45 | 显示全部楼层
本帖最后由 ym 于 2015-9-11 23:11 编辑

旧群已满, 可以加到新群481335253, 还是看去群公告和群文件里看攻略和资料
举报 使用道具
485543 新手上路 发表于 2015-9-12 11:39:21 | 显示全部楼层
请问,在抓取了困难度的summary后,其数值是从0.1到0.8的,那么到底数值小难还是数值大比较困难
举报 使用道具
727005482 新手上路 发表于 2016-4-13 12:41:55 | 显示全部楼层
不错   就是看不了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 爬wish等瀑布流网站时使用清除老数据功能
  • 从淘宝的买家评论中,能挖掘出什么有用的信
  • 连续动作:如何把抓到的信息与动作步骤对应
  • 淘宝开店运营十大攻略
  • 深圳市咨询投诉分析

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-10-23 10:42