如题!急!跪求百度迁徙城市数据下载方法
如何下载https://qianxi.baidu.com/?from=shoubai#city=420100中的迁入迁出数据,在线等,急用……谢谢

举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2020-3-26 11:33

沙发
Fuller 管理员 发表于 2020-2-9 18:31:31 | 只看该作者
这种可视化网站需要大量的数据来显示的,所以,采集这种网站有两条路线

第一条路线:直接抓包。


因为网页要从服务器上下载大量数据才能显示出图表和动态,所以,会有大量的下发数据的消息,主要是 xhr 类的消息。可以先用chrome的f12查看,或者用集搜客网页快照软件的ctrl+ shift + c查看(这款软件暂时还没有公开发布)



专门寻找xhr类的消息,点击看看它的response是否是加密的。如果没有加密,这样的数据消息可以直接截取存下来。可以自己写程序存,也可以用集搜客网页快照软件自动存。

但是,我查了,这个网页上的xhr消息很少,应该是用了一些加密手段,让人无法截取。那么只能用第二条路线

第二条路线:用集搜客网络爬虫软件从网页上爬

这种网页比较难采集,要用高级教程中讲的连续动作,尤其要用连续移步动作,这是旗舰版的功能,要定义移步动作,需要规定鼠标从左向右移动的跨度,要比较合适,防止跨大了漏数据

另外,定义规则的时候,要用上冻结页面的功能,要用快捷键alt。过程是:
1,鼠标移动到折线图上,让悬浮显示的数字显示出来,鼠标不能动
2,点击alt,就会选中规则菜单,用向下箭头键,选择冻结页面
3,鼠标就可以动了,悬浮显示的不会消失
4,选择菜单刷新页面结构,再在dom上找,就能找到悬浮显示的内容




还有选择时间,和城市的难度,我试了一下,每个城市都有独立网址,所以,不用动作,因为做动作特别容易失败,而是把每个城市的网址采集到就准备好了爬虫线索

选时间是要用动作选的,但是连续选时间跟在折线图上移步有冲突,两个循环不能套在一起。我看了一下,如果要采集下面的走势图,其实不用选时间,因为选时间是为了刷新地图的。地图上动态显示的箭头是采集不了的

总之,要采集全这个网站,需要投入很多精力,一方面做规则和调试规则,一方面要时不时的检查爬虫运行是否遇到故障中断了,就要投入人力干预,比如,重新采集失败的

举报 使用道具
板凳
rmzhou 新手上路 发表于 2020-2-11 10:52:25 | 只看该作者
麻烦帮我预计一下,采集一个城市需要多久?特别是我又不熟悉搜集客啊,是不是通过人工复制粘贴还快点啊
举报 使用道具
地板
Fuller 管理员 发表于 2020-2-11 10:59:46 | 只看该作者
rmzhou 发表于 2020-2-11 10:52
麻烦帮我预计一下,采集一个城市需要多久?特别是我又不熟悉搜集客啊,是不是通过人工复制粘贴还快点啊 ...

这个重要难度是采集时间线上的曲线图,要采集从哪天到哪天的?
举报 使用道具
5#
rmzhou 新手上路 发表于 2020-2-12 11:17:41 | 只看该作者
Fuller 发表于 2020-2-11 10:59
这个重要难度是采集时间线上的曲线图,要采集从哪天到哪天的?

所有时间均需要采集:2020-01-01至2020-02-18;节前2020-01-10至2020-01-24;节后2020-01-25至2020-02-18;所有数据均需要采集,所以迫切需要最节约时间的方法。也曾想过通过百度后台获取,只是不得矣……
举报 使用道具
6#
rmzhou 新手上路 发表于 2020-2-12 11:20:42 | 只看该作者
全国、各省及其地级市均采集,共有400多个excel文件,每个文件均有40多张工作表,所以工作量确实很大,所以想寻找具有相应功能的爬虫软件……
举报 使用道具
7#
Fuller 管理员 发表于 2020-2-12 12:05:52 | 只看该作者
rmzhou 发表于 2020-2-12 11:20
全国、各省及其地级市均采集,共有400多个excel文件,每个文件均有40多张工作表,所以工作量确实很大,所以 ...

用集搜客网络爬虫的移步动作能采集,采集完成以后,把数据导入到会员中心,就能导出excel。

数据是否有遗漏要检查,因为连续动作过程中,万一网络响应速度慢,就有可能漏掉某个数据点。要利用excel的各种统计功能和透视功能进行检查。所以,采集这样的网站,投入的监视和校核的时间会比较多
举报 使用道具
8#
rmzhou 新手上路 发表于 2020-2-12 14:48:50 | 只看该作者
谢谢,那还是人工算了
举报 使用道具
9#
pxjsmile 新手上路 发表于 2020-3-6 02:14:51 | 只看该作者
你好,楼主,请问这些数据你获取了嘛?我也想要,能不能教教我啊?
举报 使用道具
10#
pxjsmile 新手上路 发表于 2020-3-6 02:15:41 | 只看该作者
你好,请问你搞定了吗?我也需要这些数据,能不能教教我啊?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 04:34