又到一年一度全国大学生数学建模比赛时,距离2016年全国大学生数学建模比赛还有一个多月的时间,有些高校已经开启暑期培训模式。
建模比赛第一步就是要收集数据,有些题目会附上数据,有些题目则需要自己在互联网查找。

还记得2015年国赛B题“互联网+”时代的出租车资源配置,让一大波学生懵逼了,除了一个题目的word文档之外,一个数据附件都没有,想必当年很多学生看到之后内心都是奔溃的,后面大家找到苍穹上面有相关数据,但是,又让大家感到奔溃的就是不知道怎么把数据拿到。
有些题目会附上完整的数据,这样就不需要再为找数据而烦恼了。但是有些题目没有附上数据,需要自行在互联网寻找建模所需数据。

而互联网上的数据形式多样,如国家统计局的数据可以直接下载成excel、csv、xml等各种格式,对于后续数据分析而言是很方便的。但是这样善良的网站还是属于少数的。
QQ截图20160804114953.png

还有比如苍穹出租车数据,我们用到的是火狐浏览器的抓包,采集攻略可参见http://www.gooseeker.com/doc/thread-401-1-1.html

另外可能需要数据如股票、金融信息,而网站自身都没有提供数据下载(毕竟这些数据是不能随随便便就让你们下载来使用的)。
QQ截图20160804120438.png
这种类型的数据要怎么采集呢?有个最笨也是最没技术含量的方法就是一个一个复制粘贴下来。这里截图的数据量很少,复制粘贴也不过几秒钟的事情。但是实际上所需的数据量一般较大,人工复制就不实际了,在时间成本上就直接否定这个方案了。
当然,如果你有一个很厉害的队友直接写个爬虫也是可以很快就采集的。这里要说的是如果你没有这么厉害的队友,要怎么收集这些数据呢?这个时候,如果你会一款爬虫软件,就能轻易地把需要的数据采集下来,轻而易举地获取数据,你就赢在比赛的起跑线上了。

Gooseeker是一款成熟的网页抓取软件,可以将网页上的信息结构化地采集下来,还可以转成excel格式方便后期数据分析,趁现在离比赛还有一个多月的时间,快来掌握集搜客软件。别等到题目出来发现需要自己采集数据时才懊恼,就算最后题目附上完整数据用不上爬虫软件,多学一门技能也是百利而无一害的。还在等什么,快来学习吧

小白请戳这里→ 入门教程

举报 使用道具
| 回复

共 0 个关于本帖的回复 最后回复于 2016-9-5 14:42

您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 18:36