集搜客GooSeeker网络爬虫 › 官方文档 ›资讯 › 查看内容

为政民互动大数据分析建立特征词库

2018-5-18 10:06| 发布者: xandy| 查看: 5731| 评论: 0|原作者: 集搜客GooSeeker

摘要: 本文的目的是让“文科生”也能做文本挖掘。这也是我在多个商业分析项目中采用的方法，看起来简单粗暴，但是非常有效。*越来越多的地方政府网站已经建立了自己的政民互动平台，比如，建设热线平台让市民可以咨询问题 ...

本文的目的是让“文科生”也能做文本挖掘。这也是我在多个商业分析项目中采用的方法，看起来简单粗暴，但是非常有效。

越来越多的地方政府网站已经建立了自己的政民互动平台，比如，建设热线平台让市民可以咨询问题和投诉，这样有利于城市治理优化。随着自然语言处理技术（NLP）的发展，已经具备条件对文本内容做量化分析和数据挖掘运算。

NLP看起来是相当高科技的东西，对于一个商业分析师来说，不要被这个缩略语所迷惑了，重要的是要高效的完成研究报告。为了达到这个目的，采用以下处理过程可以免受高科技的迷惑：

首先要把原始语料切分成一个个词语，就是所谓的文本分词
接着应该将跟研究目的相关的特征词筛选出来
这样就把一行行语句转换成了一个行列表，每一列对应一个特征词，如果一句话含有这个词，对应的单元格就得1。这样就把语句标签化了
有了这个标签矩阵，可以做各种统计，也可以用数据挖掘算法做深度挖掘

使用GooSeeker研发的分词打标软件，就可以实现上面几点，看到这里，你可能会疑惑，为什么第二步还要筛选特征词？

用过分词软件的人就会知道，切分出来的词语包含了单个字、两个字、多个字等情况，单字是很难判断出它的语义，两个字以上的组合词才带有明确的语义特征，所以，筛选词语还是有必要的。但是，为什么是手工做呢？都什么年代了。

虽然现在是AI的时代，我仍然推荐手工筛选特征词。

其实一点都不low，首先，可以起一个好听的名字：基于专家经验的特征工程。很高大上吧！这不是我杜撰的，所谓特征工程，可以说是机器学习的奠基石，就是将数据以更加合适的方式展示出来，通常需要大量的人工干预和专家经验，所以，人工提取特征词的方法在大部分场合仍然是最有效的。

你可能会问，现在有自动化的特征工程算法，甚至可以用深度学习方法自动完成特征选择过程，为什么不直接用啊，手工多费劲啊，但是在实际的使用场景里，作为一个商业分析人员，往往只有一周时间，需要制作一个报告，作为专职的商业分析人员，不可能总是固守一个行业，那么在这一周既要熟悉这个行业，又要做出一个有可读性的研究报告，我认为工作量这么大的机器学习是很难帮上忙的。

根据我的体验，我要查阅大量资料熟悉这个行业，掌握他们的行话，要打这个基础，刚好可以借用合适的工具把描述这个行业的特征词库建立起来。随着量化分析技术的广泛采用，自然语言处理（NLP）的深入程度和细致程度越来越高，就是所谓的"画像"，而画像的层面是很多的，所以，不同行业领域的特征词，都需要老练的经验技能才能选对，不是随便选出来的。