本文的目的是让“文科生”也能做文本挖掘。这也是我在多个商业分析项目中采用的方法,看起来简单粗暴,但是非常有效。 越来越多的地方政府网站已经建立了自己的政民互动平台,比如,建设热线平台让市民可以咨询问题和投诉,这样有利于城市治理优化。随着自然语言处理技术(NLP)的发展,已经具备条件对文本内容做量化分析和数据挖掘运算。 NLP看起来是相当高科技的东西,对于一个商业分析师来说,不要被这个缩略语所迷惑了,重要的是要高效的完成研究报告。为了达到这个目的,采用以下处理过程可以免受高科技的迷惑:
使用GooSeeker研发的分词打标软件,就可以实现上面几点,看到这里,你可能会疑惑,为什么第二步还要筛选特征词? 用过分词软件的人就会知道,切分出来的词语包含了单个字、两个字、多个字等情况,单字是很难判断出它的语义,两个字以上的组合词才带有明确的语义特征,所以,筛选词语还是有必要的。但是,为什么是手工做呢?都什么年代了。 虽然现在是AI的时代,我仍然推荐手工筛选特征词。 其实一点都不low,首先,可以起一个好听的名字:基于专家经验的特征工程。很高大上吧!这不是我杜撰的,所谓特征工程,可以说是机器学习的奠基石,就是将数据以更加合适的方式展示出来,通常需要大量的人工干预和专家经验,所以,人工提取特征词的方法在大部分场合仍然是最有效的。 你可能会问,现在有自动化的特征工程算法,甚至可以用深度学习方法自动完成特征选择过程,为什么不直接用啊,手工多费劲啊,但是在实际的使用场景里,作为一个商业分析人员,往往只有一周时间,需要制作一个报告,作为专职的商业分析人员,不可能总是固守一个行业,那么在这一周既要熟悉这个行业,又要做出一个有可读性的研究报告,我认为工作量这么大的机器学习是很难帮上忙的。 根据我的体验,我要查阅大量资料熟悉这个行业,掌握他们的行话,要打这个基础,刚好可以借用合适的工具把描述这个行业的特征词库建立起来。随着量化分析技术的广泛采用,自然语言处理(NLP)的深入程度和细致程度越来越高,就是所谓的"画像",而画像的层面是很多的,所以,不同行业领域的特征词,都需要老练的经验技能才能选对,不是随便选出来的。 从上图可以看出,不同的语句或者同一条语句,都可能说不同角度的事情。例如,"流程"是直白地问xxx流程怎么样到哪查等,而"时候"可能更倾向于表达一种诉求:我想更快地办完,行吗?显然他们是不同角度的表达。 在筛选特征词的时候应该把这些角度做些梳理和记录。如果要做多层次、多类别分析,这个时候把他们类别梳理出来是有用的。 举一个更有切实体验的例子 这是一个手机消费者画像的例子,将消费者对手机的感知可以分成4大类进行分析:硬件配置、软件功能、ID与结构、用户体验等,每个大类还可以细分小类。这样就形成了分级分类结构,也就是把特征词进行分类整理。这样我们就可以对研究对象做不同层面的剖析,可以深度钻取,也可以横向比较。 可见,所有这些成果都建立在特征词库的基础上的,无论后续的数据挖掘算法有多么高科技,关键的特征词依然是有效的。 前面说了,在大部分场景下,手工筛选特征词是最实用和最经济的,为了好听一点,我们称之为:基于专家经验的特征工程。接下来可以交给"高科技的"建模运算,其实主要是调参,那么手工筛选特征词依然是最大比重的一块,合在一起可以叫做:"专家经验+调参",不失"高科技"形象。 |