【注意】如果寻找分词和文本分析软件,为了完成内容分析和其他文本研究任务,直接使用集搜客分词和文本分析软件就可以了。本文是为了讲解集搜客分词和文本分析的实现原理,是给产品设计者和开发者看的。 特征工程是机器学习,甚至是深度学习中最为重要的一部分,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。 目的 最大限度地从原始数据中提取特征以供算法和模型使用。 1.探索性数据分析 EDA 通过统计、可视化工具了解数据的大致情况,包括但不限于记录数、特征数、特征的数据类型、数据缺失情况、数据的整体分布情况、数据的相关性情况等。 (1)单变量分析 单变量的分布、区间范围、缺失值比例; (2)多变量分析 关联性分析、组合分析; 2.数据预处理 (1)无量纲化 使不同规格/单位的数据转换到同一规格/单位; 有标准化、归一化、区间缩放法/离散化等处理方法; (2)缺失值处理 根据具体情况可选择填充缺失值、删除包含缺失值的行、不处理; (3)把定性特征转换为定量特征 把特征值转换为向量表示,比如使用独热编码 one-hot encoding、标签编码 label encoding、均值编码 mean encoding、哑变量编码; (4)处理不平衡数据 权重法、采样法、用SMOTE算法通过人工合成的方法来生成少数类的样本; (5)数据变换 数据分布非常不均时,可通过对数、指数、多项式变换、Box-Cox等方法转换成分布合理的数据; 3.特征选择 3.1. 定义 从特征集合中选择与研究主题相关的特征,剔除无关、冗余的特征; 新的特征只是原来特征的一个子集; 3.2. 选择理由 特征是否发散,离散程度高的特征才容易做样本区分; 与目标相关性高的特征,应当优先选择; 3.3. 过滤法 Filter 按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。 方法: (1)方差选择法 先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征; (2)相关系数法 先要计算各个特征对目标值的相关系数,选择相关系数大的特征; 皮尔森相关系数 Pearson、距离相关系数; (3)假设检验法 检验定性自变量对定性因变量的相关性; 卡方检验、F检验、T检验; (4)互信息法 从信息熵的角度分析各个特征和输出值之间的关系评分,选择信息增益值大的特征; 最大信息系数法、信息增益; 3.4. 包装法 Wrapper 选择直接把最终要使用的算法模型的性能作为特征子集的评价标准。 方法: (1)递归特征消除法 RFE 使用一个基模型来进行多轮训练,每轮训练后,移除若干权值系数的特征,再基于新的特征集进行下一轮训练,直到剩下的特征数满足需求为止; (2)LVW(Las Vegas Wrapper)算法 在拉斯维加斯方法框架下使用随机策略来进行子集搜索,并以最终分类器的误差为特征子集评价准则; 3.5. 嵌入法 Embedded 先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。 方法: (1)基于惩罚项的特征选择法 使用带惩罚项的基模型,除了筛选出特征外,同时也进行了降维。 L1正则化(Lasso)、L2正则化(岭); L1正则方法具有稀疏解的特性,L1没有选到的特征不代表不重要,要确定哪个特征重要应再通过L2正则方法交叉检验;; (2)基于树模型的特征选择法 树节点的深浅可以表示特征的权重; 决策树、GBDT; 4.特征降维 / 抽取 4.1. 定义 把原始高维空间的特征投影到低维度的空间,进行特征的重组形成新的特征,减少数据的维度,从而减少模型训练时间。 4.2. 方法 (1)主成分分析法 PCA 为了让映射后的样本具有最大的发散性; 使得降维后的数据与源数据的平方误差最小; (2)线性判别分析 LDA 为了让映射后的样本有最好的分类性能; (3)独立成分分析 ICA (4)核化线性降维 KPCA (5)奇异值分解 SVD (6)t-分布随机近邻嵌入 t-SNE (7)主成分回归 PCR (8)偏最小二乘回归 PLSR (9)萨蒙映射 (10)多维尺度分析法 MDS (11)投影寻踪法 PP (12)混合判别分析法 MDA (13)二次判别分析法 QDA (14)灵活判别分析法 FDA 5.特征衍生 5.1. 定义 已有的特征变量不够多,或者已有的特征不足以充分表征数据的特点,需要找出新的特征。 5.2. 方法 (1)特征扩展 基于一个特征,使用特征值打平(扩展)的方式衍生多个标注类型的特征; (2)合成特征 通过将单独的特征进行组合(相乘或求笛卡尔积)而形成的合成特征; (3)特征组合 / 特征交叉 将两个或多个输入特征相乘来对特征空间中的非线性规律进行编码的合成特征; (4)自动衍生 包括自动衍生和深度衍生的方法,可以缩减时间成本,构建维度更广更全面的新生特征; 参考资料: https://www.cnblogs.com/pinard/p/9032759.html https://blog.csdn.net/kylin_learn/article/details/82658673 https://www.cnblogs.com/hhh5460/p/5186226.html https://blog.csdn.net/chao2016/article/details/80917579 http://www.360doc.com/content/18/0417/14/54605916_746365854.shtml https://zhuanlan.zhihu.com/p/32749489 https://zhuanlan.zhihu.com/p/43225794 https://zhuanlan.zhihu.com/p/75065656 https://zhuanlan.zhihu.com/p/23356953 https://zhuanlan.zhihu.com/p/57198837 https://zhuanlan.zhihu.com/p/26444240 https://zhuanlan.zhihu.com/p/29364225 https://zhuanlan.zhihu.com/p/52152923 |