【注意】如果寻找分词和文本分析软件,为了完成内容分析和其他文本研究任务,直接使用集搜客分词和文本分析软件就可以了。本文是为了讲解集搜客分词和文本分析的实现原理,是给产品设计者和开发者看的。 之前研究自然语言处理(NLP)的知识脉络,发现随着数据爆炸和大数据挖掘处理的发展,现在不少自然语言处理项目面对的都是TB级的数据量,机器学习和深度学习就常被用到自然语言处理中,所以,要入门自然语言处理,就少不得要先掌握一下机器学习是什么了,下面是我们团队整理到的机器学习入门的知识点,供大家参考学习一下。 1.定义 研究怎样使用计算机模拟或实现人类的学习行为,是人工智能的重要课题 2.学习任务 (1)聚类分析 事先是没有类别的,将语料分成若干类别,是一种无监督学习 (2)分类分析 事先要确定好类别,把语料分到对应的类别里,是一种监督学习 (3)回归分析 是一种对数值型连续随机变量进行预测和建模的监督学习算法 3.模型算法 (1)支持向量机 SVM 可用于文本分类,适合高维特征,非线性可分 (2)回归算法 Regression Algorithms 可观察多个自变量与因变量的变化关系;可用于预测、分类 a. 线性回归 Liner Regression b. 逻辑回归 Logistics Regression c. 普通最小二乘回归 Ordinary Least Squares Regression/OLSR d. 逐步回归 Stepwise Regression e. 多元自适应回归样条 Multivariate Adaptive Regression Splines/MARS f. 本地散点平滑估计 Locally Estimated Scatterplot Smoothing/LOESS (3)正则化算法 Regularization Algorithms 通过惩罚机制,使模型在过拟合和欠拟合之间达到平衡,但很难校准这个平衡点 a. 岭回归 Ridge Regression b. 最小绝对收缩与选择算子 LASSO c. GLASSO d. 弹性网络 Elastic Net e. 最小角回归 Least-Angle Regression (4)集成算法 Ensemble Algorithms 由多个较弱的模型集成模型组,做出总体预测,具有较高精度,但维护工作量较大 a. 提升算法 Boosting b. 自适应提升算法 Adaptive Boosting/AdaBoost c. 层叠泛化 Stacked Generalization d. 梯度推进机 Gradient Boosting Machines/GBM e. 梯度提升回归树 Gradient Boosted Regression Trees/GBRT f. 随机森林 Random Forest (5)决策树算法 Decision Tree Algorithm 可用于预测、分类 a. 分类和回归树 Classification and Regression Tree/CART b. Iterative Dichotomiser 3/ID3 c. C4.5 和 C5.0 (6)降维算法 Dimensionality Reduction Algorithms 用于降低数据的描述维度 a. 主成分分析 Principal Component Analysis/PCA b. 主成分回归 Principal Component Regression/PCR c. 偏最小二乘回归 Partial Least Squares Regression/PLSR d. Sammon 映射 e. 多维尺度变换 Multidimensional Scaling/MDS f. 投影寻踪 Projection Pursuit g. 线性判别分析 Linear Discriminant Analysis/LDA h. 混合判别分析 Mixture Discriminant Analysis/MDA i. 二次判别分析 Quadratic Discriminant Analysis/QDA j. 灵活判别分析 Flexible Discriminant Analysis/FDA (7)聚类算法 Clustering Algorithms 对数据进行分类,把相似的样本分到一组 a. K-均值 k-Means b. k-Medians 算法 c. 最大期望算法Expectation Maximi/EM d. 分层集群 Hierarchical Clstering (8)基于实例的算法 Instance-based Algorithms a. 最近邻算法 k-Nearest Neighbor/KNN:可用于文本分类、模式识别、聚类分析,多分类领域、回归分析 b. 学习向量量化 Learning Vector Quantization/LVQ c. 自组织映射 Self-Organizing Map/SOM d. 局部加权学习 Locally Weighted Learning/LWL (9)贝叶斯算法 Bayesian Algorithms 使用贝叶斯定理来解决分类、回归等问题 a. 朴素贝叶斯 Naive Bayes/NB b. 高斯朴素贝叶斯 Gaussian Naive Bayes c. 多项式朴素贝叶斯 Multinomial Naive Bayes d. 平均一致依赖估计器 Averaged One-Dependence Estimators/AODE e. 贝叶斯信念网络 Bayesian Belief Network/BBN f. 贝叶斯网络 Bayesion Network (10)关联规则学习算法 Association Rule Learning Algorithms a. Apriori 算法 b. Eclat 算法 c. FP-growth (11)图模型 Graphical Models 是一种概率模型,可表示随机变量之间的条件依赖结构 a. 贝叶斯网络 Bayesian network(有向图) b. 马尔可夫随机场/马尔可夫网络 Markov random field/Markov network(无向图) c. 链图 Chain Graphs d. 祖先图 Ancestral graph (12)深度学习 Deep Learning a. 神经网络 Neural Network b. 卷积神经网络 CNN:擅长处理图像数据 c. 循环神经网络 RNN:有效处理具有时序的数据,对短期数据表现很好,长期数据遗忘 d. 长短期记忆 LSTM:处理时序数据,对长短期数据都有较好的记忆效果 e. 门控循环单元 GRU:与LSTM功能类似,但更易于计算 f. 深玻耳兹曼机 Deep Boltzmann Machine/DBM g. Deep Belief Networks/DBN 参考资料: https://zhuanlan.zhihu.com/p/25327755 https://zhuanlan.zhihu.com/p/46831267 https://zhuanlan.zhihu.com/p/75087830 https://zhuanlan.zhihu.com/p/59767178 |