机器学习算法入门介绍

2019-10-14 10:22| 发布者: ym| 查看: 6522| 评论: 0

摘要: 之前研究自然语言处理的知识脉络，发现随着数据爆炸和大数据挖掘处理的发展，现在不少自然语言处理项目面对的都是TB级的数据量，机器学习和深度学习就常被用到自然语言处理中，所以，要入门自然语言处理，就少不得要 ...

【注意】如果寻找分词和文本分析软件，为了完成内容分析和其他文本研究任务，直接使用集搜客分词和文本分析软件就可以了。本文是为了讲解集搜客分词和文本分析的实现原理，是给产品设计者和开发者看的。

之前研究自然语言处理(NLP)的知识脉络，发现随着数据爆炸和大数据挖掘处理的发展，现在不少自然语言处理项目面对的都是TB级的数据量，机器学习和深度学习就常被用到自然语言处理中，所以，要入门自然语言处理，就少不得要先掌握一下机器学习是什么了，下面是我们团队整理到的机器学习入门的知识点，供大家参考学习一下。

1.定义

研究怎样使用计算机模拟或实现人类的学习行为，是人工智能的重要课题

2.学习任务

（1）聚类分析

事先是没有类别的，将语料分成若干类别，是一种无监督学习

（2）分类分析

事先要确定好类别，把语料分到对应的类别里，是一种监督学习

（3）回归分析

是一种对数值型连续随机变量进行预测和建模的监督学习算法

3.模型算法

（1）支持向量机 SVM

可用于文本分类，适合高维特征，非线性可分

（2）回归算法 Regression Algorithms

可观察多个自变量与因变量的变化关系；可用于预测、分类

a. 线性回归 Liner Regression

b. 逻辑回归 Logistics Regression

c. 普通最小二乘回归 Ordinary Least Squares Regression/OLSR

d. 逐步回归 Stepwise Regression

e. 多元自适应回归样条 Multivariate Adaptive Regression Splines/MARS

f. 本地散点平滑估计 Locally Estimated Scatterplot Smoothing/LOESS

（3）正则化算法 Regularization Algorithms

通过惩罚机制，使模型在过拟合和欠拟合之间达到平衡，但很难校准这个平衡点

a. 岭回归 Ridge Regression

b. 最小绝对收缩与选择算子 LASSO

c. GLASSO

d. 弹性网络 Elastic Net

e. 最小角回归 Least-Angle Regression

（4）集成算法 Ensemble Algorithms

由多个较弱的模型集成模型组，做出总体预测，具有较高精度，但维护工作量较大

a. 提升算法 Boosting

b. 自适应提升算法 Adaptive Boosting/AdaBoost

c. 层叠泛化 Stacked Generalization

d. 梯度推进机 Gradient Boosting Machines/GBM

e. 梯度提升回归树 Gradient Boosted Regression Trees/GBRT

f. 随机森林 Random Forest

（5）决策树算法 Decision Tree Algorithm

可用于预测、分类

a. 分类和回归树 Classification and Regression Tree/CART

b. Iterative Dichotomiser 3/ID3

c. C4.5 和 C5.0

（6）降维算法 Dimensionality Reduction Algorithms

用于降低数据的描述维度

a. 主成分分析 Principal Component Analysis/PCA

b. 主成分回归 Principal Component Regression/PCR

c. 偏最小二乘回归 Partial Least Squares Regression/PLSR

d. Sammon 映射

e. 多维尺度变换 Multidimensional Scaling/MDS

f. 投影寻踪 Projection Pursuit

g. 线性判别分析 Linear Discriminant Analysis/LDA

h. 混合判别分析 Mixture Discriminant Analysis/MDA

i. 二次判别分析 Quadratic Discriminant Analysis/QDA

j. 灵活判别分析 Flexible Discriminant Analysis/FDA

（7）聚类算法 Clustering Algorithms

对数据进行分类，把相似的样本分到一组

a. K-均值 k-Means

b. k-Medians 算法

c. 最大期望算法Expectation Maximi/EM

d. 分层集群 Hierarchical Clstering

（8）基于实例的算法 Instance-based Algorithms

a. 最近邻算法 k-Nearest Neighbor/KNN：可用于文本分类、模式识别、聚类分析，多分类领域、回归分析

b. 学习向量量化 Learning Vector Quantization/LVQ

c. 自组织映射 Self-Organizing Map/SOM

d. 局部加权学习 Locally Weighted Learning/LWL

（9）贝叶斯算法 Bayesian Algorithms

使用贝叶斯定理来解决分类、回归等问题

a. 朴素贝叶斯 Naive Bayes/NB

b. 高斯朴素贝叶斯 Gaussian Naive Bayes

c. 多项式朴素贝叶斯 Multinomial Naive Bayes

d. 平均一致依赖估计器 Averaged One-Dependence Estimators/AODE

e. 贝叶斯信念网络 Bayesian Belief Network/BBN

f. 贝叶斯网络 Bayesion Network

（10）关联规则学习算法 Association Rule Learning Algorithms

a. Apriori 算法

b. Eclat 算法

c. FP-growth

（11）图模型 Graphical Models

是一种概率模型，可表示随机变量之间的条件依赖结构

a. 贝叶斯网络 Bayesian network（有向图）

b. 马尔可夫随机场/马尔可夫网络 Markov random field/Markov network（无向图）

c. 链图 Chain Graphs

d. 祖先图 Ancestral graph

（12）深度学习 Deep Learning

a. 神经网络 Neural Network

b. 卷积神经网络 CNN：擅长处理图像数据

c. 循环神经网络 RNN：有效处理具有时序的数据，对短期数据表现很好，长期数据遗忘

d. 长短期记忆 LSTM：处理时序数据，对长短期数据都有较好的记忆效果

e. 门控循环单元 GRU：与LSTM功能类似，但更易于计算

f. 深玻耳兹曼机 Deep Boltzmann Machine/DBM

g. Deep Belief Networks/DBN

参考资料：

https://zhuanlan.zhihu.com/p/25327755

https://zhuanlan.zhihu.com/p/46831267

https://zhuanlan.zhihu.com/p/75087830

https://zhuanlan.zhihu.com/p/59767178

鲜花

握手

雷人

路过

鸡蛋

收藏邀请

上一篇：中文分词入门和分词工具汇总攻略下一篇：NLP文本情感分析入门

机器学习算法入门介绍

相关阅读

最新评论

相关分类

下级分类

热门排行