机器学习算法入门介绍

2019-10-14 10:22| 发布者: ym| 查看: 5980| 评论: 0

摘要: 之前研究自然语言处理的知识脉络,发现随着数据爆炸和大数据挖掘处理的发展,现在不少自然语言处理项目面对的都是TB级的数据量,机器学习和深度学习就常被用到自然语言处理中,所以,要入门自然语言处理,就少不得要 ...

【注意】如果寻找分词和文本分析软件,为了完成内容分析和其他文本研究任务,直接使用集搜客分词和文本分析软件就可以了。本文是为了讲解集搜客分词和文本分析的实现原理,是给产品设计者和开发者看的。

之前研究自然语言处理(NLP)的知识脉络,发现随着数据爆炸和大数据挖掘处理的发展,现在不少自然语言处理项目面对的都是TB级的数据量,机器学习和深度学习就常被用到自然语言处理中,所以,要入门自然语言处理,就少不得要先掌握一下机器学习是什么了,下面是我们团队整理到的机器学习入门的知识点,供大家参考学习一下。


1.定义

研究怎样使用计算机模拟或实现人类的学习行为,是人工智能的重要课题


2.学习任务

(1)聚类分析

事先是没有类别的,将语料分成若干类别,是一种无监督学习

(2)分类分析

事先要确定好类别,把语料分到对应的类别里,是一种监督学习

(3)回归分析

是一种对数值型连续随机变量进行预测和建模的监督学习算法


3.模型算法

(1)支持向量机 SVM

可用于文本分类,适合高维特征,非线性可分

(2)回归算法 Regression Algorithms

可观察多个自变量与因变量的变化关系;可用于预测、分类

a. 线性回归 Liner Regression

b. 逻辑回归 Logistics Regression

c. 普通最小二乘回归 Ordinary Least Squares Regression/OLSR

d. 逐步回归 Stepwise Regression

e. 多元自适应回归样条 Multivariate Adaptive Regression Splines/MARS

f. 本地散点平滑估计 Locally Estimated Scatterplot Smoothing/LOESS

(3)正则化算法 Regularization Algorithms

通过惩罚机制,使模型在过拟合和欠拟合之间达到平衡,但很难校准这个平衡点

a. 岭回归 Ridge Regression

b. 最小绝对收缩与选择算子 LASSO

c. GLASSO

d. 弹性网络 Elastic Net

e. 最小角回归 Least-Angle Regression

(4)集成算法 Ensemble Algorithms

由多个较弱的模型集成模型组,做出总体预测,具有较高精度,但维护工作量较大

a. 提升算法 Boosting

b. 自适应提升算法 Adaptive Boosting/AdaBoost

c. 层叠泛化 Stacked Generalization

d. 梯度推进机 Gradient Boosting Machines/GBM

e. 梯度提升回归树 Gradient Boosted Regression Trees/GBRT

f. 随机森林 Random Forest

(5)决策树算法 Decision Tree Algorithm

可用于预测、分类

a. 分类和回归树 Classification and Regression Tree/CART

b. Iterative Dichotomiser 3/ID3

c. C4.5 和 C5.0

(6)降维算法 Dimensionality Reduction Algorithms

用于降低数据的描述维度

a. 主成分分析 Principal Component Analysis/PCA

b. 主成分回归 Principal Component Regression/PCR

c. 偏最小二乘回归 Partial Least Squares Regression/PLSR

d. Sammon 映射

e. 多维尺度变换 Multidimensional Scaling/MDS

f. 投影寻踪 Projection Pursuit

g. 线性判别分析 Linear Discriminant Analysis/LDA

h. 混合判别分析 Mixture Discriminant Analysis/MDA

i. 二次判别分析 Quadratic Discriminant Analysis/QDA

j. 灵活判别分析 Flexible Discriminant Analysis/FDA

(7)聚类算法 Clustering Algorithms

对数据进行分类,把相似的样本分到一组

a. K-均值 k-Means

b. k-Medians 算法

c. 最大期望算法Expectation Maximi/EM

d. 分层集群 Hierarchical Clstering

(8)基于实例的算法 Instance-based Algorithms

a. 最近邻算法 k-Nearest Neighbor/KNN:可用于文本分类、模式识别、聚类分析,多分类领域、回归分析

b. 学习向量量化 Learning Vector Quantization/LVQ

c. 自组织映射 Self-Organizing Map/SOM

d. 局部加权学习 Locally Weighted Learning/LWL

(9)贝叶斯算法 Bayesian Algorithms

使用贝叶斯定理来解决分类、回归等问题

a. 朴素贝叶斯 Naive Bayes/NB

b. 高斯朴素贝叶斯 Gaussian Naive Bayes

c. 多项式朴素贝叶斯 Multinomial Naive Bayes

d. 平均一致依赖估计器 Averaged One-Dependence Estimators/AODE

e. 贝叶斯信念网络 Bayesian Belief Network/BBN

f. 贝叶斯网络 Bayesion Network

(10)关联规则学习算法 Association Rule Learning Algorithms

a. Apriori 算法

b. Eclat 算法

c. FP-growth

(11)图模型 Graphical Models

是一种概率模型,可表示随机变量之间的条件依赖结构

a. 贝叶斯网络 Bayesian network(有向图)

b. 马尔可夫随机场/马尔可夫网络 Markov random field/Markov network(无向图)

c. 链图 Chain Graphs

d. 祖先图 Ancestral graph

(12)深度学习 Deep Learning

a. 神经网络 Neural Network

b. 卷积神经网络 CNN:擅长处理图像数据

c. 循环神经网络 RNN:有效处理具有时序的数据,对短期数据表现很好,长期数据遗忘

d. 长短期记忆 LSTM:处理时序数据,对长短期数据都有较好的记忆效果

e. 门控循环单元 GRU:与LSTM功能类似,但更易于计算

f. 深玻耳兹曼机 Deep Boltzmann Machine/DBM

g. Deep Belief Networks/DBN


参考资料:

https://zhuanlan.zhihu.com/p/25327755

https://zhuanlan.zhihu.com/p/46831267

https://zhuanlan.zhihu.com/p/75087830

https://zhuanlan.zhihu.com/p/59767178


鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

GMT+8, 2024-12-30 23:50