时代Java，与您同行！关注微信公众号，关注前沿技术，微信搜索：nowjava或时代Java，也可点击这里扫码关注

时代Java

京东自营 + 国补 iPhone 历史最低价国家补贴享8折

机器学习常用算法

欢马劈雪

工程师 (已认证)

原创分享签约作者

发表于教程文章

1070

在这篇文章中：

哈佛商业评论称数据科学家是21世纪最性感的工作。所以，对于那些ML刚刚开始的人来说，十大算法是非常有用的。

ML算法是可以从数据中学习并从中改进的算法，无需人工干预。学习任务可能包括将输入映射到输出，在未标记的数据中学习隐藏的结构，或者“基于实例的学习”，其中通过将新实例与来自存储在存储器中的训练数据的实例进行比较来为新实例生成类标签。

1.ML算法的类型

有三种ML算法：

1.监督学习：

监督学习可以理解为：使用标记的训练数据来学习从输入变量（X）到输出变量（Y）的映射函数。

Y = f（X）

监督学习问题可以有两种类型：

分类：预测输出变量处于类别形式的给定样本的结果。例如男性和女性，病态和健康等标签。

回归：预测给定样本的输出变量的实值结果。例子包括表示降雨量和人的身高的实值标签。

在这篇博客中介绍的前5个算法——线性回归，Logistic回归，CART，朴素贝叶斯，KNN都是监督学习。

人工智能领域的大牛吴恩达曾在他的公开课中提到，目前机器学习带来的经济价值全部来自监督学习。

2.无监督学习：

无监督学习问题只有输入变量（X），但没有相应的输出变量。它使用无标签的训练数据来模拟数据的基本结构。

无监督学习问题可以有两种类型：

1．关联：发现数据集合中的相关数据共现的概率。它广泛用于市场篮子分析。例如：如果顾客购买面包，他有80％的可能购买鸡蛋。

2．群集：对样本进行分组，使得同一个群集内的对象彼此之间的关系比另一个群集中的对象更为相似。

3．维度降低：维度降低意味着减少数据集的变量数量，同时确保重要的信息仍然传达。可以使用特征提取方法和特征选择方法来完成维度降低。特征选择选择原始变量的一个子集。特征提取执行从高维空间到低维空间的数据转换。例如：PCA算法是一种特征提取方法。

Apriori，K-means，PCA是无监督学习的例子。

3.强化学习：

强化学习是一种机器学习算法，它允许代理根据当前状态决定最佳的下一个动作。

强化算法通常通过反复试验来学习最佳行为。它们通常用于机器人的训练，机器人可以通过在碰到障碍物后接收负面反馈来学习避免碰撞。近期的alphago zero就是采用的强化学习的方法，来完成实验的。

监督学习算法

1.线性回归

在ML中，我们有一组输入变量（x）用于确定输出变量（y）。输入变量和输出变量之间存在某种关系，ML的目标是量化这种关系。

图一

在线性回归中，输入变量（x）和输出变量（y）之间的关系表示为形式为y = ax + b的方程。因此，线性回归的目标是找出系数a和b的值。这里，a是截距，b是线的斜率。

图1显示了数据集的绘制x和y值。目标是拟合最接近大部分点的线。

2. Logistic回归

逻辑回归最适合二进制分类（y = 0或1的数据集，其中1表示默认类）例如：在预测事件是否发生时，发生的事件被分类为1。在预测人会生病或不生病，生病的实例记为1）。它是以其中使用的变换函数命名的，称为逻辑函数h（x）= 1 /（1 + e ^ x），它是一个S形曲线。

在逻辑回归中，输出是以缺省类别的概率形式出现的。因为这是一个概率，所以输出在0——1的范围内。输出（y值）通过对数转换x值，使用对数函数h（x）= 1 /（1 + e ^ -x）来生成。然后应用一个阈值来强制这个概率进入二元分类。

图二

在图2中，为了确定肿瘤是否是恶性的，默认变量是y = 1（肿瘤=恶性）；x变量可以是肿瘤的量度，例如肿瘤的大小。如图所示，逻辑函数将数据集的各种实例的x值转换成0到1的范围。如果概率超过阈值0.5（由水平线示出），则将肿瘤分类如恶性。

逻辑回归的目标是使用训练数据来找到系数b0和b1的值，以使预测结果与实际结果之间的误差最小化。这些系数是使用最大似然估计技术估计的。

3. CART

分类和回归树（CART）是决策树的一个实现方式。

非终端节点是根节点和内部节点，终端节点是叶节点。每个非终端节点表示单个输入变量（x），叶节点表示输出变量（y）。该模型用于做出如下预测：遍历树的分裂到达一个叶节点，并输出叶节点上存在的值。

图3中的决策树根据年龄和婚姻状况分类是否购买跑车或小型货车。如果这个人30多年没有结婚，我们可以如下预测：“30多年？ - >是 - >'已婚？ - >不。因此，该模型输出一个跑车。

图三

4.朴素贝叶斯

为了计算事件发生的概率，假设已经发生了另一个事件，我们使用贝叶斯定理。为了计算给定某个变量值的结果的概率，也就是说，根据我们的先验知识（d）计算假设（h）为真的概率，我们使用贝叶斯定理如下：

P（h | d）=（P（d | h）* P（h））/ P（d）

P（h | d）=后验概率。
P（d | h）=可能性。数据d的概率假设h是真的。
P（h）=类别先验概率。假设h的可能性为真（不考虑数据）。
P（d）=预测值先验概率。数据的可能性（与假设无关）。

图四

以图4为例，如果天气=“阳光”，结果如何？

为了确定结果play ='yes'或'no'，给定变量weather ='sunny'的值，计算P（是| sunny）和P（no | sunny），并选择结果的概率较高。

P（是|晴天）=（P（晴天|是）* P（是））/ P（晴天）

=（3/9 * 9/14）/（5/14）

= 0.60

P（no | sunny）=（P（晴天）* P（no））/ P（晴天）

=（2/5 * 5/14）/（5/14）

= 0.40

因此，如果天气=“晴天”，结果是play ='是'。

5. KNN

K邻近算法使用整个数据集作为训练集，而不是将数据集分成训练集和测试集。

当新的数据实例需要结果时，KNN算法遍历整个数据集，以找到新实例的k个最近的实例，或者与新记录最相似的k个实例，然后对于分类问题的结果（对于回归问题）或模式输出均值。

实例之间的相似度使用欧几里德距离和Hamming距离等度量来计算。

无监督学习算法：

6. Apriori

Apriori算法用于事务数据库挖掘，然后生成关联规则。它在市场篮子分析中被广泛使用，在这个分析中，检查数据库中经常出现的产品组合。一般来说，我们写出如果一个人购买项目X，然后他购买项目Y的关联规则为：X - > Y。

例如：如果一个人购买牛奶和糖，那么他很可能会购买咖啡粉。这可以写成关联规则的形式：{牛奶，糖} - >咖啡粉。

7. K-means

K-means是一种迭代算法，将相似的数据分组到簇中。计算k个簇的质心，并将一个数据点分配给质心和数据点之间距离最小的簇。

步骤1：k-means初始化：

a）选择k的值。在这里，让我们取k = 3。

b）将每个数据点随机分配到3个群集中的任何一个。

c）为每个集群计算集群质心。红色，蓝色和绿色星星表示3个星团中的每一个的质心。

步骤2：将每个观察结果与群集相关联：

将每个点重新分配到最近的集群质心。这里，上面的5个点被分配到具有蓝色质心的簇。按照相同的步骤将点分配给包含红色和绿色质心的群集。

第3步：重新计算质心：

计算新簇的质心。旧的质心由灰色星星表示，而新的质心是红色，绿色和蓝色星星。

第4步：迭代，然后退出，如果不变。

重复步骤2-3，直到没有从一个群集切换到另一个群集。一旦连续两个步骤没有切换，退出k-means算法。

8. PCA

主成分分析（PCA）用于通过减少变量的数量来使数据易于探索和可视化。这是通过将数据中的最大方差捕获到一个称为“主要成分”的轴上的新的坐标系来完成的。每个组件是原始变量的线性组合，并且彼此正交。组件之间的正交性表明这些组件之间的相关性为零。

第一个主成分捕捉数据中最大变化的方向。第二个主要组件捕获数据中的剩余变量，但变量与第一个组件不相关。

9.随机森林装袋

随机森林是对袋装决策树（bagged decision trees）改进。

装袋（Bagging）：装袋的第一步是创建多个模型，使用Bootstrap Sampling方法创建数据集。在Bootstrap Sampling中，每个生成的训练集由来自原始数据集的随机子样本组成。这些训练集中的每一个与原始数据集大小相同，但有些记录会重复多次，有些记录根本不会出现。然后，整个原始数据集被用作测试集。因此，如果原始数据集的大小为N，那么每个生成的训练集的大小也是N，测试集的大小也是N。

装袋的第二步是在不同的生成的训练集上使用相同的算法创建多个模型。在这种情况下，让我们讨论随机森林。与决策树不同的是，每个节点被分割成最小化误差的最佳特征，在随机森林中，我们选择随机选择的特征来构建最佳分割。在每个分割点处要搜索的特征的数量被指定为随机森林算法的参数。

因此，在用随机森林装袋时，每棵树都是使用记录的随机样本构建的，每个分叉是使用预测变量的随机样本构建的。

10. Boosting with AdaBoost

套袋（Bagging）是一个平行的集合，因为每个模型都是独立建立的。另一方面，boosting是一个连续的集合，每个模型的建立是基于纠正前一个模型的错误分类。

Adaboost代表Adaptive Boosting。

图9

在图9中，步骤1,2,3涉及一个称为决策残缺的弱学习者（一个1级决策树，仅基于1个输入特征的值进行预测）。步骤4结合了以前模型的3个决策树（在决策树中有3个分裂规则）。

步骤1：从1个决策树开始，对1个输入变量做出决定：

数据点的大小表明我们已经应用相同的权重将它们分类为一个圆或三角形。决策树在上半部分产生了一条水平线来分类这些点。我们可以看到有2个圆圈错误地预测为三角形。因此，我们将为这两个圈子分配更高的权重，并应用另一个决策树桩。

步骤2：移动到另一个决策树，以决定另一个输入变量：

我们观察到，上一步的两个错误分类圈的大小大于其余点。现在第二个决策树会试图正确预测这两个圆。

步骤3：训练另一个决策树来决定另一个输入变量。

来自上一步的3个错误分类圈大于其余的数据点。现在，已经生成了一条垂直线，用于分类圆和三角形。

步骤4：合并决策树：

我们已经结合了以前3个模型中的分隔符，并观察到这个模型中的复杂规则与任何一个单独的弱学习者相比，正确地分类了数据点。

以上就是初学者要学习的十大算法！

如果您想成为顶尖算法专家，那您需要学以下算法：

机器学习算法简介

有两种方法可以对你现在遇到的所有机器学习算法进行分类。

第一种算法分组是学习风格的。
第二种算法分组是通过形式或功能相似。

通常，这两种方法都能概括全部的算法。但是，我们将重点关注通过相似性对算法进行分组。

通过学习风格分组的机器学习算法

算法可以通过不同的方式对问题进行建模，但是，无论我们想要什么结果都需要数据。此外，算法在机器学习和人工智能中很流行。让我们来看看机器学习算法中的三种不同学习方式：

监督学习

基本上，在监督机器学习中，输入数据被称为训练数据，并且具有已知的标签或结果，例如垃圾邮件/非垃圾邮件或股票价格。在此，通过训练过程中准备模型。此外，还需要做出预测。并且在这些预测错误时予以纠正。训练过程一直持续到模型达到所需水平。

示例问题：分类和回归。
示例算法：逻辑回归和反向传播神经网络。

无监督学习

在无监督机器学习中，输入数据未标记且没有已知结果。我们必须通过推导输入数据中存在的结构来准备模型。这可能是提取一般规则，但是我们可以通过数学过程来减少冗余。

示例问题：聚类，降维和关联规则学习。
示例算法：Apriori算法和k-Means。

半监督学习

输入数据是标记和未标记示例的混合。存在期望的预测问题，但该模型必须学习组织数据以及进行预测的结构。

示例问题：分类和回归。
示例算法：其他灵活方法的扩展。

由功能的相似性分组的算法

ML算法通常根据其功能的相似性进行分组。例如，基于树的方法以及神经网络的方法。但是，仍有算法可以轻松适应多个类别。如学习矢量量化，这是一个神经网络方法和基于实例的方法。

回归算法

回归算法涉及对变量之间的关系进行建模，我们在使用模型进行的预测中产生的错误度量来改进。

这些方法是数据统计的主力，此外，它们也已被选入统计机器学习。最流行的回归算法是：

普通最小二乘回归（OLSR）；
线性回归；
Logistic回归；
逐步回归；
多元自适应回归样条（MARS）；
局部估计的散点图平滑（LOESS）；

基于实例的算法

该类算法是解决实例训练数据的决策问题。这些方法构建了示例数据的数据库，它需要将新数据与数据库进行比较。为了比较，我们使用相似性度量来找到最佳匹配并进行预测。出于这个原因，基于实例的方法也称为赢者通吃方法和基于记忆的学习，重点放在存储实例的表示上。因此，在实例之间使用相似性度量。最流行的基于实例的算法是：

k-最近邻（kNN）；
学习矢量量化（LVQ）；
自组织特征映射（SOM）；
本地加权学习（LWL）；

正则化算法

我在这里列出了正则化算法，因为它们很流行，功能强大。并且通常对其他方法进行简单的修改，最流行的正则化算法是：

岭回归；
最小绝对收缩和选择算子（LASSO）；
弹性网回归；
最小角回归（LARS）；

决策树算法

决策树方法用于构建决策模型，这是基于数据属性的实际值。决策在树结构中进行分叉，直到对给定记录做出预测决定。决策树通常快速准确，这也是机器学习从业者的最爱的算法。最流行的决策树算法是：

分类和回归树（CART）；
迭代Dichotomiser 3（ID3）；
C4.5和C5.0（强大方法的不同版本）；
卡方自动交互检测（CHAID）；
决策树桩；
M5；
条件决策树；

贝叶斯算法

这些方法适用于贝叶斯定理的问题，如分类和回归。最流行的贝叶斯算法是：

朴素贝叶斯；
高斯朴素贝叶斯；
多项朴素贝叶斯；
平均一依赖估计量（AODE）；
贝叶斯信念网络（BBN）；
贝叶斯网络（BN）；

聚类算法

几乎所有的聚类算法都涉及使用数据中的固有结构，这需要将数据最佳地组织成最大共性的组。最流行的聚类算法是：

K-均值；
K-平均；
期望最大化（EM）；
分层聚类；

关联规则学习算法

关联规则学习方法提取规则，它可以完美的解释数据中变量之间的关系。这些规则可以在大型多维数据集中被发现是非常重要的。最流行的关联规则学习算法是：

Apriori算法；
Eclat算法；

人工神经网络算法

这些算法模型大多受到生物神经网络结构的启发。它们可以是一类模式匹配，可以被用于回归和分类问题。它拥有一个巨大的子领域，因为它拥有数百种算法和变体。最流行的人工神经网络算法是：

感知机；
反向传播；
Hopfield神经网络；
径向基函数神经网络（RBFN）

深度学习算法

深度学习算法是人工神经网络的更新。他们更关心构建更大更复杂的神经网络。最流行的深度学习算法是：

深玻尔兹曼机（DBM）；
深信仰网络（DBN）；
卷积神经网络（CNN）；
堆叠式自动编码器；

降维算法

与聚类方法一样，维数减少也是为了寻求数据的固有结构。通常，可视化维度数据是非常有用的。此外，我们可以在监督学习方法中使用它。

主成分分析（PCA）；
主成分回归（PCR）；
偏最小二乘回归（PLSR）；
Sammon Mapping；
多维缩放（MDS）；
投影追踪；
线性判别分析（LDA）；
高斯混合判别分析（MDA）；
二次判别分析（QDA）；
费舍尔判别分析（FDA）；

常用机器学习算法列表

朴素贝叶斯分类器机器学习算法

通常，网页、文档和电子邮件进行分类将是困难且不可能的。这就是朴素贝叶斯分类器机器学习算法的用武之地。分类器其实是一个分配总体元素值的函数。例如，垃圾邮件过滤是朴素贝叶斯算法的一种流行应用。因此，垃圾邮件过滤器是一种分类器，可为所有电子邮件分配标签“垃圾邮件”或“非垃圾邮件”。基本上，它是按照相似性分组的最流行的学习方法之一。这适用于流行的贝叶斯概率定理。

K-means：聚类机器学习算法

通常，K-means是用于聚类分析的无监督机器学习算法。此外，K-Means是一种非确定性和迭代方法，该算法通过预定数量的簇k对给定数据集进行操作。因此，K-Means算法的输出是具有在簇之间分离的输入数据的k个簇。

支持向量机学习算法

基本上，它是用于分类或回归问题的监督机器学习算法。SVM从数据集学习，这样SVM就可以对任何新数据进行分类。此外，它的工作原理是通过查找将数据分类到不同的类中。我们用它来将训练数据集分成几类。而且，有许多这样的线性超平面，SVM试图最大化各种类之间的距离，这被称为边际最大化。

SVM分为两类：

线性SVM：在线性SVM中，训练数据必须通过超平面分离分类器。
非线性SVM：在非线性SVM中，不可能使用超平面分离训练数据。

Apriori机器学习算法

这是一种无监督的机器学习算法。我们用来从给定的数据集生成关联规则。关联规则意味着如果发生项目A，则项目B也以一定概率发生，生成的大多数关联规则都是IF_THEN格式。例如，如果人们购买iPad，那么他们也会购买iPad保护套来保护它。Apriori机器学习算法工作的基本原理：如果项目集频繁出现，则项目集的所有子集也经常出现。

线性回归机器学习算法

它显示了2个变量之间的关系，它显示了一个变量的变化如何影响另一个变量。

决策树机器学习算法

决策树是图形表示，它利用分支方法来举例说明决策的所有可能结果。在决策树中，内部节点表示对属性的测试。因为树的每个分支代表测试的结果，并且叶节点表示特定的类标签，即在计算所有属性后做出的决定。此外，我们必须通过从根节点到叶节点的路径来表示分类。

随机森林机器学习算法

它是首选的机器学习算法。我们使用套袋方法创建一堆具有随机数据子集的决策树。我们必须在数据集的随机样本上多次训练模型，因为我们需要从随机森林算法中获得良好的预测性能。此外，在这种集成学习方法中，我们必须组合所有决策树的输出，做出最后的预测。此外，我们通过轮询每个决策树的结果来推导出最终预测。

Logistic回归机器学习算法

这个算法的名称可能有点令人困惑，Logistic回归算法用于分类任务而不是回归问题。此外，这里的名称“回归”意味着线性模型适合于特征空间。该算法将逻辑函数应用于特征的线性组合，这需要预测分类因变量的结果。

结论

我们研究了机器学习算法，并了解了机器学习算法的分类：回归算法、基于实例的算法、正则化算法、决策树算法、贝叶斯算法、聚类算法、关联规则学习算法、人工神经网络算法、深度学习算法、降维算法、集成算法、监督学习、无监督学习、半监督学习、朴素贝叶斯分类器算法、K-means聚类算法、支持向量机算法、Apriori算法、线性回归和Logistic回归。

熟悉这类算法奖有助你成为机器学习领域的专家！

本文系作者在时代Java发表，未经许可，不得转载。

如有侵权，请联系nowjava@qq.com删除。

编辑于 2020-04-14 19:01:352020-04-14 19:01:35

教程文章

文章订阅