有监督学习和无监督学习算法怎么理解？

2020/09/28 04:45

在判断是有监督学习还是在无监督学习上，我们可以具体是否有监督（supervised），就看输入数据是否有标签（label）。输入数据有标签，则为有监督学习，没标签则为无监督学习。

什么是学习（learning）？

一个成语就可概括：举一反三。机器学习的思路有点类似高考一套套做模拟试题，从而熟悉各种题型，能够面对陌生的问题时算出答案。

简而言之，机器学习就是看能不能利用一些训练数据（已经做过的题），使机器能够利用它们（解题方法）分析未知数据（高考题目），而这种根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题，称之为无监督学习。

常用的无监督学习算法主要有三种：聚类、离散点检测和降维，包括主成分分析方法PCA等，等距映射方法、局部线性嵌入方法、拉普拉斯特征映射方法、黑塞局部线性嵌入方法和局部切空间排列方法等。

从原理上来说，PCA等数据降维算法同样适用于深度学习，但是这些数据降维方法复杂度较高，所以现在深度学习中采用的无监督学习方法通常采用较为简单的算法和直观的评价标准。比如无监督学习中最常用且典型方法聚类。

在无监督学习中，我们需要将一系列无标签的训练数据，输入到一个算法中，然后我们告诉这个算法，快去为我们找找这个数据的内在结构给定数据。这时就需要某种算法帮助我们寻找一种结构。

监督学习（supervised learning），是从给定的有标注的训练数据集中学习出一个函数（模型参数），当新的数据到来时可以根据这个函数预测结果。常见任务包括分类与回归。

无监督学习方法在寻找数据集中的规律性，这种规律性并不一定要达到划分数据集的目的，也就是说不一定要“分类”。比如，一组颜色各异的积木，它可以按形状为维度来分类，也可以按颜色为维度来分类。（这一点比监督学习方法的用途要广。如分析一堆数据的主分量，或分析数据集有什么特点都可以归于无监督学习方法的范畴），而有监督学习则是通过已经有的有标签的数据集去训练得到一个最优模型。