机器学习的数据清理以及数据标准化！

2020/09/28 03:54

没有干净的原始数据，为了满足机器学习怼数据的要求，必须过滤数据。例如，

1、查看数据，并排除所有缺少大量数据的列。2、再次查看数据，然后选择要用于预测的列（特征选择）。进行迭代时，可能需要更改此内容。在其余列中排除仍缺少数据的任何行。3、纠正明显的错别字并合并等效答案。4、排除数据超出范围的行。例如，如果您要分析纽约市内的出租车行程，则需要过滤出市区外边界以外的上，下纬度和经度行。

还可以做更多的事情，但这取决于收集的数据。这可能很乏味，但是如果在机器学习过程中设置了数据清理步骤，则可以随意修改并重复进行。

机器学习的数据编码和规范化

要将分类数据用于机器分类，需要将文本标签编码为另一种形式。有两种常见的编码。

一种是标签编码，这意味着每个文本标签值都用数字代替。另一种是一键编码，这意味着每个文本标签值都将变成具有二进制值（1或0）的列。大多数机器学习框架都具有进行转换的功能。通常，独热编码是首选，因为标签编码有时会使机器学习算法混淆，以为编码列应该是有序列表。

要将数字数据用于机器回归，通常需要将数据标准化。否则，具有较大范围的数字可能倾向于主导特征向量之间的欧几里得距离，其影响可能会以其他场为代价而被放大，并且最陡的下降优化可能会难以收敛。有多种方法可以对数据进行标准化和标准化以进行机器学习，包括最小-最大标准化，均值标准化，标准化以及按比例缩放到单位长度。此过程通常称为特征缩放。