没有干净的原始数据,为了满足机器学习怼数据的要求,必须过滤数据。例如,
1、查看数据,并排除所有缺少大量数据的列。2、再次查看数据,然后选择要用于预测的列(特征选择)。进行迭代时,可能需要更改此内容。在其余列中排除仍缺少数据的任何行。3、纠正明显的错别字并合并等效答案。4、排除数据超出范围的行。例如,如果您要分析纽约市内的出租车行程,则需要过滤出市区外边界以外的上,下纬度和经度行。还可以做更多的事情,但这取决于收集的数据。这可能很乏味,但是如果在机器学习过程中设置了数据清理步骤,则可以随意修改并重复进行。
机器学习的数据编码和规范化
要将分类数据用于机器分类,需要将文本标签编码为另一种形式。有两种常见的编码。
一种是标签编码,这意味着每个文本标签值都用数字代替。另一种是一键编码,这意味着每个文本标签值都将变成具有二进制值(1或0)的列。大多数机器学习框架都具有进行转换的功能。通常,独热编码是首选,因为标签编码有时会使机器学习算法混淆,以为编码列应该是有序列表。
要将数字数据用于机器回归,通常需要将数据标准化。否则,具有较大范围的数字可能倾向于主导特征向量之间的欧几里得距离,其影响可能会以其他场为代价而被放大,并且最陡的下降优化可能会难以收敛。有多种方法可以对数据进行标准化和标准化以进行机器学习,包括最小-最大标准化,均值标准化,标准化以及按比例缩放到单位长度。此过程通常称为特征缩放。