数据输入:输入要发掘的数据。
数据转化:做数据预处理的步骤,经过了数据转化之后,数据就是一个可用的,简练的、完整的、一致的、精确的数据集。
(1)数据清理:对噪声数据和不一致的数据做铲除操作。或者是对重复数据做删除,或者是对缺失数据做填充(众数、中位数、自己判断)。
(2)数据集成:将多个数据源的数据做整合。
(3)数据选择:选择需要的数据做发掘。比如一个人买不买电脑和他叫什么没什么联系,所以就不需要输入到机器中进行分析。
(4)数据改换:不同的数据被经过数据集成集成到一同的时分,就会出现一个问题,叫做实体辨认问题。那么数据改换除了处理实体辨认问题以外,还需要一致不同的数据库的数据的格局。
数据发掘:经过数学算法对数据进行分析,得到数据之间的规则,或者是我们所需要的常识。
模型评价:评价机器获得的模型是否不适用例如,假如模型是在机器学习后得到的,而且模型猜测的精度为10%。因而模型评价的很大一部分也是对从学习机器中获得的常识是否准确和可用的评价。
数据输出:将成果数据输出,而且将得到的常识表明出来,对应了常识表明。
数据在进行发掘时,我们往往都是经过某些属性得以判断某个成果,这就是数据发掘的基本规则。
关于数据挖掘的基本步骤是什么,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。