1、常见的数据分析错误——混淆相关性和因果关系
为每个数据科学家、相关性和因果错误事件,将导致成本,最好的例子是《魔鬼经济学》的分析相关因果关系错误导致伊利诺斯州学生的书,因为根据分析的书籍在学校学生可以直接接受更高的测试。进一步的分析表明,家里有几本书的学生在学业上表现更好,即使他们从来没有读过这些书。
这改变了父母经常买书的家庭可以创造一个愉快的学习环境的假设和看法。
大多数数据科学家在处理大数据时都假设相关性直接影响因果关系。使用大数据来理解两个变量之间的相关性通常是个好主意,但一直使用“因果”类比可能导致错误的预测和无效的决策。为了更好地利用大数据,数据科学家必须理解关系和根源之间的区别。相关性通常是指同时观察X和Y的变化,而cause ation则是指X引起Y。在数据科学中,这是两件非常不同的事情,但是很多数据科学家往往忽略了这一差异。基于相关性的决策可能足以采取行动,我们不需要知道为什么,但这完全取决于数据的类型和要解决的问题。
每个数据科学家都必须明白,在数据科学中,相关性不是因果关系。如果两种关系相互关联,并不意味着一种关系会导致另一种关系。
2、常见的数据分析错误——没有选择正确的视觉工具
大多数数据科学家专注于分析的技术层面。他们无法通过使用允许他们更快地理解数据的不同可视化技术来理解数据。如果数据科学家不能选择正确的视觉发展模型来监控探索性数据分析和性能结果,即使是最好的机器学习模型的价值也会被稀释。事实上,许多数据科学家选择图表类型是基于他们的审美偏好,而不是数据集的特征。这可以通过定义视觉目标来避免。
即使数据科学家开发出了最好、最好的机器学习模型,它也不会喊出“Eureka”——它所需要的只是有效地将结果可视化,理解数据模式的差异,并意识到它的存在可以应用于商业结果。俗话说:“一图胜千言。”数据科学家不仅需要熟悉他们常用的数据可视化工具,还需要了解数据可视化是如何工作的,并以引人注目的方式获得结果。
解决任何数据科学问题的一个关键步骤是深入理解数据是关于什么的,并通过丰富的可视化表示,从而形成相应的分析和建模的基础。
3、常见的数据分析错误——未能选择适当的模型验证周期
科学家们认为,建立一个成功的机器学习模型是最成功的。但这只是成功的一半。它必须确保模型的预测有效。许多数据科学家往往忘记或忽略了他们的数据必须在特定的时间间隔反复验证这一事实。数据科学家经常犯的一个常见错误是假设预测模型是理想的,如果它们符合观测数据。当模型之间的关系发生变化时,所建立模型的预测效果会瞬间消失。为了避免这种情况,数据科学家的最佳解决方案是用新数据每小时评估数据模型,或者评估基于模型的关系逐日逐月变化的速度。
由于各种因素的影响,模型的预测能力往往会减弱,因此数据科学家需要确定一个常数,以确保模型的预测能力不会低于可接受的水平。在某些情况下,数据科学家可以重构数据模型。最好是建立多个模型和解释变量的分布,而不是考虑单一的模型。
为了保持所建立模型的预测效果和有效性,选择一个迭代周期很重要,否则可能会导致不正确的结果。
常见的数据分析错误有哪些?作为数据分析师别说你没犯过,数据分析师有一个宝库。作为滴滴出行数据分析团队的负责人,刘发现了数据分析师制胜的秘诀:远见。数据分析提供了一种可能性,你能处理好吗?如果您还担心自己入门不顺利,可以点击本文其他文章进行学习。