资料重复性问题
相同记载的多个副本会在核算和存储上形成很大丢失,但假如未被发现,或许还会发生倾斜或不正确的见解。其间一个关键问题或许是人为过错——某个人偶尔输入了屡次数据或算法出错。
非结构化数据
许多时分,假如没有在体系中正确输入数据,或者某些文件已损坏,那么剩下的数据会丢失许多变量。例如,假如该地址根本不包括邮政编码,则其他的细节或许就没什么含义了,由于确定地舆尺寸会变得困难。
安全问题
除了诸如HIPAA或PCI数据安全规范(PCI DSS)之类的职业和法规规范之外,数据安全性和合规性还要求数据来自不同的来源。不遵守这些规则或许会导致高额的罚款,乃至或许导致客户忠诚度丢失。HIPAA和PCI等法规供给的指南也提出了关于强大的数据质量管理体系的令人信服的观点。
荫蔽资料
大多数公司在做出商业智能决议计划时仅运用其数据的大约20%,而将80%留在隐秘的垃圾箱中。对于客户行为,躲藏数据是最有益的。如今,客户能够经过多种前言与公司互动,从面对面,电话联系到在线沟通。关于客户何时、如何以及为什么与公司进行交互的数据是无价的,但很少被使用起来,这是非常可惜的。
资料过错
最后,运行完全过错的数据去进行分析与客户联系毫无含义,数据或许很快就会变得不精确。假如不搜集一切荫蔽的数据,我们的数据就不完好,并约束了我们依据完好而精确的数据集做出决议计划。数据不精确会使体系中的数据充溢人为过错,例如客户供给的类型或过错信息将导致在过错的字段中输入详细信息。
关于常见的数据质量问题有哪些,环球青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。