弄清数据源的结构和表间关系,这样的好处贯穿数据分析的全过程。比如此前用BI工具FineBI做可视化分析时,数据量很大,但我只要弄清楚“销售”这一个主题,主题下有合同分析、项目成本分析、日销售、月销售等分析。FineBI好处就在于自动建立表间关系,当然并不说明你不需要了解,表间会存在一些字段不对应的情况,要不前期就处理好,要不后期根据标的了解,在自动建立联系的基础上,再审查一遍。
在纷繁的表、字段中,你真正关注的为数不多,需要将它们挑选出来,重点描述。例如对于帐务上面的费用字段,他们之间的逻辑关系一定要搞清楚。对于这种关系,一个好的开发方法就是选取一些用户的实际数据,观察他们的费用,在帐户上的余额每月如何变化,而帐单上的明细是多少,销帐明细中从哪些帐户上扣掉这些费用。观察了四五个客户,这种关系自然明了。最终,可以形成一份数据源分析报告,从限定范围内的每个表开始,给出概念定义,以及设计层面与概念层面不相符之处(例如概念上用户表存放的是当前活动用户,而销户的已经转移到另一张表,但其实此表中还是存在已销户用户),将表的字段进行分组,例如在通话详单中,可以分成本方用户信息、对方用户信息、网络信息、通话信息,计费信息等,这可以便于理解。
关于如何对数据源进行分析,青藤小编就和您分享到这里了。如果你对大数据工程有浓厚的兴趣,希望这篇文章能够对你有所帮助。如果您还想了解更多数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。