数据分析架构及方法

2020/09/28 22:06

数据分析架构及方法

一、以往的数据分析在今天的各类型企业中，数据分析岗位已经基本得到普及和认可，这个岗位的核心任务往往是支撑运营和营销，将企业内部的数据，客户的数据进行分析和总结，形成以往工作情况的量化表现，以及客户的行为趋势或特征等。
如果从更宏观的角度来认识数据分析岗位的话，每一个数据分析人员都明白，其实数据分析岗位要达到的目标就是希望通过数据来发现潜在的规律，进而帮助预测未来，这一点同数据挖掘的目标一致。那么为什么在大多数公司都已经具备的数据分析岗位基础上，今天却还是在反复提到数据挖掘这个概念，我们就需要来看看数据分析都有哪些是没有做到的内容。
1数据分散

多数数据分析岗位在公司中的岗位设置是隶属在单一业务部门中作为一个支撑岗，只有少数的公司是将数据分析作为一个独立的部门。其差异性在于，前者的数据分析所能分析的内容仅限于自身部门所输出的指标，比如投诉部门只看投诉处理过程中的数据，销售部门只看销售过程中的数据，一旦涉及到需要将各类指标汇总分析的情况，这种组织架构就会带来极大的负面影响，由于不同部门具备自己部门指标导出的权限，且与其他部门的配合并不影响绩效任务，所以这种跨部门采集数据的过程往往效率奇低。而数据分析最关键的就在于汇集更多的数据和更多的维度来发现规律，所以以往的数据分析多是做最基础的对比分析以及帕累托分析，少有使用算法来对数据进行挖掘的动作，因为越少的指标以及越少的维度将会使得算法发挥的效果越差。

2指标维度少

在以往的企业中，数字化管理更多的体现在日常运维工作中，对于客户端的数据采集虽然从很早以前就已经开展，CRM系统的诞生已经有很久的时间了，但是一直以来客户端的数据维度却十分缺失，其原因在于上述这些途径所获得的数据多为客户与企业产生交互之后到交互结束之间的数据，但是这段时间只是这个客户日常生活中很少的一部分内容，客户在微博，微信上的行为特点，关注的领域或是品牌，自身的性格特点等，可以说一个客户真正的特点，习惯，仅通过与企业的交互是无从知晓的，因此难以挖掘出有效的结论。

3少使用算法

在上述制约条件下，可想而知数据分析人员对于算法的使用必然是较少的，因为数据分析依赖于大量的指标、维度以及数据量，没有这三个条件是难以发挥算法的价值的，而在排除掉算法后，数据分析人员更多的只能是针对有限的数据做最为简单的分析方法，得出浅显易懂的分析结论，为企业带来的价值则可以想象。

4数据分析系统较弱目前的数据分析多采用excel，部分数据分析人员能够使用到R或SPSS等软件，但当数据量达到TB或PB单位级别时，这些软件在运算时将会消耗大量时间，同时原始的数据库系统在导出数据时所花费的时间也是相当长的，因此对大数据量的分析工作，常规的系统支撑难以到达要求。

二、技术革命与数据挖掘

得益于互联网对于人们生活的影响逐渐增大，我们发现数据正在疯狂的增长。今天一个人一天的时间中有将近一半是在互联网中度过的，一方面这些使用互联网的交互都是能够被捕捉记录的，一方面由于碎片化时间的使用，客户与企业交互的机会也变的越来越频繁，进一步保障了客户数据的丰富。同时在大数据技术的支撑下，今天的系统能够允许对这些大规模的数据量进行高效的分析。

因此数据分析人员也能够开始使用一些较为抽象的算法来对数据做更为丰富的分析。所以数据分析正式进入到了数据分析2.0的时代，也就是数据挖掘的时代了。

三、数据处理流程

数据分析也即是数据处理的过程，这个过程是由三个关键环节所组成：数据采集，数据分析方法选取，数据分析主题选择。这三个关键环节呈现金字塔形，其中数据采集是最底层，而数据分析主题选择是最上层。

四、数据采集

数据采集即是如何将数据记录下来的环节。在这个环节中需要着重说明的是两个原则，即全量而非抽样，以及多维而非单维。今天的技术革命和数据分析2.0主要就是体现在这个两个层面上。
1全量而非抽样由于系统分析速度以及数据导出速度的制约，在非大数据系统支撑的公司中，做数据分析的人员也是很少能够做到完全全量的对数据进行收集和分析。在未来这将不再成为问题。

2多维而非单维另一方面则在于数据的维度上，这在前边同样提及。总之针对客户行为实现5W1H的全面细化，将交互过程的什么时间、什么地点、什么人、因为什么原因、做了什么事情全面记录下来，并将每一个板块进行细化，时间可以从起始时间、结束时间、中断时间、周期间隔时间等细分；地点可以从地市、小区、气候等地理特征、渠道等细分；人可以从多渠道注册账号、家庭成员、薪资、个人成长阶段等细分；原因可以从爱好、人生大事、需求层级等细分；事情可以从主题、步骤、质量、效率等细分。通过这些细分维度，增加分析的多样性，从而挖掘规律。

五、数据分析方法选取数据分析方法是通过什么方法去组合数据从而展现规律的环节。从根本目的上来说，数据分析的任务在于抽象数据形成有业务意义的结论。因为单纯的数据是毫无意义的，直接看数据是没有办法发现其中的规律的，只有通过使用分析方法将数据抽象处理后，人们才能看出隐藏在数据背后的规律。

数据分析方法选取是整个数据处理过程的核心，一般从分析的方法复杂度上来讲，我将其分为三个层级，即常规分析方法，统计学分析方法跟自建模型。我之所以这样区分有两个层面上的考虑，分别是抽象程度以及定制程度。
其中抽象程度是说，有些数据不需要加工，直接转成图形的方式呈现出来，就能够表现出业务人员所需要的业务意义，但有些业务需求，直接把数据转化成图形是难以看出来的，需要建立数据模型，将多个指标或一个指标的多个维度进行重组，最终产生出新的数据来，那么形成的这个抽象的结果就是业务人员所需要的业务结论了。基于这个原则，可以划分出常规分析方法和非常规分析方法。

那么另一个层面是定制程度，到今天数学的发展已经有很长的时间了，其中一些经典的分析方法已经沉淀，他们可以通用在多用分析目的中，适用于多种业务结论中，这些分析方法就属于通用分析方法，但有些业务需求确实少见，它所需要的分析方法就不可能完全基于通用方法，因此就会形成独立的分析方法，也就是专门的数学建模，这种情况下所形成的数学模型都是专门为这个业务主题定制的，因此无法适用于多个主题，这类分析方法就属于高度定制的，因此基于这一原则，将非常规分析方法细分为统计学分析方法和自建模型类。

1常规分析方法常规分析方法不对数据做抽象的处理，主要是直接呈现原始数据，多用于针对固定的指标、且周期性的分析主题。直接通过原始数据来呈现业务意义，主要是通过趋势分析和占比分析来呈现，其分析方法对应同环比及帕累托分析这两类。同环比分析，其核心目的在于呈现本期与往期之间的差异，如销售量增长趋势；而帕累托分析则是呈现单一维度中的各个要素占比的排名，比如各个地市中本期的销售量增长趋势的排名，以及前百分之八十的增长量都由哪几个地市贡献这样的结论。常规分析方法已经成为最为基础的分析方法，在此也不详细介绍了。

2统计学分析方法统计学分析方法能够基于以往数据的规律来推导未来的趋势，其中可以分为多种规律总结的方式。根据原理多分为以下几大类，包括有目标结论的有指导学习算法，和没有目标结论的无指导学习算法，以及回归分析。
其中有指导的学习算法简单说就是有历史数据里边已经给出一个目标结论，然后分析当各个变量达到什么情况时，就会产生目标结论。比如我们想判断各项指标需要达到什么水平时我们才认定这个人患有心脏病的话，就可以把大量的心脏病人的各项指标数据和没有心脏病的正常人的各项指标数据都输入到系统中，目标结论就是是否有心脏病，变量就是各项指标数据，系统根据这些数据算出一个函数，这个函数能够恰当的描述各个指标的数据与最终这个是否是心脏病人之间的关系，也就是当各个指标达到什么临界值时，这个人就有心脏病的判断，这样以后再来病人，我们就可以根据各项指标的临界值。这个案例中的函数就是算法本身了，这其中的算法逻辑有很多种，包括常见的贝叶斯分类、决策树、随机森林树以及支持向量机等，有兴趣的朋友可以在网上看看各种算法的逻辑是怎么样的。

另外无指导的学习算法因为没有一个给定的目标结论，因此是将指标之中所有有类似属性的数据分别合并在一起，形成聚类的结果。比如最经典的啤酒与尿布分析，业务人员希望了解啤酒跟什么搭配在一起卖会更容易让大家接受，因此需要把所有的购买数据都放进来，然后计算后，得出其他各个商品与啤酒的关联程度或者是距离远近，也就是同时购买了啤酒的人群中，都有购买哪些其他的商品，然后会输出多种结果，比如尿布或者牛肉或者酸奶或者花生米等等，这每个商品都可以成为一个聚类结果，由于没有目标结论，因此这些聚类结果都可以参考，之后就是货品摆放人员尝试各种聚类结果来看效果提升程度。在这个案例中各个商品与啤酒的关联程度或者是距离远近就是算法本身了，这其中的逻辑也有很多中，包括Apriori等关联规则、聚类算法等。

另外还有一大类是回归分析，简单说就是几个自变量加减乘除后就能得出因变量来，这样就可以推算未来因变量会是多少了。比如我们想知道活动覆盖率、产品价格、客户薪资水平、客户活跃度等指标与购买量是否有关系，以及如果有关系，那么能不能给出一个等式来，把这几个指标的数据输入进去后，就能够得到购买量，这个时候就需要回归分析了，通过把这些指标以及购买量输入系统，运算后即可分别得出，这些指标对购买量有没有作用，以及如果有作用，那么各个指标应该如何计算才能得出购买量来。回归分析包括线性及非线性回归分析等算法。

统计学分析方法还有很多，不过在今天多用上述几大类分析方法，另外在各个分析方法中，又有很多的不同算法，这部分也是需要分析人员去多多掌握的。

3自建模型自建模型是在分析方法中最为高阶也是最具有挖掘价值的，在今天多用于金融领域，甚至业界专门为这个人群起了一个名字叫做宽客，这群人就是靠数学模型来分析金融市场。由于统计学分析方法所使用的算法也是具有局限性的，虽然统计学分析方法能够通用在各种场景中，但是它存在不精准的问题，在有指导和没有指导的学习算法中，得出的结论多为含有多体现在结论不精准上，而在金融这种锱铢必较的领域中，这种算法显然不能达到需求的精准度，因此数学家在这个领域中专门自建模型，来输入可以获得数据，得出投资建议来。在统计学分析方法中，回归分析最接近于数学模型的，但公式的复杂程度有限，而数学模型是完全自由的，能够将指标进行任意的组合，确保最终结论的有效性。

六、数据分析主题选取

在数据分析方法的基础上，进一步是将分析方法应用在业务需求中，基于业务主题的分析可以涉及太多的领域，从客户的参与活动的转化率，到客户的留存时长分析，再到内部的各环节衔接的及时率和准确度等等，每一种都有独特的指标和维度的要求，以及分析方法的要求，以我个人的经验来看，主要分析主题都是围绕着营销、运营、客户这三大角度来开展的。

1营销/运营分析营销运营分析多从过程及最终的成效上来进行分析，包括营销活动从发布到客户产生购买的过程的分析，运营从客户开始使用到停止使用为止的过程中的分析，前者更倾向于分析客户行为的变动趋势，以及不同类型的客户之间的行为差异，后者更倾向于分析在过程中服务的及时率和有效率，以及不同类型的客户之间对于服务需求的差异。

在针对这部分分析主题时，多采用常规分析方法，通过同环比以及帕累托来呈现简单的变动规律以及主要类型的客户，但通过统计学分析方法，营销分析可以根据有指导的学习算法，得出营销成功与营销失败之间的客户特征的差异，而运营分析则可以根据无指导的学习算法，得出哪些特征的客户对哪些服务是有突出的需求的，另外营销和运营分析都可以通过回归分析来判断，各项绩效指标中，哪些指标是对购买以及满意度有直接影响的。通过这些深入的挖掘，可以帮助指导营销及运营人员更好的完成任务。

2客户分析客户分析除了与营销和运营数据关联分析时候使用，另外单独对于客户特征的分析也是有很大价值的。这一部分分析更多需要通过统计学分析方法中的有指导和无指导的学习算法，一方面针对高价值客户，通过有指导的学习算法，能够看到哪些特征能够影响到客户的价值高低，从而为企业锁定目标客户提供指导；另一方面针对全体客户，通过无指导的学习算法，能够看到客户可以大概分为哪几种群落，针对每个群落的客户展开焦点讨论和情景观察，从而挖掘不同群落客户之间的需求差异，进而为各个群落的客户提供精准营销服务。通过以上这些的操作，一个企业的数据分析或者说数据挖掘工作的完整流程就呈现了出来。可以看到，无论是数据采集，还是分析方法，亦或是分析主题，在大数据和互联网的支撑基础上，在未来都将有大幅度的增加，数据分析人员将成为下一个阶段的关键企业支撑人员，也即是在未来，在各个领域中，都将产生大量的宽客，或者增长黑客这样的数据分析人员，来带动企业的发展。