整理完毕，如何对数据进行综合分析，相关分析?这个是很考验逻辑思维和推理能力的。同时分析推理过程中，需要对产品了如指掌，对供应商很了解，对采购流程很熟悉。看似一个简单的数据分析，其实是各方面能力的体现。首先是技术层面，对数据来源的抽取-转换-载入原理的理解和认识;其实是全局观，对季节性、公司等层面的业务有清晰的了解;最后是专业度，对业务的流程、设计等了如指掌。练就数据分析的洪荒之力并非一朝一夕之功，而是在实践中不断成长和升华。一个好的数据分析应该以价值为导向，放眼全局、立足业务，用数据来驱动增长。

8、如何展现和输出?

数据可视化也是一个学问。如何用合适的图表表现?每一种图表的寓意是什么?下面列举下常用的8个图表：

1)折线图：合适用于随时间而变化的连续数据，例如随时间收入变化，及增长率变化。

2)柱型图：主要用来表示各组数据之间的差别。主要有二维柱形图、三维柱形图、圆柱图、圆锥图和棱锥图。

3)堆积柱形图：堆积柱形图不仅可以显示同类别中每种数据的大小，还可以显示总量的大小。

4)线-柱图：这种类型的图不仅可以显示出同类别的比较，还可以显示出趋势情况。

5)条形图：类似于横向的柱状图，和柱状图的展示效果相同，主要用于各项类的比较。

6)饼图：主要显示各项占比情况。饼图一般慎用，除非占比区别非常明显。因为肉眼对对饼图的占比比例分辨并不直观。而且饼图的项，一般不要超过6项。6项后建议用柱形图更为直观。

7)复合饼图：一般是对某项比例的下一步分析。

8)母子饼图：可直观地分析项目的组成结构与比重

图表不必太花哨，一个表说一个问题就好。用友好的可视化图表，节省阅读者的时间，也是对阅读者的尊重。

有一些数据，辛辛苦苦做了整理和分析，最后发现对结论输出是没有关系的，虽然做了很多工作，但不能为了体现工作量而堆砌数据。

在展现的过程中，请注明数据的来源，时间，指标的说明，公式的算法，不仅体现数据分析的专业度，更是对报告阅读者的尊重。

数据分析思路都有哪些?

刘老师数据分析师

1、趋势分析

最简单、最常见的数据分析方法，一般用于核心指标的长期跟踪，比如点击率、GMV、活跃用户数。可以看出数据有那些趋势上的变化，有没有周期性，有没有拐点等，继而分析原因。

2、多维分解

也就是通过不同的维度对于数据进行分解，以获取更加精细的数据洞察。举个例子，对网站维护进行数据分析，可以拆分出地区、访问来源、设备、浏览器等等维度。

3、用户分群

针对符合某种特定行为或背景信息的用户，进行特定的优化和分析，将多维度和多指标作为分群条件，有针对性地优化供应链，提升供应链稳定性。

4、漏斗分析

按照已知的转化路径，借助漏斗模型分析总体和每一步的转化情况。例如将漏斗图用于网站关键路径的转化率分析，不仅能显示用户的最终转化率，同时还可以展示每一节点的转化率。

5、留存分析

留存分析是一种用来分析用户参与情况/活跃程度的分析模型，考察进行初始行为的用户中，有多少人会进行后续行为。衡量留存的常见指标有次日留存率、7日留存率、30日留存率等。

6、A/B 测试

A/B测试是为了达到一个目标，采取了两套方案，通过实验观察两组方案的数据效果，判断两组方案的好坏，需要选择合理的分组样本、监测数据指标、事后数据分析和不同方案评估。

7、对比分析

分为横向对比(跟自己比)和纵向对比(跟别人比)，常见的对比应用有A/B test，A/B test的关键就是保证两组中只有一个单一变量，其他条件保持一致。

8、交叉分析

交叉分析法就是将对比分析从多个维度进行交叉展现，进行多角度的结合分析，从中发现最为相关的维度来探索数据变化的原因。

数据挖掘要解决的问题有哪些?

刘老师数据分析师

1.可伸缩

由于数据产生和采集技术的进步，数太字节(TB)、数拍字节(PB)甚至数艾字节(EB)的数据集越来越普遍。如果数据挖掘算法要处理这些海量数据集，则算法必须是可伸缩的。许多数据挖掘算法采用特殊的搜索策略来处理指数级的搜索问题。为实现可伸缩可能还需要实现新的数据结构，才能以有效的方式访问每个记录。

例如，当要处理的数据不能放进内存时，可能需要核外算法。使用抽样技术或开发并行和分布式算法也可以提高可伸缩程度。

2.高维性

现在，常常会遇到具有成百上千属性的数据集，而不是几十年前常见的只具有少量属性的数据集。在生物信息学领域，微阵列技术的进步已经产生了涉及数千特征的基因表达数据。具有时间分量或空间分量的数据集也通常具有很高的维度。

例如，考虑包含不同地区的温度测量结果的数据集，如果在一个相当长的时间周期内反复地测量，则维数(特征数)的增长正比于测量的次数。为低维数据开发的传统数据分析技术通常不能很好地处理这类高维数据，如维灾难问题。此外，对于某些数据分析算法，随着维数(特征数)的增加，计算复杂度会迅速增加。

3.异构数据和复杂数据

通常，传统的数据分析方法只处理包含相同类型属性的数据集，或者是连续的，或者是分类的。随着数据挖掘在商务、科学、医学和其他领域的作用越来越大，越来越需要能够处理异构属性的技术。

近年来，出现了更复杂的数据对象。这种非传统类型的数据如：含有文本、超链接、图像、音频和视频的Web和社交媒体数据，具有序列和三维结构的DNA数据，由地球表面不同位置、不同时间的测量值(温度、压力等)构成的气候数据。

为挖掘这种复杂对象而开发的技术应当考虑数据中的联系，如时间和空间的自相关性、图的连通性、半结构化文本和XML文档中元素之间的父子关系。

4.数据的所有权与分布

有时，需要分析的数据不会只存储在一个站点，或归属于一个机构，而是地理上分布在属于多个机构的数据源中。这就需要开发分布式数据挖掘技术。分布式数据挖掘算法面临的主要挑战包括：

如何降低执行分布式计算所需的通信量?如何有效地统一从多个数据源获得的数据挖掘结果?如何解决数据安全和隐私问题?

5.非传统分析

传统的统计方法基于一种假设检验模式，即提出一种假设，设计实验来收集数据，然后针对假设分析数据。但是，这一过程劳力费神。当前的数据分析任务常常需要产生和评估数千种假设，因此需要自动地产生和评估假设，这促使人们开发了一些数据挖掘技术。

此外，数据挖掘所分析的数据集通常不是精心设计的实验的结果，并且它们通常代表数据的时机性样本(opportunistic sample)，而不是随机样本(random sample)。