整理完毕，如何对数据进行综合分析，相关分析?这个是很考验逻辑思维和推理能力的。同时分析推理过程中，需要对产品了如指掌，对供应商很了解，对采购流程很熟悉。看似一个简单的数据分析，其实是各方面能力的体现。首先是技术层面，对数据来源的抽取-转换-载入原理的理解和认识;其实是全局观，对季节性、公司等层面的业务有清晰的了解;最后是专业度，对业务的流程、设计等了如指掌。练就数据分析的洪荒之力并非一朝一夕之功，而是在实践中不断成长和升华。一个好的数据分析应该以价值为导向，放眼全局、立足业务，用数据来驱动增长。

8、如何展现和输出?

数据可视化也是一个学问。如何用合适的图表表现?每一种图表的寓意是什么?下面列举下常用的8个图表：

1)折线图：合适用于随时间而变化的连续数据，例如随时间收入变化，及增长率变化。

2)柱型图：主要用来表示各组数据之间的差别。主要有二维柱形图、三维柱形图、圆柱图、圆锥图和棱锥图。

3)堆积柱形图：堆积柱形图不仅可以显示同类别中每种数据的大小，还可以显示总量的大小。

4)线-柱图：这种类型的图不仅可以显示出同类别的比较，还可以显示出趋势情况。

5)条形图：类似于横向的柱状图，和柱状图的展示效果相同，主要用于各项类的比较。

6)饼图：主要显示各项占比情况。饼图一般慎用，除非占比区别非常明显。因为肉眼对对饼图的占比比例分辨并不直观。而且饼图的项，一般不要超过6项。6项后建议用柱形图更为直观。

7)复合饼图：一般是对某项比例的下一步分析。

8)母子饼图：可直观地分析项目的组成结构与比重

图表不必太花哨，一个表说一个问题就好。用友好的可视化图表，节省阅读者的时间，也是对阅读者的尊重。

有一些数据，辛辛苦苦做了整理和分析，最后发现对结论输出是没有关系的，虽然做了很多工作，但不能为了体现工作量而堆砌数据。

在展现的过程中，请注明数据的来源，时间，指标的说明，公式的算法，不仅体现数据分析的专业度，更是对报告阅读者的尊重。

数据分析的误区有哪些?

刘老师数据分析师

1、数据分析需要大量投资

如今，似乎对每一项新技术的投入都必须通过严格的财务支出的筛选过程。“它需要多少费用?”——是IT和业务经理在提议启动项目或部署新工具时需要首先考虑的问题之一。

有些人认为数据分析本质上是一项代价高昂的工作，因此仅限于拥有大量预算或大量内部资源的企业机构。但是事实并非如此，现在市场上有很多开源工具和其他工具能够帮助展示数据分析的价值;并且基于云系统的大数据架构，也会比传统的数据仓库便宜得多。你只需要明确内部数据存储以及要解决的问题，就可以轻松的在云上使用分析来解决业务问题。

此外，数据分析通常用于实现三个结果：提高流程效率、实现收入增长和主动进行风险管理，总的来说，数据分析在任何公司的应用中都带来了巨大的成本效益。

2、你需要“大数据”才能执行分析

对于许多人来说，大数据和分析的概念是相辅相成的，企业需要在执行分析之前收集大量数据，以便生成业务洞察，改进决策制定等。

当然，大数据分析的优势也很明确，拥有这些资源的公司利用大数据存储作为促进分析工作的一部分，获得了显着的竞争优势。但是大数据却并不是分析必不可少的搭配。

分析师需要特定的数据，而不是更多的数据。要想更好地支持决策和提高绩效，企业必须更多的考虑业务用户，确定他们需要访问哪些数据，如何呈现数据，而不是关注更多的数据。95%以上的用户会寻找和他们工作相关的信息来支持他们进行决策，来提高业务表现，所以企业需要以最简单的格式向他们提供这些信息，帮助他们快速定位重要信息。

3、分析消除了人类的偏见

自动化系统执行的方式不应该存在偏见，但技术是由人类建立的，因此消除所有偏见几乎是不可能的。

有些人认为分析和机器学习消除了人类的偏见，不幸的是，这并没有实现。算法和分析使用“训练数据”进行调整，并将重现“训练数据”所具有的任何特征，在某些情况下，这会在分析过程中引入良性偏见，但也有可能带来更严重的偏见——因为“算法这么说”并不意味着答案是公平的或者有用的。

4、最好的算法意味着绝对的胜利

事实证明，有了足够的数据，有时算法无关紧要。谷歌的工程师认为，数据有着不合理有效性，简单的统计模型，加上极大量的数据，比包含大量特征和总结的“智能优越模型”能输出更优质的结果。

因此，在某些情况下，只需处理更大量的数据就可以获得最佳效果。

5、算法是安全的

人们固执地信任统计模型和算法，并且随着分析程序的组织构建，他们会越来越依赖复杂的模型来支持决策。这或许是因为用户并不觉得他们有能力挑战模型，因此他们必须相信构建它们的“聪明人”。

比如，在过去的50到60年里，我们反复听到“人工智能将在20年内接管人类工作”的言论，现在也还是有人反复强调这种观点。在我们可以完全信任机器学习和它们输出的结果之前，还有很多事情要做。在那之前，我们需要挑战构建算法和模型的人，让他们解释如何得到答案。这并不是说我们不能依赖于结果，而是说我们需要透明度，这样我们才可以信任和验证分析结果。

数据挖掘的常用方法有哪些?

刘老师数据分析师

1、决策树法

决策树在解决归类与预测上有着极强的能力，它以法则的方式表达，而这些法则则以一连串的问题表示出来，经由不断询问问题最终能导出所需的结果。典型的决策树顶端是一个树根，底部有许多的树叶，它将纪录分解成不同的子集，每个子集中的字段可能都包含一个简单的法则。此外，决策树可能有着不同的外型，例如二元树、三元树或混和的决策树型态。

2、神经网络法

神经网络法是模拟生物神经系统的结构和功能，是一种通过训练来学习的非线性预测模型，它将每一个连接看作一个处理单元，试图模拟人脑神经元的功能，可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改上。其优点是具有抗干扰、非线性学习、联想记忆功能，对复杂情况能得到精确的预测结果;缺点首先是不适合处理高维变量，不能观察中间的学习过程，具有“黑箱”性，输出结果也难以解释;其次是需较长的学习时间。神经网络法主要应用于数据挖掘的聚类技术中。

3、关联规则法

关联规则是描述数据库中数据项之间所存在的关系的规则，即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现，即隐藏在数据间的关联或相互关系。在客户关系管理中，通过对企业的客户数据库里的大量数据进行挖掘，可以从大量的记录中发现有趣的关联关系，找出影响市场营销效果的关键因素，为产品定位、定价与定制客户群，客户寻求、细分与保持，市场营销与推销，营销风险评估和诈骗预测等决策支持提供参考依据。

4、遗传算法

遗传算法模拟了自然选择和遗传中发生的繁殖、交配和基因突变现象，是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。它的基本观点是“适者生存”原理，具有隐含并行性、易于和其他模型结合等性质。主要的优点是可以处理许多数据类型，同时可以并行处理各种数据;缺点是需要的参数太多，编码困难，一般计算量比较大。遗传算法常用于优化神经元网络，能够解决其他技术难以解决的问题。

5、聚类分析法

聚类分析是把一组数据按照相似性和差异性分为几个类别，其目的是使得属于同一类别的数据间的相似性尽可能大，不同类别中的数据间的相似性尽可能小。根据定义可以把其分为四类：基于层次的聚类方法;分区聚类算法;基于密度的聚类算法;网格的聚类算法。常用的经典聚类方法有K-mean，K-medoids，ISODATA等。

6、模糊集法

模糊集法是利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集合理论是用隶属度来描述模糊事物的属性。系统的复杂性越高，模糊性就越强。

7、web页挖掘

通过对Web的挖掘，可以利用Web的海量数据进行分析，收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息，集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息，并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆，对这些信息进行分析和处理，以便识别、分析、评价和管理危机。

8、逻辑回归分析

反映的是事务数据库中属性值在时间上的特征，产生一个将数据项映射到一个实值预测变量的函数，发现变量或属性间的依赖关系，其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。

9、粗糙集法

是一种新的处理含糊、不精确、不完备问题的数学工具，可以处理数据约简、数据相关性发现、数据意义的评估等问题。其优点是算法简单，在其处理过程中可以不需要关于数据的先验知识，可以自动找出问题的内在规律;缺点是难以直接处理连续的属性，须先进行属性的离散化。因此，连续属性的离散化问题是制约粗糙集理论实用化的难点。

10、连接分析

它是以关系为主体，由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉连结分析收集到顾客使用电话的时间与频率，进而推断顾客使用偏好为何，提出有利于公司的方案。除了电信业之外，愈来愈多的营销业者亦利用连结分析做有利于企业的研究。