问答详情

数据分析有哪些阶段?

1279次观看
标签: 数据分析 数据分析阶段
老师回答

1、数据收集

第一手数据:主要指可直接获取的数据;第二手数据:指经过加工整理后得到的数据。

2、数据处理

目的:从大量的、杂乱无章、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据。

3、数据分析

数据挖掘:一种高级的数据分析方法。主要侧重解决四类数据分析问题:分类、聚类、关联、预测。

4、数据展现

常用数据图:饼图、柱形图、条形图、折线图、散点图、雷达图、金字塔图、矩阵图、漏斗图、帕雷托图。

5、报告撰写

有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然,需要有明确的结论,有建议或解决方案。

免费直播

    相关推荐
    数据挖掘常用的方法有哪些?
    刘老师 数据分析师

    1、分类

    分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。

    主要的分类方法:决策树、KNN 法 (K-Nearest Neighbor)、SVM 法、VSM 法、Bayes 法、神经网络等。

    2、聚类

    聚类指事先并不知道任何样本的类别标号,按照对象的相似性和差异性,把一组对象划分成若干类,并且每个类里面对象之间的相似度较高,不同类里面对象之间相似度较低或差异明显。我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,聚类是一种无监督学习。

    聚类的方法(算法):主要的聚类算法可以划分为如下几类,划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法。每一类中都存在着得到广泛应用的算法, 划分方法中有 k-means 聚类算法、层次方法中有凝聚型层次聚类算法、基于模型方法中有神经网络聚类算法。

    3、回归分析

    回归分析是一个统计预测模型,用以描述和评估因变量与一个或多个自变量之间的关系;反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系。

    回归分析的应用:回归分析方法被广泛地用于解释市场占有率、销售额、品牌偏好及市场营销效果。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。

    回归分析的主要研究问题:数据序列的趋势特征、数据序列的预测、数据间的相关关系等。

    4、关联规则

    关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则是描述数据库中数据项之间所存在的关系的规则。

    5、神经网络方法

    神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的问题,以及那些以模糊、不完整、不严密的知识或数据为特征的问题,它的这一特点十分适合解决数据挖掘的问题。

    6、Web数据挖掘

    web数据挖掘是一项综合性技术,指Web从文档结构和使用的集合C中发现隐含的模式P,如果将C看做是输入,P 看做是输出,那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。

    7、特征分析

    特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。

    8、偏差分析

    偏差是数据集中的小比例对象。通常,偏差对象被称为离群点、例外、野点等。偏差分析就是发现与大部分其他对象不同的对象。

    数据分析常见流程有哪些?
    刘老师 数据分析师

    1、为什么分析?

    首先,你得知道为什么分析?弄清楚此次数据分析的目的。比如,什么类型的客户交货期总是拖延。你所有的分析都的围绕这个为什么来回答。避免不符合目标反复返工,这个过程会很痛苦。

    2、分析目标是谁?

    要牢记清楚的分析因子,统计维度是金额,还是产品,还是供应商行业竞争趋势,还是供应商规模等等。避免把金额当产品算,把产品当金额算,算出的结果是差别非常大的。

    3、想达到什么效果?

    通过分析各个维度产品类型,公司采购周期,采购条款,找到真正的问题。例如这次分析的薄弱环节供应商,全部集中采购,和保持现状,都不符合利益最大化原则。通过分析,找到真正的问题根源,发现精细化采购管理已经非常必要了。

    4、需要哪些数据?

    采购过程涉及的数据,很多,需要哪些源数据?采购总额?零部件行业竞争度?货款周期?采购频次?库存备货数?客户地域因子?客户规模?等等列一个表。避免不断增加新的因子。

    5、如何采集?

    数据库中供应商信息采集,平时供应商各种信息录入,产品特性录入等,做数据分析一定要有原料,否则巧妇难为无米之炊。

    6、如何整理?

    整理数据是门技术活。不得不承认EXCEL是个强大工具,数据透视表的熟练使用和技巧,作为支付数据分析必不可少,各种函数和公式也需要略懂一二,避免低效率的数据整理。Spss也是一个非常优秀的数据处理工具,特别在数据量比较大,而且当字段由特殊字符的时候,比较好用。

    7、如何分析?

    整理完毕,如何对数据进行综合分析,相关分析?这个是很考验逻辑思维和推理能力的。同时分析推理过程中,需要对产品了如指掌,对供应商很了解,对采购流程很熟悉。看似一个简单的数据分析,其实是各方面能力的体现。首先是技术层面,对数据来源的抽取-转换-载入原理的理解和认识;其实是全局观,对季节性、公司等层面的业务有清晰的了解;最后是专业度,对业务的流程、设计等了如指掌。练就数据分析的洪荒之力并非一朝一夕之功,而是在实践中不断成长和升华。一个好的数据分析应该以价值为导向,放眼全局、立足业务,用数据来驱动增长。

    8、如何展现和输出?

    数据可视化也是一个学问。如何用合适的图表表现?每一种图表的寓意是什么?下面列举下常用的8个图表:

    1)折线图:合适用于随时间而变化的连续数据,例如随时间收入变化,及增长率变化。

    2)柱型图:主要用来表示各组数据之间的差别。主要有二维柱形图、三维柱形图、圆柱图、圆锥图和棱锥图。

    3)堆积柱形图:堆积柱形图不仅可以显示同类别中每种数据的大小,还可以显示总量的大小。

    4)线-柱图:这种类型的图不仅可以显示出同类别的比较,还可以显示出趋势情况。

    5)条形图:类似于横向的柱状图,和柱状图的展示效果相同,主要用于各项类的比较。

    6)饼图:主要显示各项占比情况。饼图一般慎用,除非占比区别非常明显。因为肉眼对对饼图的占比比例分辨并不直观。而且饼图的项,一般不要超过6项。6项后建议用柱形图更为直观。

    7)复合饼图:一般是对某项比例的下一步分析。

    8)母子饼图:可直观地分析项目的组成结构与比重

    图表不必太花哨,一个表说一个问题就好。用友好的可视化图表,节省阅读者的时间,也是对阅读者的尊重。

    有一些数据,辛辛苦苦做了整理和分析,最后发现对结论输出是没有关系的,虽然做了很多工作,但不能为了体现工作量而堆砌数据。

    在展现的过程中,请注明数据的来源,时间,指标的说明,公式的算法,不仅体现数据分析的专业度,更是对报告阅读者的尊重。

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司