问答详情

数据分析需要掌握什么知识?

1504次观看
标签: 数据分析 数据分析知识
老师回答

1. Excel

提到Excel大家都不陌生,很多小白非常喜欢用Excel来进行数据分析。即使是专业的分析人员,他们也会使用Excel处理聚合数据。

2. SQL语言

SQL(结构化查询语言)是一种用于处理和检索关系数据库中存储的数据的计算机语言,是关系数据库管理系统的标准语言。

3. 可视化工具

将数据可视化可以让人更加理解数据。人类都是视觉动物,图形往往比密密麻麻的文字更易于理解。

4. Python

Tableau、FineBI这一类的可视化工具,的确可以自动生成报告。但是,如果想要进行更深入的探索,你需要学习Python来进行数据挖掘。

Python是一种面向对象的高级编程语言,主要用于Web以及应用程序的开发。Python拥有图形和可视化工具、以及扩展的分析工具包,能够更好地帮助我们进行数据分析。

5. SAS

SAS(统计分析软件)是一套模块化的大型集成应用软件系统。它由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等。因此,SAS能够对数据进行深层次的挖掘和分析。

6. Alteryx

Alteryx是一种自助服务分析工具。用户可以快速混合和准备数据,即便没有任何编程能力的人,也可以在Alteryx中构建数据工作流。同时,Alteryx的运行速度也非常快。使用拖放式工作流程和数据清理技术,仅需几分钟,你就能得到输出结果。

免费直播

    相关推荐
    数据分析的5种细分方法有哪些?
    刘老师 数据分析师

    1.按时间细分

    时间可以细分为不同的跨度,包括年、月、周、日、时、分、秒等等,不同的时间跨度,数据表现可能大不相同。

    比如说,按照月度来看,产品的销量可能变化不大,但是如果细分到每一天,可能就有比较剧烈的变化,我们应该找到这些变化的数据,并分析变化背后的原因,而不是让它淹没在整月汇总数据的表象之中。

    2.按空间细分

    空间主要是指按地域进行划分,包括世界、洲、国家、省份、城市、区等等。

    比如说,把全国的 GDP 数据,细分到每一个省份。

    空间作为一个相对抽象的概念,也可以代表其他与业务相关的各种事物,比如产品、人员、类别等等,只要有助于理解事物的本质,都可以尝试拿来进行细分。

    3.按过程细分

    把业务细分为一些具体的过程,往往能够让复杂的问题简单化。

    比如说,把订单发货细分为 5 个过程,想办法提升每个过程的效率,从而缩短发货的时间。

    再比如,把用户的生命周期,细分为 5 个重要的过程,即:获取、激活、留存、盈利、推荐。

    4.按公式细分

    有时候一个指标,是可以用公式计算出来的。

    比如说,销售额 = 销售数量 * 平均单价,销售数量 = 新客户购买数量 + 老客户购买数量,以此类推。

    再比如,在财务分析中,权益净利率 = 资产净利率 * 权益乘数,其中:资产净利率 = 销售净利率 * 资产周转率,以此类推。

    5.按模型细分

    数据分析的模型有很多,我们可以根据业务的实际情况,选择合适的模型,在此基础上进行细分,得出相应的分析结论。

    比如说,按照波士顿矩阵,把企业产品细分为「市场占有率」和「销售增长率」两个维度,然后画一个四象限矩阵图,其中每个象限就代表一类产品,即:明星产品、金牛产品、瘦狗产品和问题产品,对每一类产品,分别建议采取不同的发展策略。

    再比如,按照 RFM 模型,把客户按三个维度进行细分,即:最近一次消费时间间隔(Recency)、消费频率(Frequency)和消费金额(Monetary),从而得到 8 种客户类别,从而有针对性地采取不同的营销策略。

    数据挖掘常用的方法有哪些?
    刘老师 数据分析师

    1、分类

    分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。

    主要的分类方法:决策树、KNN 法 (K-Nearest Neighbor)、SVM 法、VSM 法、Bayes 法、神经网络等。

    2、聚类

    聚类指事先并不知道任何样本的类别标号,按照对象的相似性和差异性,把一组对象划分成若干类,并且每个类里面对象之间的相似度较高,不同类里面对象之间相似度较低或差异明显。我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,聚类是一种无监督学习。

    聚类的方法(算法):主要的聚类算法可以划分为如下几类,划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法。每一类中都存在着得到广泛应用的算法, 划分方法中有 k-means 聚类算法、层次方法中有凝聚型层次聚类算法、基于模型方法中有神经网络聚类算法。

    3、回归分析

    回归分析是一个统计预测模型,用以描述和评估因变量与一个或多个自变量之间的关系;反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系。

    回归分析的应用:回归分析方法被广泛地用于解释市场占有率、销售额、品牌偏好及市场营销效果。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。

    回归分析的主要研究问题:数据序列的趋势特征、数据序列的预测、数据间的相关关系等。

    4、关联规则

    关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则是描述数据库中数据项之间所存在的关系的规则。

    5、神经网络方法

    神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的问题,以及那些以模糊、不完整、不严密的知识或数据为特征的问题,它的这一特点十分适合解决数据挖掘的问题。

    6、Web数据挖掘

    web数据挖掘是一项综合性技术,指Web从文档结构和使用的集合C中发现隐含的模式P,如果将C看做是输入,P 看做是输出,那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。

    7、特征分析

    特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。

    8、偏差分析

    偏差是数据集中的小比例对象。通常,偏差对象被称为离群点、例外、野点等。偏差分析就是发现与大部分其他对象不同的对象。

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司