数据分析师常用工具有哪些?

1165次观看

标签：数据分析师数据分析师常用工具

老师回答

1、数据处理工具：Excel

数据分析师，在有些公司也会有数据产品经理、数据挖掘工程师等等。他们最初级最主要的工具就是Excel。有些公司也会涉及到像Visio，Xmind、PPT等设计图标数据分析方面的高级技巧。数据分析师是一个需要拥有较强综合能力的岗位，因此，在有些互联网公司仍然需要数据透视表演练、Vision跨职能流程图演练、Xmind项目计划导图演练、PPT高级动画技巧等。

2、数据库：MySQL

Excel如果能够玩的很转，能胜任一部分数据量不是很大的公司。但是基于Excel处理数据能力有限，如果想胜任中型的互联网公司中数据分析岗位还是比较困难。因此需要学会数据库技术，一般Mysql。你需要了解MySQL管理工具的使用以及数据库的基本操作;数据表的基本操作、MySQL的数据类型和运算符、MySQL函数、查询语句、存储过程与函数、触发程序以及视图等。比较高阶的需要学习MySQL的备份和恢复;熟悉完整的MySQL数据系统开发流程。

3、数据可视化：Tableau & Echarts

如果说前面2条是数据处理的技术，那么在如今“颜值为王”的现在，如何将数据展现得更好看，让别人更愿意看，这也是一个技术活。好比公司领导让你对某一个项目得研究成果做汇报，那么你不可能给他看单纯的数据一样，你需要让数据更直观，甚至更美观。

©本文版权归环球青藤所有，任何形式转载请联系我们。

免费直播

精选课程

0基础入门数据分析5天训练营（cep）

数据分析师 5次课共4学时

曹峥

张玮

¥ 8

¥ 1

火热报名中

Excel常用技巧助你高效办公

数据分析师 3次课共3学时

张玮

¥ 29

火热报名中

职场数据分析训练营-办公效率班

数据分析师 40次课共30学时

曹峥

¥ 2299

火热报名中

Power BI 轻松入门：零基础到数据大师

数据分析师 23次课共49学时

吴开斌

¥ 399

火热报名中

Excel入门到精通

数据分析师 12次课共10学时

高老师

¥ 199

火热报名中

MOS微软国际认证考试

数据分析师 30次课共1学时

高老师

¥ 600-3000

火热报名中

VBA实战速成：从零到一的突破

数据分析师 62次课共11学时

吴开斌

¥ 1299

火热报名中

WPS高效数据管理

数据分析师 17次课共4学时

王忠超

¥ 1299

火热报名中

Fine BI 商业智能数据分析

数据分析师 27次课共6学时

王忠超

¥ 1299

火热报名中

【Excel 高效应用:HR 数字化管理实战】

数据分析师 30次课共3学时

王忠超

相关推荐

1、RapidMiner

该工具是用Java语言编写的，通过基于模板的框架提供先进的分析技术。该款工具最大的好处就是，用户无需写任何代码。它是作为一个服务提供，而不是一款本地软件。值得一提的是，该工具在数据挖掘工具榜上位列榜首。

另外，除了数据挖掘，RapidMiner还提供如数据预处理和可视化、预测分析和统计建模、评估和部署等功能。更厉害的是它还提供来自WEKA(一种智能分析环境)和R 脚本的学习方案、模型和算法。

RapidMiner分布在AGPL开源许可下，可以从SourceForge上下载。SourceForge是一个开发者进行开发管理的集中式场所，大量开源项目在此落户，其中就包括维基百科使用的MediaWiki。

2、WEKA

WEKA原生的非Java版本主要是为了分析农业领域数据而开发的。该工具基于Java版本，是非常复杂的，并且应用在许多不同的应用中，包括数据分析以及预测建模的可视化和算法。与RapidMiner相比优势在于，它在GNU通用公共许可证下是免费的，因为用户可以按照自己的喜好选择自定义。

WEKA支持多种标准数据挖掘任务，包括数据预处理、收集、分类、回归分析、可视化和特征选取。

添加序列建模后，WEKA将会变得更强大，但目前不包括在内。

3、R-Programming

如果我告诉你R项目，一个GNU项目，是由R(R-programming简称，以下统称R)自身编写的，你会怎么想它主要是由C语言和FORTRAN语言编写的，并且很多模块都是由R编写的，这是一款针对编程语言和软件环境进行统计计算和制图的免费软件。R语言被广泛应用于数据挖掘，以及开发统计软件和数据分析中。近年来，易用性和可扩展性也大大提高了R的知名度。

除了数据，它还提供统计和制图技术，包括线性和非线性建模，经典的统计测试，时间序列分析、分类、收集等等。

数据分析思路都有哪些?

刘老师数据分析师

1、趋势分析

最简单、最常见的数据分析方法，一般用于核心指标的长期跟踪，比如点击率、GMV、活跃用户数。可以看出数据有那些趋势上的变化，有没有周期性，有没有拐点等，继而分析原因。

2、多维分解

也就是通过不同的维度对于数据进行分解，以获取更加精细的数据洞察。举个例子，对网站维护进行数据分析，可以拆分出地区、访问来源、设备、浏览器等等维度。

3、用户分群

针对符合某种特定行为或背景信息的用户，进行特定的优化和分析，将多维度和多指标作为分群条件，有针对性地优化供应链，提升供应链稳定性。

4、漏斗分析

按照已知的转化路径，借助漏斗模型分析总体和每一步的转化情况。例如将漏斗图用于网站关键路径的转化率分析，不仅能显示用户的最终转化率，同时还可以展示每一节点的转化率。

5、留存分析

留存分析是一种用来分析用户参与情况/活跃程度的分析模型，考察进行初始行为的用户中，有多少人会进行后续行为。衡量留存的常见指标有次日留存率、7日留存率、30日留存率等。

6、A/B 测试

A/B测试是为了达到一个目标，采取了两套方案，通过实验观察两组方案的数据效果，判断两组方案的好坏，需要选择合理的分组样本、监测数据指标、事后数据分析和不同方案评估。

7、对比分析

分为横向对比(跟自己比)和纵向对比(跟别人比)，常见的对比应用有A/B test，A/B test的关键就是保证两组中只有一个单一变量，其他条件保持一致。

8、交叉分析

交叉分析法就是将对比分析从多个维度进行交叉展现，进行多角度的结合分析，从中发现最为相关的维度来探索数据变化的原因。

数据挖掘的常用方法有哪些?

刘老师数据分析师

1、决策树法

决策树在解决归类与预测上有着极强的能力，它以法则的方式表达，而这些法则则以一连串的问题表示出来，经由不断询问问题最终能导出所需的结果。典型的决策树顶端是一个树根，底部有许多的树叶，它将纪录分解成不同的子集，每个子集中的字段可能都包含一个简单的法则。此外，决策树可能有着不同的外型，例如二元树、三元树或混和的决策树型态。

2、神经网络法

神经网络法是模拟生物神经系统的结构和功能，是一种通过训练来学习的非线性预测模型，它将每一个连接看作一个处理单元，试图模拟人脑神经元的功能，可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改上。其优点是具有抗干扰、非线性学习、联想记忆功能，对复杂情况能得到精确的预测结果;缺点首先是不适合处理高维变量，不能观察中间的学习过程，具有“黑箱”性，输出结果也难以解释;其次是需较长的学习时间。神经网络法主要应用于数据挖掘的聚类技术中。

3、关联规则法

关联规则是描述数据库中数据项之间所存在的关系的规则，即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现，即隐藏在数据间的关联或相互关系。在客户关系管理中，通过对企业的客户数据库里的大量数据进行挖掘，可以从大量的记录中发现有趣的关联关系，找出影响市场营销效果的关键因素，为产品定位、定价与定制客户群，客户寻求、细分与保持，市场营销与推销，营销风险评估和诈骗预测等决策支持提供参考依据。

4、遗传算法

遗传算法模拟了自然选择和遗传中发生的繁殖、交配和基因突变现象，是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。它的基本观点是“适者生存”原理，具有隐含并行性、易于和其他模型结合等性质。主要的优点是可以处理许多数据类型，同时可以并行处理各种数据;缺点是需要的参数太多，编码困难，一般计算量比较大。遗传算法常用于优化神经元网络，能够解决其他技术难以解决的问题。

5、聚类分析法

聚类分析是把一组数据按照相似性和差异性分为几个类别，其目的是使得属于同一类别的数据间的相似性尽可能大，不同类别中的数据间的相似性尽可能小。根据定义可以把其分为四类：基于层次的聚类方法;分区聚类算法;基于密度的聚类算法;网格的聚类算法。常用的经典聚类方法有K-mean，K-medoids，ISODATA等。

6、模糊集法

模糊集法是利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集合理论是用隶属度来描述模糊事物的属性。系统的复杂性越高，模糊性就越强。

7、web页挖掘

通过对Web的挖掘，可以利用Web的海量数据进行分析，收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息，集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息，并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆，对这些信息进行分析和处理，以便识别、分析、评价和管理危机。

8、逻辑回归分析

反映的是事务数据库中属性值在时间上的特征，产生一个将数据项映射到一个实值预测变量的函数，发现变量或属性间的依赖关系，其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。

9、粗糙集法

是一种新的处理含糊、不精确、不完备问题的数学工具，可以处理数据约简、数据相关性发现、数据意义的评估等问题。其优点是算法简单，在其处理过程中可以不需要关于数据的先验知识，可以自动找出问题的内在规律;缺点是难以直接处理连续的属性，须先进行属性的离散化。因此，连续属性的离散化问题是制约粗糙集理论实用化的难点。

10、连接分析

它是以关系为主体，由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉连结分析收集到顾客使用电话的时间与频率，进而推断顾客使用偏好为何，提出有利于公司的方案。除了电信业之外，愈来愈多的营销业者亦利用连结分析做有利于企业的研究。