问答详情

CDA数据分析师都考些什么?

1356次观看
标签: CDA数据分析师 数据分析师
老师回答

1.CDA Level Ⅰ:事务数据剖析师

135分钟(15分钟阅览考试指南+120分钟正式答题),客观题(单选+多选),上机答题。考点请参阅CDA Level Ⅰ考试纲要。

2.CDA Level II:建模剖析师

前105分钟(15分钟阅览考试指南+90分钟正式答题),客观题(单选+多选),上机答题;后120分钟,事例操作,自行携带电脑操作(装置好带有数据挖掘功能的软件如:SQL ,PYTHON,SPSS MODELER,R SAS,WEKA,等,进行事例操作剖析。事例数据将统一供给CSV文件)。考点请参阅CDA Level Ⅱ建模剖析师考试纲要。

3.CDA Level II:大数据剖析师

前105分钟(15分钟阅览考试指南+90分钟正式答题),上机答题;后120分钟,事例操作,自行携带电脑操作(详细准备工作参见考试纲要中的详细说明)。考点请参阅CDA Level Ⅱ大数据剖析师考试纲要。

4.CDA Level III:数据科学家

第一阶段:165分钟(15分钟阅览考试指南+150分钟正式答题),客观题+主观题,上机答题。第二阶段:1个月内,项目事例,开放自由答题。提交项目结果,30分钟,线上面试答辩。(第一阶段考试经过者,才有资格参与第二阶段面试)。项目事例考试安排经过邮件发送。考点请参阅CDA Level Ⅲ数据科学家考试纲要。

免费直播

    相关推荐
    大数据核心算法有哪些?
    刘老师 数据分析师

    1、A* 搜索算法——图形搜索算法,从给定起点到给定终点计算出路径。其中使用了一种启发式的估算,为每个节点估算通过该节点的最佳路径,并以之为各个地点排定次序。算法以得到的次序访问这些节点。因此,A*搜索算法是最佳优先搜索的范例。

    2、集束搜索(又名定向搜索,Beam Search)——最佳优先搜索算法的优化。使用启发式函数评估它检查的每个节点的能力。不过,集束搜索只能在每个深度中发现最前面的m个最符合条件的节点,m是固定数字——集束的宽度。

    3、二分查找(Binary Search)——在线性数组中找特定值的算法,每个步骤去掉一半不符合要求的数据。

    4、分支界定算法(Branch and Bound)——在多种最优化问题中寻找特定最优化解决方案的算法,特别是针对离散、组合的最优化。

    5、Buchberger算法——一种数学算法,可将其视为针对单变量最大公约数求解的欧几里得算法和线性系统中高斯消元法的泛化。

    6、数据压缩——采取特定编码方案,使用更少的字节数(或是其他信息承载单元)对信息编码的过程,又叫来源编码。

    7、Diffie-Hellman密钥交换算法——一种加密协议,允许双方在事先不了解对方的情况下,在不安全的通信信道中,共同建立共享密钥。该密钥以后可与一个对称密码一起,加密后续通讯。

    8、Dijkstra算法——针对没有负值权重边的有向图,计算其中的单一起点最短算法。

    9、离散微分算法(Discrete differentiation)。

    数据分析思路都有哪些?
    刘老师 数据分析师

    1、趋势分析

    最简单、最常见的数据分析方法,一般用于核心指标的长期跟踪,比如点击率、GMV、活跃用户数。可以看出数据有那些趋势上的变化,有没有周期性,有没有拐点等,继而分析原因。

    2、多维分解

    也就是通过不同的维度对于数据进行分解,以获取更加精细的数据洞察。举个例子,对网站维护进行数据分析,可以拆分出地区、访问来源、设备、浏览器等等维度。

    3、用户分群

    针对符合某种特定行为或背景信息的用户,进行特定的优化和分析,将多维度和多指标作为分群条件,有针对性地优化供应链,提升供应链稳定性。

    4、漏斗分析

    按照已知的转化路径,借助漏斗模型分析总体和每一步的转化情况。例如将漏斗图用于网站关键路径的转化率分析,不仅能显示用户的最终转化率,同时还可以展示每一节点的转化率。

    5、留存分析

    留存分析是一种用来分析用户参与情况/活跃程度的分析模型,考察进行初始行为的用户中,有多少人会进行后续行为。衡量留存的常见指标有次日留存率、7日留存率、30日留存率等。

    6、A/B 测试

    A/B测试是为了达到一个目标,采取了两套方案,通过实验观察两组方案的数据效果,判断两组方案的好坏,需要选择合理的分组样本、监测数据指标、事后数据分析和不同方案评估。

    7、对比分析

    分为横向对比(跟自己比)和纵向对比(跟别人比),常见的对比应用有A/B test,A/B test的关键就是保证两组中只有一个单一变量,其他条件保持一致。

    8、交叉分析

    交叉分析法就是将对比分析从多个维度进行交叉展现,进行多角度的结合分析,从中发现最为相关的维度来探索数据变化的原因。

    数据挖掘的常用方法有哪些?
    刘老师 数据分析师

    1、决策树法

    决策树在解决归类与预测上有着极强的能力,它以法则的方式表达,而这些法则则以一连串的问题表示出来,经由不断询问问题最终能导出所需的结果。典型的决策树顶端是一个树根,底部有许多的树叶,它将纪录分解成不同的子集,每个子集中的字段可能都包含一个简单的法则。此外,决策树可能有着不同的外型,例如二元树、三元树或混和的决策树型态。

    2、神经网络法

    神经网络法是模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,它将每一个连接看作一个处理单元,试图模拟人脑神经元的功能,可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改上。其优点是具有抗干扰、非线性学习、联想记忆功能,对复杂情况能得到精确的预测结果;缺点首先是不适合处理高维变量,不能观察中间的学习过程,具有“黑箱”性,输出结果也难以解释;其次是需较长的学习时间。神经网络法主要应用于数据挖掘的聚类技术中。

    3、关联规则法

    关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。

    4、遗传算法

    遗传算法模拟了自然选择和遗传中发生的繁殖、交配和基因突变现象,是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。它的基本观点是“适者生存”原理,具有隐含并行性、易于和其他模型结合等性质。主要的优点是可以处理许多数据类型,同时可以并行处理各种数据;缺点是需要的参数太多,编码困难,一般计算量比较大。遗传算法常用于优化神经元网络,能够解决其他技术难以解决的问题。

    5、聚类分析法

    聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。根据定义可以把其分为四类:基于层次的聚类方法;分区聚类算法;基于密度的聚类算法;网格的聚类算法。常用的经典聚类方法有K-mean,K-medoids,ISODATA等。

    6、模糊集法

    模糊集法是利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集合理论是用隶属度来描述模糊事物的属性。系统的复杂性越高,模糊性就越强。

    7、web页挖掘

    通过对Web的挖掘,可以利用Web的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。

    8、逻辑回归分析

    反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。

    9、粗糙集法

    是一种新的处理含糊、不精确、不完备问题的数学工具,可以处理数据约简、数据相关性发现、数据意义的评估等问题。其优点是算法简单,在其处理过程中可以不需要关于数据的先验知识,可以自动找出问题的内在规律;缺点是难以直接处理连续的属性,须先进行属性的离散化。因此,连续属性的离散化问题是制约粗糙集理论实用化的难点。

    10、连接分析

    它是以关系为主体,由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉连结分析收集到顾客使用电话的时间与频率,进而推断顾客使用偏好为何,提出有利于公司的方案。除了电信业之外,愈来愈多的营销业者亦利用连结分析做有利于企业的研究。

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司