问答详情

数据分析师工作有哪些重点?

865次观看
标签: 数据分析师工作 数据分析师工作重点
老师回答

数据采集

作为分析师:最重要的就是去看客户端和运营人员提供数据字段,在这个过程中也可以看出业务人员的功力。

埋点:明确数据的定义,然后对数据埋点,一般是给出定义,由开发人员来完成。一般都会有数据口径不一致的定义,所以对于定义不清楚的一定要即时的定义清楚,刨根问底往往会有意外的收获。

数据的计算

数据采集到之后往往是最原始的小时表,一般情况下不会直接使用,因为时间颗粒度太小,数据量会非常的大。当然有的公司也会把小时表汇总然后以天来区分。为了更好的记录业务,也可以生成一个小时表和田表的合集,一般称为总表,用于研究每天的新增用户及用户的留存率,当然数据量可能比较大,建议选取核心指标。

数据展现

数据表到呈现一般需要SQL的聚合,确定好报表的维度和指标、以便快速提取并实现可视化。报表的数据验证,及时与业务方确认;整体的业务体系梳理,统一数据口径。

报表的价值

产品通过报表看版本;运营通过报表看活动数据;技术通过报表看性能;项目通过数据看KPI;互联网数据分析师的价值就是从做报表开始,对业务的熟悉也是从业务去延申。

当然在工作中要避免每天都去做报表,核心指标的报表就那么几张,因此问清楚报表的价值,及业务对象,对于重要的报表每天都去看,成为第一个发现问题的人。

免费直播

    相关推荐
    数据挖掘的常用方法有哪些?
    刘老师 数据分析师

    1、决策树法

    决策树在解决归类与预测上有着极强的能力,它以法则的方式表达,而这些法则则以一连串的问题表示出来,经由不断询问问题最终能导出所需的结果。典型的决策树顶端是一个树根,底部有许多的树叶,它将纪录分解成不同的子集,每个子集中的字段可能都包含一个简单的法则。此外,决策树可能有着不同的外型,例如二元树、三元树或混和的决策树型态。

    2、神经网络法

    神经网络法是模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,它将每一个连接看作一个处理单元,试图模拟人脑神经元的功能,可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改上。其优点是具有抗干扰、非线性学习、联想记忆功能,对复杂情况能得到精确的预测结果;缺点首先是不适合处理高维变量,不能观察中间的学习过程,具有“黑箱”性,输出结果也难以解释;其次是需较长的学习时间。神经网络法主要应用于数据挖掘的聚类技术中。

    3、关联规则法

    关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。

    4、遗传算法

    遗传算法模拟了自然选择和遗传中发生的繁殖、交配和基因突变现象,是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。它的基本观点是“适者生存”原理,具有隐含并行性、易于和其他模型结合等性质。主要的优点是可以处理许多数据类型,同时可以并行处理各种数据;缺点是需要的参数太多,编码困难,一般计算量比较大。遗传算法常用于优化神经元网络,能够解决其他技术难以解决的问题。

    5、聚类分析法

    聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。根据定义可以把其分为四类:基于层次的聚类方法;分区聚类算法;基于密度的聚类算法;网格的聚类算法。常用的经典聚类方法有K-mean,K-medoids,ISODATA等。

    6、模糊集法

    模糊集法是利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集合理论是用隶属度来描述模糊事物的属性。系统的复杂性越高,模糊性就越强。

    7、web页挖掘

    通过对Web的挖掘,可以利用Web的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。

    8、逻辑回归分析

    反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。

    9、粗糙集法

    是一种新的处理含糊、不精确、不完备问题的数学工具,可以处理数据约简、数据相关性发现、数据意义的评估等问题。其优点是算法简单,在其处理过程中可以不需要关于数据的先验知识,可以自动找出问题的内在规律;缺点是难以直接处理连续的属性,须先进行属性的离散化。因此,连续属性的离散化问题是制约粗糙集理论实用化的难点。

    10、连接分析

    它是以关系为主体,由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉连结分析收集到顾客使用电话的时间与频率,进而推断顾客使用偏好为何,提出有利于公司的方案。除了电信业之外,愈来愈多的营销业者亦利用连结分析做有利于企业的研究。

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司