问答详情

怎样提升数据分析能力?

1832次观看
标签: 数据分析 提升数据分析能力
老师回答

1、数据支持。任何一个企业品牌要想进入大数据营销,首先就要制定一个数据收集和整理的要点,明确大数据技术对于企业品牌的营销发展意义。知道怎样合法的收集到自己需要的数据,以及后续如何处理这些数据,如何通过这些数据来为企业盈利等等。这些基本的定义是企业开展大数据营销的第一步。

2、数据使用工具。如果企业已经做好了大数据营销的准备,并且已经有了自己所需的数据资源。那么,这时候就需要一定的大数据分析工具了。市面上的大数据工具给企业商家带来了全新的分析方式,基于成熟的分析结构、视觉化以及数据管理系统也迅速地改变着企业的分析方式,这些数据工具的出现极大的方便了企业的大数据营销进程。

3、大数据人才。现在大数据的火爆,自然而然大数据的人才也就十分的稀缺。一个成功的团队离不开人员的良好配置,大数据人才往往以数据分析人才为主。

免费直播

    相关推荐
    开源数据挖掘工具有哪些?
    刘老师 数据分析师

    1、RapidMiner

    该工具是用Java语言编写的,通过基于模板的框架提供先进的分析技术。该款工具最大的好处就是,用户无需写任何代码。它是作为一个服务提供,而不是一款本地软件。值得一提的是,该工具在数据挖掘工具榜上位列榜首。

    另外,除了数据挖掘,RapidMiner还提供如数据预处理和可视化、预测分析和统计建模、评估和部署等功能。更厉害的是它还提供来自WEKA(一种智能分析环境)和R 脚本的学习方案、模型和算法。

    RapidMiner分布在AGPL开源许可下,可以从SourceForge上下载。SourceForge是一个开发者进行开发管理的集中式场所,大量开源项目在此落户,其中就包括维基百科使用的MediaWiki。

    2、WEKA

    WEKA原生的非Java版本主要是为了分析农业领域数据而开发的。该工具基于Java版本,是非常复杂的,并且应用在许多不同的应用中,包括数据分析以及预测建模的可视化和算法。与RapidMiner相比优势在于,它在GNU通用公共许可证下是免费的,因为用户可以按照自己的喜好选择自定义。

    WEKA支持多种标准数据挖掘任务,包括数据预处理、收集、分类、回归分析、可视化和特征选取。

    添加序列建模后,WEKA将会变得更强大,但目前不包括在内。

    3、R-Programming

    如果我告诉你R项目,一个GNU项目,是由R(R-programming简称,以下统称R)自身编写的,你会怎么想它主要是由C语言和FORTRAN语言编写的,并且很多模块都是由R编写的,这是一款针对编程语言和软件环境进行统计计算和制图的免费软件。R语言被广泛应用于数据挖掘,以及开发统计软件和数据分析中。近年来,易用性和可扩展性也大大提高了R的知名度。

    除了数据,它还提供统计和制图技术,包括线性和非线性建模,经典的统计测试,时间序列分析、分类、收集等等。

    数据分析惯用的5种思维方法是什么?
    刘老师 数据分析师

    一、对比法

    对比法就是用两组或两组以上的数据进行比较,是最通用的方法。

    我们知道孤立的数据没有意义,有对比才有差异。一些直接描述事物的变量,如长度、数量、高度、宽度等。通过对比得到比率数据,增速、效率、效益等指标,这才是数据分析时常用的。

    比如用于在时间维度上的同比和环比、增长率、定基比,与竞争对手的对比、类别之间的对比、特征和属性对比等。对比法可以发现数据变化规律,使用频繁,经常和其他方法搭配使用。

    二、象限法

    通过对两种及以上维度的划分,运用坐标的方式表达出想要的价值。由价值直接转变为策略,从而进行一些落地的推动。象限法是一种策略驱动的思维,常于产品分析、市场分析、客户管理、商品管理等。

    三、二八法/帕累托分析

    二八法也可以叫帕累托法则,源于经典的二八法则。比如在个人财富上可以说世界上20%的人掌握着80%的财富。而在数据分析中,则可以理解为20%的数据产生了80%的效果需要围绕这20%的数据进行挖掘。往往在使用二八法则的时候和排名有关系,排在前20%的才算是有效数据。二八法是抓重点分析,适用于任何行业。找到重点,发现其特征,然后可以思考如何让其余的80%向这20%转化,提高效果。

    一般地,会用在产品分类上,去测量并构建ABC模型。比如某零售企业有500个SKU以及这些SKU对应的销售额,那么哪些SKU是重要的呢,这就是在业务运营中分清主次的问题。

    常见的做法是将产品SKU作为维度,并将对应的销售额作为基础度量指标,将这些销售额指标从大到小排列,并计算截止当前产品SKU的销售额累计合计占总销售额的百分比。

    百分比在 70%(含)以内,划分为 A 类。

    百分比在 70~90%(含)以内,划分为 B 类。

    百分比在 90~100%(含)以内,划分为 C 类。

    以上百分比也可以根据自己的实际情况调整。

    ABC分析模型,不光可以用来划分产品和销售额,还可以划分客户及客户交易额等。比如给企业贡献80%利润的客户是哪些,占比多少。假设有20%,那么在资源有限的情况下,就知道要重点维护这20%类客户。

    四、漏斗法

    漏斗法即是漏斗图,有点像倒金字塔,是一个流程化的思考方式,常用于像新用户的开发、购物转化率这些有变化和一定流程的分析中。

    五、公式法

    所谓公式法就是针对某个指标,用公式层层分解该指标的影响因素。

    举例:分析某产品的销售额较低的原因,用公式法分解:

    ①某产品销售额=销售量 X 产品单价

    ②销售量=渠道A销售量 + 渠道B销售量 + 渠道C销售量 + …

    ③渠道销售量=点击用户数 X 下单率

    ④点击用户数=曝光量 X 点击率

    第一层:找到产品销售额的影响因素。某产品销售额=销售量 X 产品单价。是销量过低还是价格设置不合理?

    第二层:找到销售量的影响因素。分析各渠道销售量,对比以往,是哪些过低了。

    第三层:分析影响渠道销售量的因素。渠道销售量=点击用户数X 下单率。是点击用户数低了,还是下单量过低。如果是下单量过低,需要看一下该渠道的广告内容针对的人群和产品实际受众符合度高不高。

    第四层:分析影响点击的因素。点击用户数=曝光量X点击率。是曝光量不够还是点击率太低,点击率低需要优化广告创意,曝光量则和投放的渠道有关。

    通过对销售额的逐层拆解,细化评估以及分析的粒度。

    公式拆解法是针对问题的层级式解析,在拆解时,对因素层层分解,层层剥尽。

    数据挖掘中实用分析方法有哪些?
    刘老师 数据分析师

    1.基于历史的MBR分析

    基于历史(Memory-Based Reasoning)的MBR分析方法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。

    MBR中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination function)。距离函数的用意在找出最相似的案例;结合函数则将相似案例的属性结合起来,以供预测之用。

    MBR的优点是它容许各种型态的数据,这些数据不需服从某些假设。另一个优点是其具备学习能力,它能藉由旧案例的学习来获取关于新案例的知识。较令人诟病的是它需要大量的历史数据,有足够的历史数据方能做良好的预测。此外记忆基础推理法在处理上亦较为费时,不易发现最佳的距离函数与结合函数。其可应用的范围包括欺骗行为的侦测、客户反应预测、医学诊疗、反应的归类等方面。

    2.购物篮分析

    购物篮分析(Market Basket Analysis)最主要的目的在于找出什么样的东西应该放在一起商业上的应用在藉由顾客的购买行为来了解是什么样的顾客以及这些顾客为什么买这些产品, 找出相关的联想(association)规则,企业藉由这些规则的挖掘获得利益与建立竞争优势。举例来说,零售店可藉由此分析改变置物架上的商品排列或是设计 吸引客户的商业套餐等等。

    购物篮分析基本运作过程包含下列三点:

    选择正确的品项:这里所指的正确乃是针对企业体而言,必须要在数以百计、千计品项中选择出真正有用的品项出来。

    经由对共同发生矩阵(co-occurrence matrix)的探讨挖掘出联想规则。

    克服实际上的限制:所选择的品项愈多,计算所耗费的资源与时间愈久(呈现指数递增),此时必须运用一些技术以降低资源与时间的损耗。

    购物篮分析技术可以应用在下列问题上:针对信用卡购物,能够预测未来顾客可能购买什么。对于电信与金融服务业而言,经由购物篮分析能够设计不同的服务组合以扩大利润。保险业能藉由购物篮分析侦测出可能不寻常的投保组合并作预防。对病人而言,在疗程的组合上,购物篮分析能作为是否这些疗程组合会导致并发症的判断依据。

    3.决策树

    决策树(Decision Trees)在解决归类与预测上有着极强的能力,它以法则的方式表达,而这些法则则以一连串的问题表示出来,经由不断询问问题最终能导出所需的结果。典型的决策树顶端是一个树根,底部有许多的树叶,它将纪录分解成不同的子集,每个子集中的字段可能都包含一个简单的法则。此外,决策树可能有着不同的外型,例如二元 树、三元树或混和的决策树型态。

    4.遗传算法

    遗传算法(Genetic Algorithm)学习细胞演化的过程,细胞间可经由不断的选择、复制、交配、突变产生更佳的新细胞。基因算法的运作方式也很类似,它必须预先建立好一个模式,再经由一连串类似产生新细胞过程的运作,利用适合函数(fitness function)决定所产生的后代是否与这个模式吻合,最后仅有最吻合的结果能够存活,这个程序一直运作直到此函数收敛到最佳解。基因算法在群集 (cluster)问题上有不错的表现,一般可用来辅助记忆基础推理法与类神经网络的应用。

    5.聚类分析

    聚类分析(Cluster Detection)这个技术涵盖范围相当广泛,包含基因算法、类神经网络、统计学中的群集分析都有这个功能。它的目标为找出数据中以前未知的相似群体,在许许多多的分析中,刚开始都运用到群集侦测技术,以作为研究的开端。

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司