问答详情

数据分析应注重哪些因素?

786次观看
标签: 数据分析 数据分析注重因素
老师回答

获得合适的数据专家

培养合适的人才至关重要。(大数据不仅仅涉及技术和平台。)企业需要对合适的人员进行投资,这些人员应清楚了解企业的业务目标并相应地利用大数据。需要在技术上和分析上都配备有能力的正确的人,他们能够理解和理解数据分析所引发的相互关系和趋势。

定义事项

大数据确实非常大,可以通过多种方式进行分析。但是需要谨记模糊的数据可能成为大数据计划的巨大杀手。重要的是要绝对清晰地了解目标,以及需要以何种方式分析哪些数据成分,以获得什么样的见解。还原主义—将复杂问题分解为各个组成部分的实践是最佳实践之一,并且只有在明确目标的情况下才能实施,该目标将定义流程。

通过测试优化重点

测试是IT领导者经常忽略的因素。每当实施新技术时,测试并进一步调整过程以获取所需的内容就很重要。在某些行业中,这称为大型测试。只有通过培养实验文化才能获得最佳的关注。鲜为人知的事实是,数据驱动的实验使人们能够找到新的数据解释方式和创新的基于数据的产品创建方式。

获取和应用可行的见解

尽管“可行的见解”是一个经常被重复使用的术语,但在实施级别仍然被忽略。首席信息官需要从大数据分析中提取可操作的信息。向决策者提供经过过滤的相关信息在行业中具有极其重要的意义。此外,管理人员需要理解,更改或创建包含从大数据中获得的见解的流程。

评估和完善

行业一旦形成便倾向于遵循流程或政策,但是,在涉及大数据计划时,需要不断评估和完善以实现任何大目标。企业领导者,通常是CIO,需要通过提供实时反馈的正确监控解决方案进行评估,并通过更改和改进做出响应。尽管这似乎是一个耗时的过程,但从长远来看,它实际上是节省时间的过程。

免费直播

    相关推荐
    数据挖掘中实用分析方法有哪些?
    刘老师 数据分析师

    1.基于历史的MBR分析

    基于历史(Memory-Based Reasoning)的MBR分析方法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。

    MBR中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination function)。距离函数的用意在找出最相似的案例;结合函数则将相似案例的属性结合起来,以供预测之用。

    MBR的优点是它容许各种型态的数据,这些数据不需服从某些假设。另一个优点是其具备学习能力,它能藉由旧案例的学习来获取关于新案例的知识。较令人诟病的是它需要大量的历史数据,有足够的历史数据方能做良好的预测。此外记忆基础推理法在处理上亦较为费时,不易发现最佳的距离函数与结合函数。其可应用的范围包括欺骗行为的侦测、客户反应预测、医学诊疗、反应的归类等方面。

    2.购物篮分析

    购物篮分析(Market Basket Analysis)最主要的目的在于找出什么样的东西应该放在一起商业上的应用在藉由顾客的购买行为来了解是什么样的顾客以及这些顾客为什么买这些产品, 找出相关的联想(association)规则,企业藉由这些规则的挖掘获得利益与建立竞争优势。举例来说,零售店可藉由此分析改变置物架上的商品排列或是设计 吸引客户的商业套餐等等。

    购物篮分析基本运作过程包含下列三点:

    选择正确的品项:这里所指的正确乃是针对企业体而言,必须要在数以百计、千计品项中选择出真正有用的品项出来。

    经由对共同发生矩阵(co-occurrence matrix)的探讨挖掘出联想规则。

    克服实际上的限制:所选择的品项愈多,计算所耗费的资源与时间愈久(呈现指数递增),此时必须运用一些技术以降低资源与时间的损耗。

    购物篮分析技术可以应用在下列问题上:针对信用卡购物,能够预测未来顾客可能购买什么。对于电信与金融服务业而言,经由购物篮分析能够设计不同的服务组合以扩大利润。保险业能藉由购物篮分析侦测出可能不寻常的投保组合并作预防。对病人而言,在疗程的组合上,购物篮分析能作为是否这些疗程组合会导致并发症的判断依据。

    3.决策树

    决策树(Decision Trees)在解决归类与预测上有着极强的能力,它以法则的方式表达,而这些法则则以一连串的问题表示出来,经由不断询问问题最终能导出所需的结果。典型的决策树顶端是一个树根,底部有许多的树叶,它将纪录分解成不同的子集,每个子集中的字段可能都包含一个简单的法则。此外,决策树可能有着不同的外型,例如二元 树、三元树或混和的决策树型态。

    4.遗传算法

    遗传算法(Genetic Algorithm)学习细胞演化的过程,细胞间可经由不断的选择、复制、交配、突变产生更佳的新细胞。基因算法的运作方式也很类似,它必须预先建立好一个模式,再经由一连串类似产生新细胞过程的运作,利用适合函数(fitness function)决定所产生的后代是否与这个模式吻合,最后仅有最吻合的结果能够存活,这个程序一直运作直到此函数收敛到最佳解。基因算法在群集 (cluster)问题上有不错的表现,一般可用来辅助记忆基础推理法与类神经网络的应用。

    5.聚类分析

    聚类分析(Cluster Detection)这个技术涵盖范围相当广泛,包含基因算法、类神经网络、统计学中的群集分析都有这个功能。它的目标为找出数据中以前未知的相似群体,在许许多多的分析中,刚开始都运用到群集侦测技术,以作为研究的开端。

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司