问答详情

数据挖掘中实用分析方法有哪些?

1807次观看
标签: 数据挖掘 数据挖掘实用分析方法
老师回答

1.基于历史的MBR分析

基于历史(Memory-Based Reasoning)的MBR分析方法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。

MBR中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination function)。距离函数的用意在找出最相似的案例;结合函数则将相似案例的属性结合起来,以供预测之用。

MBR的优点是它容许各种型态的数据,这些数据不需服从某些假设。另一个优点是其具备学习能力,它能藉由旧案例的学习来获取关于新案例的知识。较令人诟病的是它需要大量的历史数据,有足够的历史数据方能做良好的预测。此外记忆基础推理法在处理上亦较为费时,不易发现最佳的距离函数与结合函数。其可应用的范围包括欺骗行为的侦测、客户反应预测、医学诊疗、反应的归类等方面。

2.购物篮分析

购物篮分析(Market Basket Analysis)最主要的目的在于找出什么样的东西应该放在一起商业上的应用在藉由顾客的购买行为来了解是什么样的顾客以及这些顾客为什么买这些产品, 找出相关的联想(association)规则,企业藉由这些规则的挖掘获得利益与建立竞争优势。举例来说,零售店可藉由此分析改变置物架上的商品排列或是设计 吸引客户的商业套餐等等。

购物篮分析基本运作过程包含下列三点:

选择正确的品项:这里所指的正确乃是针对企业体而言,必须要在数以百计、千计品项中选择出真正有用的品项出来。

经由对共同发生矩阵(co-occurrence matrix)的探讨挖掘出联想规则。

克服实际上的限制:所选择的品项愈多,计算所耗费的资源与时间愈久(呈现指数递增),此时必须运用一些技术以降低资源与时间的损耗。

购物篮分析技术可以应用在下列问题上:针对信用卡购物,能够预测未来顾客可能购买什么。对于电信与金融服务业而言,经由购物篮分析能够设计不同的服务组合以扩大利润。保险业能藉由购物篮分析侦测出可能不寻常的投保组合并作预防。对病人而言,在疗程的组合上,购物篮分析能作为是否这些疗程组合会导致并发症的判断依据。

3.决策树

决策树(Decision Trees)在解决归类与预测上有着极强的能力,它以法则的方式表达,而这些法则则以一连串的问题表示出来,经由不断询问问题最终能导出所需的结果。典型的决策树顶端是一个树根,底部有许多的树叶,它将纪录分解成不同的子集,每个子集中的字段可能都包含一个简单的法则。此外,决策树可能有着不同的外型,例如二元 树、三元树或混和的决策树型态。

4.遗传算法

遗传算法(Genetic Algorithm)学习细胞演化的过程,细胞间可经由不断的选择、复制、交配、突变产生更佳的新细胞。基因算法的运作方式也很类似,它必须预先建立好一个模式,再经由一连串类似产生新细胞过程的运作,利用适合函数(fitness function)决定所产生的后代是否与这个模式吻合,最后仅有最吻合的结果能够存活,这个程序一直运作直到此函数收敛到最佳解。基因算法在群集 (cluster)问题上有不错的表现,一般可用来辅助记忆基础推理法与类神经网络的应用。

5.聚类分析

聚类分析(Cluster Detection)这个技术涵盖范围相当广泛,包含基因算法、类神经网络、统计学中的群集分析都有这个功能。它的目标为找出数据中以前未知的相似群体,在许许多多的分析中,刚开始都运用到群集侦测技术,以作为研究的开端。

免费直播

    相关推荐
    数据挖掘常用的方法有哪些?
    刘老师 数据分析师

    1、分类

    分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。

    主要的分类方法:决策树、KNN 法 (K-Nearest Neighbor)、SVM 法、VSM 法、Bayes 法、神经网络等。

    2、聚类

    聚类指事先并不知道任何样本的类别标号,按照对象的相似性和差异性,把一组对象划分成若干类,并且每个类里面对象之间的相似度较高,不同类里面对象之间相似度较低或差异明显。我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,聚类是一种无监督学习。

    聚类的方法(算法):主要的聚类算法可以划分为如下几类,划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法。每一类中都存在着得到广泛应用的算法, 划分方法中有 k-means 聚类算法、层次方法中有凝聚型层次聚类算法、基于模型方法中有神经网络聚类算法。

    3、回归分析

    回归分析是一个统计预测模型,用以描述和评估因变量与一个或多个自变量之间的关系;反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系。

    回归分析的应用:回归分析方法被广泛地用于解释市场占有率、销售额、品牌偏好及市场营销效果。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。

    回归分析的主要研究问题:数据序列的趋势特征、数据序列的预测、数据间的相关关系等。

    4、关联规则

    关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则是描述数据库中数据项之间所存在的关系的规则。

    5、神经网络方法

    神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的问题,以及那些以模糊、不完整、不严密的知识或数据为特征的问题,它的这一特点十分适合解决数据挖掘的问题。

    6、Web数据挖掘

    web数据挖掘是一项综合性技术,指Web从文档结构和使用的集合C中发现隐含的模式P,如果将C看做是输入,P 看做是输出,那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。

    7、特征分析

    特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。

    8、偏差分析

    偏差是数据集中的小比例对象。通常,偏差对象被称为离群点、例外、野点等。偏差分析就是发现与大部分其他对象不同的对象。

    数据分析师应该具备的素质有哪些?
    刘老师 数据分析师

    1、态度严谨负责

    严谨负责是数据分析师的必备素质之一,只有奔着严谨负责的态度,才能保证数据的客观、准确。在企业里,数据分析师可以说是企业的医生,他们通过对企业运营数据的分析,为企业寻找症结的问题。

    2、好奇心强烈

    好奇心热皆有之,但是作为数据分析师,这份好奇心就应该更加强烈,要积极主动地发现挖掘隐藏在数据内部的真相。在数据分析师的脑子里,应该充满着无数个“为什么”,为什么是这样的结果,为什么不是那样的结果,导致这个结果的原因是什么,为什么结果是不预期的那样等等,这一系列问题都要在进行分析时提出来,并且通过通过数据分析给自己一个满意的答案。

    3、逻辑思维清晰

    除了一颗探索真相的好奇心,数据分析师还需要具备缜密的思维和清晰的逻辑推理能力。

    通常从事数据分析时所面对的商业问题较为复杂,要考虑错综复杂的成因,分析所面对的各种复杂的环境因素,并在若干发展可能性中选择一个最优的方向。这就需要数据分析师对事实的足够了解,同时也是需要真正理清问题的整体以及局部的结构进而理清结构中相互的逻辑关系。

    4、擅长模仿

    在做数据分析时,有自己的想法固然重要,但是“前车之鉴”也是非常有必要学习的,它能帮助数据分析师迅速的成长,因此,模仿是快速提高学习成果的有效方法。模仿主要是参考他人优秀的思路和方法,成功的模仿需要领会他人方法的精髓,理解其成分析原理。

    5、勇于创新

    通过模仿可以借鉴他人的成功经验,但模仿时间不宜太长,每次模仿后都要进行总结,提升可以改进的地方,甚至要有所创新。创新是一个优秀数据分析师应具备的精神,只有不断创新,才能提高自己的分析水平。

    让大数据分析更有效的5种技术措施有哪些?
    刘老师 数据分析师

    (1)优化数据收集

    数据收集是最终导致业务决策的事件链中的第一步,确保收集的数据和业务感兴趣的指标的相关性非常重要。

    定义对企业有影响的数据类型,以及分析如何增加价值。基本上,考虑客户行为,以及这将对企业的业务有何适用性,然后使用此数据进行分析。

    存储和管理数据是数据分析中的重要一步。因此,必须保持数据质量和分析效率。

    (2)清除垃圾数据

    垃圾数据是大数据分析的祸患。这包括不准确,冗余或不完整的客户信息,可能会对算法造成严重破坏,并导致分析结果不佳。根据垃圾数据做出的决策可能会带来麻烦。

    清洁数据至关重要,涉及丢弃不相关的数据,只保留高品质的数据,当前,为了获得完整和相关的数据,人工干预不是理想的模式,不可持续并且受主观影响,因此数据库本身需要被清理。这种类型的数据以各种方式渗透到系统中,其中包括随时间推移而变化,如更改客户信息或数据仓库中存储可能会损坏数据集。垃圾数据可能会对营销和潜在客户生产等行业产生明显的影响,但通过基于故障信息的业务决策,财务和客户关系也会受到不利影响。其后果也是广泛的,包括挪用资源,浪费时间和精力。

    解决垃圾数据难题的方法是确保数据进入系统得到干净的控制。具体来说,重复免费,完整和准确的信息。如今,那些具有专门从事反调试技术和清理数据的应用程序和企业,可以对任何对大数据分析感兴趣的公司进行调查。数据清洁是市场营销人员的首要任务,因为数据质量差的连锁效应可能会大大提高企业成本。

    为了获得最大的数据量,企业必须花时间确保质量足以准确地查看业务决策和营销策略。

    (3)标准化数据集

    在大多数商业情况下,数据来自各种来源和各种格式。这些不一致可能转化为错误的分析结果,这将会大大扭曲统计推断结果。为了避免这种可能性,必须决定数据的标准化框架或格式,并严格遵守。

    (4)数据整合

    大多数企业如今组成不同的自治部门,因此许多企业都有隔离的数据存储库或数据“孤岛”。这是具有挑战性的,因为来自一个部门的客户信息的更改将不会转移到另一个部门,因此他们将根据不准确的源数据进行决策。

    为了解决这个问题,采用中央数据管理平台是必要的,整合所有部门,从而确保数据分析的准确性更高,所有部门的任何变化都可以立即访问。

    (5)数据隔离

    即使数据干净,将其组织和集成在一起,也可能是分析问题。在这种情况下,将数据分成几组是有帮助的,同时牢记分析正在尝试实现什么。这样,可以分析子群体内的趋势,这些趋势可能更有意义并具有更大的价值。当查看可能与整个数据集可能无关的高度具体的趋势和行为时尤其如此。

    数据质量对大数据分析至关重要。许多公司试图采用分析软件,但却没有考虑到进入系统做什么。这将导致不准确的推断和解释,可能代价昂贵,并且对企业造成损害。一个定义明确,管理良好的数据库管理平台是使用大数据分析的企业不可或缺的工具。

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司