问答详情

数据挖掘常用的模型有哪些?

748次观看
标签: 数据挖掘 数据挖掘模型
老师回答

1、监督学习模型

监督学习模型,就是人们经常说的分类,通过已经有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型,然后再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力。

2、无监督学习模型

在非监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构,应用场景包括关联规则的学习以及聚类等。

3、半监督学习

半监督学习算法要求输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。

免费直播

    相关推荐
    数据挖掘要解决的问题有哪些?
    刘老师 数据分析师

    1.可伸缩

    由于数据产生和采集技术的进步,数太字节(TB)、数拍字节(PB)甚至数艾字节(EB)的数据集越来越普遍。如果数据挖掘算法要处理这些海量数据集,则算法必须是可伸缩的。许多数据挖掘算法采用特殊的搜索策略来处理指数级的搜索问题。为实现可伸缩可能还需要实现新的数据结构,才能以有效的方式访问每个记录。

    例如,当要处理的数据不能放进内存时,可能需要核外算法。使用抽样技术或开发并行和分布式算法也可以提高可伸缩程度。

    2.高维性

    现在,常常会遇到具有成百上千属性的数据集,而不是几十年前常见的只具有少量属性的数据集。在生物信息学领域,微阵列技术的进步已经产生了涉及数千特征的基因表达数据。具有时间分量或空间分量的数据集也通常具有很高的维度。

    例如,考虑包含不同地区的温度测量结果的数据集,如果在一个相当长的时间周期内反复地测量,则维数(特征数)的增长正比于测量的次数。为低维数据开发的传统数据分析技术通常不能很好地处理这类高维数据,如维灾难问题。此外,对于某些数据分析算法,随着维数(特征数)的增加,计算复杂度会迅速增加。

    3.异构数据和复杂数据

    通常,传统的数据分析方法只处理包含相同类型属性的数据集,或者是连续的,或者是分类的。随着数据挖掘在商务、科学、医学和其他领域的作用越来越大,越来越需要能够处理异构属性的技术。

    近年来,出现了更复杂的数据对象。这种非传统类型的数据如:含有文本、超链接、图像、音频和视频的Web和社交媒体数据,具有序列和三维结构的DNA数据,由地球表面不同位置、不同时间的测量值(温度、压力等)构成的气候数据。

    为挖掘这种复杂对象而开发的技术应当考虑数据中的联系,如时间和空间的自相关性、图的连通性、半结构化文本和XML文档中元素之间的父子关系。

    4.数据的所有权与分布

    有时,需要分析的数据不会只存储在一个站点,或归属于一个机构,而是地理上分布在属于多个机构的数据源中。这就需要开发分布式数据挖掘技术。分布式数据挖掘算法面临的主要挑战包括:

    如何降低执行分布式计算所需的通信量?如何有效地统一从多个数据源获得的数据挖掘结果?如何解决数据安全和隐私问题?

    5.非传统分析

    传统的统计方法基于一种假设检验模式,即提出一种假设,设计实验来收集数据,然后针对假设分析数据。但是,这一过程劳力费神。当前的数据分析任务常常需要产生和评估数千种假设,因此需要自动地产生和评估假设,这促使人们开发了一些数据挖掘技术。

    此外,数据挖掘所分析的数据集通常不是精心设计的实验的结果,并且它们通常代表数据的时机性样本(opportunistic sample),而不是随机样本(random sample)。

    数据分析思路都有哪些?
    刘老师 数据分析师

    1、趋势分析

    最简单、最常见的数据分析方法,一般用于核心指标的长期跟踪,比如点击率、GMV、活跃用户数。可以看出数据有那些趋势上的变化,有没有周期性,有没有拐点等,继而分析原因。

    2、多维分解

    也就是通过不同的维度对于数据进行分解,以获取更加精细的数据洞察。举个例子,对网站维护进行数据分析,可以拆分出地区、访问来源、设备、浏览器等等维度。

    3、用户分群

    针对符合某种特定行为或背景信息的用户,进行特定的优化和分析,将多维度和多指标作为分群条件,有针对性地优化供应链,提升供应链稳定性。

    4、漏斗分析

    按照已知的转化路径,借助漏斗模型分析总体和每一步的转化情况。例如将漏斗图用于网站关键路径的转化率分析,不仅能显示用户的最终转化率,同时还可以展示每一节点的转化率。

    5、留存分析

    留存分析是一种用来分析用户参与情况/活跃程度的分析模型,考察进行初始行为的用户中,有多少人会进行后续行为。衡量留存的常见指标有次日留存率、7日留存率、30日留存率等。

    6、A/B 测试

    A/B测试是为了达到一个目标,采取了两套方案,通过实验观察两组方案的数据效果,判断两组方案的好坏,需要选择合理的分组样本、监测数据指标、事后数据分析和不同方案评估。

    7、对比分析

    分为横向对比(跟自己比)和纵向对比(跟别人比),常见的对比应用有A/B test,A/B test的关键就是保证两组中只有一个单一变量,其他条件保持一致。

    8、交叉分析

    交叉分析法就是将对比分析从多个维度进行交叉展现,进行多角度的结合分析,从中发现最为相关的维度来探索数据变化的原因。

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司