问答详情

数据挖掘要解决的问题有哪些?

2866次观看
标签: 数据挖掘 数据挖掘解决问题
老师回答

1.可伸缩

由于数据产生和采集技术的进步,数太字节(TB)、数拍字节(PB)甚至数艾字节(EB)的数据集越来越普遍。如果数据挖掘算法要处理这些海量数据集,则算法必须是可伸缩的。许多数据挖掘算法采用特殊的搜索策略来处理指数级的搜索问题。为实现可伸缩可能还需要实现新的数据结构,才能以有效的方式访问每个记录。

例如,当要处理的数据不能放进内存时,可能需要核外算法。使用抽样技术或开发并行和分布式算法也可以提高可伸缩程度。

2.高维性

现在,常常会遇到具有成百上千属性的数据集,而不是几十年前常见的只具有少量属性的数据集。在生物信息学领域,微阵列技术的进步已经产生了涉及数千特征的基因表达数据。具有时间分量或空间分量的数据集也通常具有很高的维度。

例如,考虑包含不同地区的温度测量结果的数据集,如果在一个相当长的时间周期内反复地测量,则维数(特征数)的增长正比于测量的次数。为低维数据开发的传统数据分析技术通常不能很好地处理这类高维数据,如维灾难问题。此外,对于某些数据分析算法,随着维数(特征数)的增加,计算复杂度会迅速增加。

3.异构数据和复杂数据

通常,传统的数据分析方法只处理包含相同类型属性的数据集,或者是连续的,或者是分类的。随着数据挖掘在商务、科学、医学和其他领域的作用越来越大,越来越需要能够处理异构属性的技术。

近年来,出现了更复杂的数据对象。这种非传统类型的数据如:含有文本、超链接、图像、音频和视频的Web和社交媒体数据,具有序列和三维结构的DNA数据,由地球表面不同位置、不同时间的测量值(温度、压力等)构成的气候数据。

为挖掘这种复杂对象而开发的技术应当考虑数据中的联系,如时间和空间的自相关性、图的连通性、半结构化文本和XML文档中元素之间的父子关系。

4.数据的所有权与分布

有时,需要分析的数据不会只存储在一个站点,或归属于一个机构,而是地理上分布在属于多个机构的数据源中。这就需要开发分布式数据挖掘技术。分布式数据挖掘算法面临的主要挑战包括:

如何降低执行分布式计算所需的通信量?如何有效地统一从多个数据源获得的数据挖掘结果?如何解决数据安全和隐私问题?

5.非传统分析

传统的统计方法基于一种假设检验模式,即提出一种假设,设计实验来收集数据,然后针对假设分析数据。但是,这一过程劳力费神。当前的数据分析任务常常需要产生和评估数千种假设,因此需要自动地产生和评估假设,这促使人们开发了一些数据挖掘技术。

此外,数据挖掘所分析的数据集通常不是精心设计的实验的结果,并且它们通常代表数据的时机性样本(opportunistic sample),而不是随机样本(random sample)。

免费直播

    相关推荐
    数据分析方法论有哪些?
    刘老师 数据分析师

    1、PEST分析法

    PEST,也就是政治(Politics)、经济(Economy)、社会(Society)、技术(Technology),能从各个方面把握宏观环境的现状及变化趋势,主要用户行业分析。

    宏观环境又称一般环境,是指影响一切行业和企业的各种宏观力量。

    对宏观环境因素作分析时,由于不同行业和企业有其自身特点和经营需要,分析的具体内容会有差异,但一般都应对政治、经济、技术、社会,这四大类影响企业的主要外部环境因素进行分析。

    政治环境:政治体制、经济体制、财政政策、税收政策、产业政策、投资政策等。

    社会环境:人口规模、性别比例、年龄结构、生活力式、购买习惯、城市特点等。

    技术环境:折旧和报废速度、技术更新速度、技术传播速度、技术商品化速度等。

    经济环境:GDP 及增长率、进出口总额及增长率、利率、汇率、通货膨胀率、消费价格指数、居民可支配收入、失业率、劳动生产率等。

    2、5W2H分析法

    5W2H,即为什么(Why)、什么事(What)、谁(Who)、什么时候(When)、什么地方(Where)、如何做(How)、什么价格(How much),主要用于用户行为分析、业务问题专题分析、营销活动等。

    该分析方法又称为七何分析法,是一个非常简单、方便又实用的工具,以用户购买行为为例:

    Why:用户为什么要买?产品的吸引点在哪里?

    What:产品提供的功能是什么?

    Who:用户群体是什么?这个群体的特点是什么?

    When:购买频次是多少?

    Where:产品在哪里最受欢迎?在哪里卖出去?

    How:用户怎么购买?购买方式什么?

    How much:用户购买的成本是多少?时间成本是多少?

    3、SWOT分析法

    SWOT分析法也叫态势分析法,S (strengths)是优势、W (weaknesses)是劣势,O (opportunities)是机会、T (threats)是威胁或风险。

    SWOT分析法是用来确定企业自身的内部优势、劣势和外部的机会和威胁等,通过调查列举出来,并依照矩阵形式排列,然后用系统分析的思想,把各种因素相互匹配起来加以分析。

    运用这种方法,可以对研究对象所处的情景进行全面、系统、准确的研究,从而将公司的战略与公司内部资源、外部环境有机地结合起来。

    4、4P营销理论

    4P即产品(Product)、价格(Price)、渠道(Place)、推广(Promotion),在营销领域,这种以市场为导向的营销组合理论,被企业应用最普遍。

    可以说企业的一切营销动作都是在围绕着4P理论进行,也就是将:产品、价格、渠道、推广。通过将四者的结合、协调发展,从而提高企业的市场份额,达到最终获利的目的。

    产品:从市场营销的角度来看,产品是指能够提供给市场,被入们使用和消费并满足人们某种需要的任何东西,包括有形产品、服务、人员、组织、观念或它们的组合。

    价格:是指顾客购买产品时的价格,包括基本价格、折扣价格、支付期限等。影响定价的主要因素有三个:需求、成本与竞争。

    渠道:是指产品从生产企业流转到用户手上全过程中所经历的各个环节。

    促销:是指企业通过销售行为的改变来刺激用户消费,以短期的行为(比如让利、买一送一,营销现场气氛等等)促成消费的增长,吸引其他品牌的用户或导致提前消费来促进销售的增长。广告、宣传推广、人员推销、销售促进是一个机构促销组合的四大要素。

    5、逻辑树法

    逻辑树又称问题树、演绎树或分解树等。它是把一个已知问题当成“主干”,然后开始考虑这个问题和哪些相关问题有关,也就是“分支”。逻辑树能保证解决问题的过程的完整性,它能将工作细分为便于操作的任务,确定各部分的优先顺序,明确地把责任落实到个人。

    逻辑树的使用必须遵循以下三个原则:

    要素化:把相同的问题总结归纳成要素。

    框架化:将各个要素组织成框架。遵守不重不漏的原则。

    关联化:框架内的各要素保持必要的相互关系,简单而不独立。

    6、AARRR模型

    AARRR模型是所有运营人员都要了解的一个数据模型,从整个用户生命周期入手,包括获取(Acquisition)、激活(Activition)、留存(Retention)、变现(Revenue)和传播(Refer)。

    每个环节分别对应生命周期的5个重要过程,即从获取用户,到提升活跃度,提升留存率,并获取收入,直至最后形成病毒式传播。

    最常用的四种大数据分析方法有哪些?
    刘老师 数据分析师

    1.描述型分析:发生了什么?

    这是最常见的分析方法。在业务中,这种方法向数据分析师提供了重要指标和业务的衡量方法。

    例如,每月的营收和损失账单。数据分析师可以通过这些账单,获取大量的客户数据。了解客户的地理信息,就是“描述型分析”方法之一。利用可视化工具,能够有效的增强描述型分析所提供的信息。

    2.诊断型分析:为什么会发生?

    描述性数据分析的下一步就是诊断型数据分析。通过评估描述型数据,诊断分析工具能够让数据分析师深入地分析数据,钻取到数据的核心。

    良好设计的BI dashboard能够整合:按照时间序列进行数据读入、特征过滤和钻取数据等功能,以便更好的分析数据。

    3.预测型分析:可能发生什么?

    预测型分析主要用于进行预测。事件未来发生的可能性、预测一个可量化的值,或者是预估事情发生的时间点,这些都可以通过预测模型来完成。

    预测模型通常会使用各种可变数据来实现预测。数据成员的多样化与预测结果密切相关。

    在充满不确定性的环境下,预测能够帮助做出更好的决定。预测模型也是很多领域正在使用的重要方法。

    4.指令型分析:需要做什么?

    数据价值和复杂度分析的下一步就是指令型分析。指令模型基于对“发生了什么”、“为什么会发生”和“可能发生什么”的分析,来帮助用户决定应该采取什么措施。通常情况下,指令型分析不是单独使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。

    例如,交通规划分析考量了每条路线的距离、每条线路的行驶速度、以及目前的交通管制等方面因素,来帮助选择最好的回家路线。

    数据挖掘免费软件工具有哪些?
    刘老师 数据分析师

    1.Rapid Miner

    Rapid Miner,原名YALE又一个学习环境,是一个用于机器学习和数据挖掘实验的环境,用于研究和实际的数据挖掘任务。毫无疑问,这是世界领先的数据挖掘开源系统。该工具以Java编程语言编写,通过基于模板的框架提供高级分析。

    它使得实验可以由大量的可任意嵌套的操作符组成,这些操作符在XML文件中是详细的,并且是由快速的Miner的图形用户界面完成的。最好的是用户不需要编写代码。它已经有许多模板和其他工具,让我们可以轻松地分析数据。

    2. IBM SPSS Modeler

    IBM SPSS Modeler工具工作台最适合处理文本分析等大型项目,其可视化界面非常有价值。 它允许您在不编程的情况下生成各种数据挖掘算法。 它也可以用于异常检测、贝叶斯网络、CARMA、Cox回归以及使用多层感知器进行反向传播学习的基本神经网络。

    3.Oracle Data Mining

    Oracle。 作为“高级分析数据库”选项的一部分,Oracle数据挖掘功能允许其用户发现洞察力,进行预测并利用其Oracle数据。您可以构建模型来发现客户行为目标客户和开发概要文件。

    Oracle Data Miner GUI使数据分析师、业务分析师和数据科学家能够使用相当优雅的拖放解决方案处理数据库内的数据。 它还可以为整个企业的自动化、调度和部署创建SQL和PL / SQL脚本。

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司