数据挖掘要解决的问题有哪些?

1972次观看

标签：数据挖掘数据挖掘解决问题

老师回答

1.可伸缩

由于数据产生和采集技术的进步，数太字节(TB)、数拍字节(PB)甚至数艾字节(EB)的数据集越来越普遍。如果数据挖掘算法要处理这些海量数据集，则算法必须是可伸缩的。许多数据挖掘算法采用特殊的搜索策略来处理指数级的搜索问题。为实现可伸缩可能还需要实现新的数据结构，才能以有效的方式访问每个记录。

例如，当要处理的数据不能放进内存时，可能需要核外算法。使用抽样技术或开发并行和分布式算法也可以提高可伸缩程度。

2.高维性

现在，常常会遇到具有成百上千属性的数据集，而不是几十年前常见的只具有少量属性的数据集。在生物信息学领域，微阵列技术的进步已经产生了涉及数千特征的基因表达数据。具有时间分量或空间分量的数据集也通常具有很高的维度。

例如，考虑包含不同地区的温度测量结果的数据集，如果在一个相当长的时间周期内反复地测量，则维数(特征数)的增长正比于测量的次数。为低维数据开发的传统数据分析技术通常不能很好地处理这类高维数据，如维灾难问题。此外，对于某些数据分析算法，随着维数(特征数)的增加，计算复杂度会迅速增加。

3.异构数据和复杂数据

通常，传统的数据分析方法只处理包含相同类型属性的数据集，或者是连续的，或者是分类的。随着数据挖掘在商务、科学、医学和其他领域的作用越来越大，越来越需要能够处理异构属性的技术。

近年来，出现了更复杂的数据对象。这种非传统类型的数据如：含有文本、超链接、图像、音频和视频的Web和社交媒体数据，具有序列和三维结构的DNA数据，由地球表面不同位置、不同时间的测量值(温度、压力等)构成的气候数据。

为挖掘这种复杂对象而开发的技术应当考虑数据中的联系，如时间和空间的自相关性、图的连通性、半结构化文本和XML文档中元素之间的父子关系。

4.数据的所有权与分布

有时，需要分析的数据不会只存储在一个站点，或归属于一个机构，而是地理上分布在属于多个机构的数据源中。这就需要开发分布式数据挖掘技术。分布式数据挖掘算法面临的主要挑战包括：

如何降低执行分布式计算所需的通信量?如何有效地统一从多个数据源获得的数据挖掘结果?如何解决数据安全和隐私问题?

5.非传统分析

传统的统计方法基于一种假设检验模式，即提出一种假设，设计实验来收集数据，然后针对假设分析数据。但是，这一过程劳力费神。当前的数据分析任务常常需要产生和评估数千种假设，因此需要自动地产生和评估假设，这促使人们开发了一些数据挖掘技术。

此外，数据挖掘所分析的数据集通常不是精心设计的实验的结果，并且它们通常代表数据的时机性样本(opportunistic sample)，而不是随机样本(random sample)。

©本文版权归环球青藤所有，任何形式转载请联系我们。

免费直播

精选课程

VBA实战速成：从零到一的突破

数据分析师 62次课共11学时

吴开斌

¥ 1299

火热报名中

WPS高效数据管理

数据分析师 17次课共4学时

王忠超

¥ 1299

火热报名中

Fine BI 商业智能数据分析

数据分析师 27次课共6学时

王忠超

¥ 1299

火热报名中

【Excel 高效应用:HR 数字化管理实战】

数据分析师 30次课共3学时

王忠超

¥ 899

火热报名中

Power BI 轻松入门：零基础到数据大师

数据分析师 23次课共49学时

吴开斌

¥ 399

火热报名中

Excel函数大师班：效率与精通的融合

数据分析师 62次课共62学时

吴开斌

¥ 499-898

火热报名中

0基础入门数据分析5天训练营

数据分析师 5次课共4学时

曹峥

张玮

¥ 8

11601人已报名

Power Bl 商务智能数据分析

数据分析师 37次课共10学时

王忠超

¥ 1299

火热报名中

Excel综合应用案例-进销存、工资管理、应收账款、员工信息人事表

数据分析师 66次课共11学时

吴开斌

¥ 1299

火热报名中

Excel入门到精通

数据分析师 12次课共10学时

高老师

相关推荐

1、数据清理

数据清理(data cleaning) 的主要思想是通过填补缺失值、光滑噪声数据，平滑或删除离群点，并解决数据的不一致性来“清理“数据。如果用户认为数据时脏乱的，他们不太会相信基于这些数据的挖掘结果，即输出的结果是不可靠的。

2、数据集成

数据分析任务多半涉及数据集成。数据集成将多个数据源中的数据结合成、存放在一个一致的数据存储，如数据仓库中。这些源可能包括多个数据库、数据方或一般文件。

3、数据规约

数据归约技术可以用来得到数据集的归约表示，它小得多，但仍接近地保持原数据的完整性。这样，在归约后的数据集上挖掘将更有效，并产生相同(或几乎相同)的分析结果。

4、数据变换

数据变换包括对数据进行规范化，离散化，稀疏化处理，达到适用于挖掘的目的。

数据分析的流程是什么?

刘老师数据分析师

1、明确分析的目的，提出问题。只有弄清楚了分析的目的是什么，才能准确定位分析因子，提出有价值的问题，提供清晰的指引方向。

2、数据采集。收集原始数据，数据来源可能是丰富多样的，一般有数据库、互联网、市场调查等。具体办法可以通过加入“埋点”代码，或者使用第三方的数据统计工具。

3、数据处理。对收集到的原始数据进行数据加工，主要包括数据清洗、数据分组、数据检索、数据抽取等处理方法。

4、数据探索。通过探索式分析检验假设值的形成方式，在数据之中发现新的特征，对整个数据集有个全面认识，以便后续选择何种分析策略。

5、分析数据。数据整理完毕，就要对数据进行综合分析和相关分析，需要对产品、业务、技术等了如指掌才行，常常用到分类、聚合等数据挖掘算法。Excel是最简单的数据分析工具，专业数据分析工具有R语言、Python等。

6、得到可视化结果。借助可视化数据，能有效直观地表述想要呈现的信息、观点和建议，比如金字塔图、矩阵图、漏斗图、帕累托图等，同时也可以使用报告等形式与他人交流。

数据挖掘知识点有哪些?

刘老师数据分析师

1.数据、信息和知识是广义数据表现的不同形式。

2.主要知识模式类型有：广义知识，关联知识，类知识，预测型知识，特异型知识

3.web挖掘研究的主要流派有：Web结构挖掘、Web使用挖掘、Web内容挖掘

4.一般地说，KDD是一个多步骤的处理过程，一般分为问题定义、数据抽取、数据预处理、.数据挖掘以及模式评估等基本阶段。

5.数据库中的知识发现处理过程模型有：阶梯处理过程模型，螺旋处理过程模型，以用户为中心的处理结构模型，联机KDD模型，支持多数据源多知识模式的KDD处理模型

6.粗略地说，知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具集和纵向的知识发现解决方案三个主要阶段，其中后面两种反映了目前知识发现软件的两个主要发展方向。

7.决策树分类模型的建立通常分为两个步骤：决策树生成，决策树修剪。