问答详情

数据挖掘要解决的问题有哪些?

2818次观看
标签: 数据挖掘 数据挖掘解决问题
老师回答

1.可伸缩

由于数据产生和采集技术的进步,数太字节(TB)、数拍字节(PB)甚至数艾字节(EB)的数据集越来越普遍。如果数据挖掘算法要处理这些海量数据集,则算法必须是可伸缩的。许多数据挖掘算法采用特殊的搜索策略来处理指数级的搜索问题。为实现可伸缩可能还需要实现新的数据结构,才能以有效的方式访问每个记录。

例如,当要处理的数据不能放进内存时,可能需要核外算法。使用抽样技术或开发并行和分布式算法也可以提高可伸缩程度。

2.高维性

现在,常常会遇到具有成百上千属性的数据集,而不是几十年前常见的只具有少量属性的数据集。在生物信息学领域,微阵列技术的进步已经产生了涉及数千特征的基因表达数据。具有时间分量或空间分量的数据集也通常具有很高的维度。

例如,考虑包含不同地区的温度测量结果的数据集,如果在一个相当长的时间周期内反复地测量,则维数(特征数)的增长正比于测量的次数。为低维数据开发的传统数据分析技术通常不能很好地处理这类高维数据,如维灾难问题。此外,对于某些数据分析算法,随着维数(特征数)的增加,计算复杂度会迅速增加。

3.异构数据和复杂数据

通常,传统的数据分析方法只处理包含相同类型属性的数据集,或者是连续的,或者是分类的。随着数据挖掘在商务、科学、医学和其他领域的作用越来越大,越来越需要能够处理异构属性的技术。

近年来,出现了更复杂的数据对象。这种非传统类型的数据如:含有文本、超链接、图像、音频和视频的Web和社交媒体数据,具有序列和三维结构的DNA数据,由地球表面不同位置、不同时间的测量值(温度、压力等)构成的气候数据。

为挖掘这种复杂对象而开发的技术应当考虑数据中的联系,如时间和空间的自相关性、图的连通性、半结构化文本和XML文档中元素之间的父子关系。

4.数据的所有权与分布

有时,需要分析的数据不会只存储在一个站点,或归属于一个机构,而是地理上分布在属于多个机构的数据源中。这就需要开发分布式数据挖掘技术。分布式数据挖掘算法面临的主要挑战包括:

如何降低执行分布式计算所需的通信量?如何有效地统一从多个数据源获得的数据挖掘结果?如何解决数据安全和隐私问题?

5.非传统分析

传统的统计方法基于一种假设检验模式,即提出一种假设,设计实验来收集数据,然后针对假设分析数据。但是,这一过程劳力费神。当前的数据分析任务常常需要产生和评估数千种假设,因此需要自动地产生和评估假设,这促使人们开发了一些数据挖掘技术。

此外,数据挖掘所分析的数据集通常不是精心设计的实验的结果,并且它们通常代表数据的时机性样本(opportunistic sample),而不是随机样本(random sample)。

免费直播

    相关推荐
    如何高效的运用网站分析工具?
    刘老师 数据分析师

    1、工具使用第一重:仅仅是页面流数据

    很多人把工具生成的代码往网站页面上一贴,认为网站的跟踪代码配置就基本完成了。但事情并没有那么简单,分析系统中生成的跟踪代码只能简单的跟踪页面流的数据,比如访问数、浏览量、流量来源等等,用户与网站的交互行为比如表单提交、订单达成是无法跟踪得到的。

    网站的跟踪代码应该要根据具体的网站业务需求来配置跟踪方案。在添加跟踪代码前需要相关的业务人员聚在一起讨论把数据跟踪需求整理出来,根据需求形成一个完成的跟踪方案,从而生成相应的跟踪代码并添加到网站中。

    很多网站甚至是一部分电商网站都只是做到了这一步,但其实这远远没有把网站跟踪系统的功能发挥出来。

    因为受限跟踪配置的内容,系统只能收集到页面流的数据,因此用户也只能简单地查看网站的访问数、页面的浏览量以及流量来源的相关数据,但用户来到了网站有没有一些非浏览量的交互行为,是否有产生订单或产生了哪些产品的订单,无从得知。因此也没有明确的指标用于指导网站优化和外部推广(仅有的跳出率是不够的)。

    2、工具使用第二重:配置了目标或电子商务跟踪

    有部分用户在页面流数据跟踪的基础上会增加目标与电子商务数据的跟踪配置,这就进入我们所说的“网站分析第二重”。

    目标与电子商务数据是衡量网站绩效的重要指标。对于会员制的电商网站来说,一个非常重要的目标就是会员数据的增加,而电子商务销售则是网站的终极目标。对这两块数据进行跟踪,我们就可以很好地衡量网站与及流量来源的转化情况。

    把目标与电子商务的数据跟踪起来后,我们就可以把转化的数据与流量来源及页面浏览行为相关联,我们就可以很好地分析网站流量来源与页面浏览行为的转化情况。从而知道从哪些流量来源过来的流量质量最高,哪些产品或页面的说服力更强可以吸引用户完成订单转化,这样我们就可以有针对性地增加那些转化率高的流量来源的流量,并对一些转化偏低的产品或页面进行优化。

    3、工具使用第三重:完善了访问行为细节的跟踪与分析

    在这个分类下你会较为注重对于用户行为细节的跟踪,从而配置相应的自定义事件跟踪。对于用户在网站上的一些行为我们可以系统性地进行跟踪,比如站内搜索、视频播放、文件下载、表单提交、404错误页面、导出链接的点击、评论提交等等行为我们都可以跟踪起来,从而更好地了解访客的访问行为以提升网站的访问体验和转化率。

    如第二重的内容所说的,你可能会把注册成功作为网站的目标,除了跟踪注册提交成功的事件外,你还可以跟踪注册的方式(是否通过第三方工具帐号进行注册)、注册提交失败的次数与及失败的原因等等。

    除了订单产生的数量,购买流程中每一步的微转化也是值得关注的,找出转化流程中的弱项和问题,想办法修复它,这对于销售的提升效果将是非常明显的。

    对于电商网站来说,用户是否有点击站内广告的行为,从而购买广告推介的产品,我们要怎么完善我们的产品推荐系统,这些都需要数据作支持。

    我们还强烈建议可以对站内搜索与搜索零结果(搜索结果的条目数量)的情况进行跟踪,从而衡量网站的产品或内容是否满足用户的搜索需求,从而增加相应的产品或内容以提升网站销售。而对于一个客服系统来说,优化好这一步,这有可能会大幅减少客服人员的工作量。

    4、工具使用第四重:基于数据的网站优化—数据驱动营销

    在前边三部分其实也应该把网站优化的工作纳入其中,但对于大多数公司来说,网站优化这一步大都做得不好或是做得不够系统。而网站优化是网站运营过程中不可或缺的一个重要环节。

    很多人做的网站分析报告仅仅是停留在报告的层面而没有形成优化行动,这就失去了网站分析的意义。根据报告中提出的有效建议,可以考虑安排进行营销活动或页面内容的优化工作。

    通过数据分析找出更优的推广渠道;同时对内容特别是着陆页面的内容进行A/B/N测试,找出最优的页面版本,这将可以有效地提升网站的转化率从而提升网站的销售!这是网站分析对于提升网站业绩的最直观体现。

    数据分析师应该具备的素质有哪些?
    刘老师 数据分析师

    1、态度严谨负责

    严谨负责是数据分析师的必备素质之一,只有奔着严谨负责的态度,才能保证数据的客观、准确。在企业里,数据分析师可以说是企业的医生,他们通过对企业运营数据的分析,为企业寻找症结的问题。

    2、好奇心强烈

    好奇心热皆有之,但是作为数据分析师,这份好奇心就应该更加强烈,要积极主动地发现挖掘隐藏在数据内部的真相。在数据分析师的脑子里,应该充满着无数个“为什么”,为什么是这样的结果,为什么不是那样的结果,导致这个结果的原因是什么,为什么结果是不预期的那样等等,这一系列问题都要在进行分析时提出来,并且通过通过数据分析给自己一个满意的答案。

    3、逻辑思维清晰

    除了一颗探索真相的好奇心,数据分析师还需要具备缜密的思维和清晰的逻辑推理能力。

    通常从事数据分析时所面对的商业问题较为复杂,要考虑错综复杂的成因,分析所面对的各种复杂的环境因素,并在若干发展可能性中选择一个最优的方向。这就需要数据分析师对事实的足够了解,同时也是需要真正理清问题的整体以及局部的结构进而理清结构中相互的逻辑关系。

    4、擅长模仿

    在做数据分析时,有自己的想法固然重要,但是“前车之鉴”也是非常有必要学习的,它能帮助数据分析师迅速的成长,因此,模仿是快速提高学习成果的有效方法。模仿主要是参考他人优秀的思路和方法,成功的模仿需要领会他人方法的精髓,理解其成分析原理。

    5、勇于创新

    通过模仿可以借鉴他人的成功经验,但模仿时间不宜太长,每次模仿后都要进行总结,提升可以改进的地方,甚至要有所创新。创新是一个优秀数据分析师应具备的精神,只有不断创新,才能提高自己的分析水平。

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司