问答详情

数据挖掘的主要步骤有哪些?

2987次观看
标签: 数据挖掘步骤 数据挖掘
老师回答

(1)信息收集:根据确定的数据分析对象抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。

(2)数据集成:把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。

(3)数据规约:执行多数的数据挖掘算法即使在少量数据上也需要很长的时间,而做商

业运营数据挖掘时往往数据量非常大。数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。

(4)数据清理:在数据库中的数据有一些是不完整的(有些感兴趣的属性缺少属性值),含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。不然,挖掘的结果会差强人意。

(5)数据变换:通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的。

(6)数据挖掘过程:根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集、甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。

(7)模式评估:从商业角度,由行业专家来验证数据挖掘结果的正确性。

(8)知识表示:将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。

免费直播

    相关推荐
    数据分析方法论有哪些?
    刘老师 数据分析师

    1、PEST分析法

    PEST,也就是政治(Politics)、经济(Economy)、社会(Society)、技术(Technology),能从各个方面把握宏观环境的现状及变化趋势,主要用户行业分析。

    宏观环境又称一般环境,是指影响一切行业和企业的各种宏观力量。

    对宏观环境因素作分析时,由于不同行业和企业有其自身特点和经营需要,分析的具体内容会有差异,但一般都应对政治、经济、技术、社会,这四大类影响企业的主要外部环境因素进行分析。

    政治环境:政治体制、经济体制、财政政策、税收政策、产业政策、投资政策等。

    社会环境:人口规模、性别比例、年龄结构、生活力式、购买习惯、城市特点等。

    技术环境:折旧和报废速度、技术更新速度、技术传播速度、技术商品化速度等。

    经济环境:GDP 及增长率、进出口总额及增长率、利率、汇率、通货膨胀率、消费价格指数、居民可支配收入、失业率、劳动生产率等。

    2、5W2H分析法

    5W2H,即为什么(Why)、什么事(What)、谁(Who)、什么时候(When)、什么地方(Where)、如何做(How)、什么价格(How much),主要用于用户行为分析、业务问题专题分析、营销活动等。

    该分析方法又称为七何分析法,是一个非常简单、方便又实用的工具,以用户购买行为为例:

    Why:用户为什么要买?产品的吸引点在哪里?

    What:产品提供的功能是什么?

    Who:用户群体是什么?这个群体的特点是什么?

    When:购买频次是多少?

    Where:产品在哪里最受欢迎?在哪里卖出去?

    How:用户怎么购买?购买方式什么?

    How much:用户购买的成本是多少?时间成本是多少?

    3、SWOT分析法

    SWOT分析法也叫态势分析法,S (strengths)是优势、W (weaknesses)是劣势,O (opportunities)是机会、T (threats)是威胁或风险。

    SWOT分析法是用来确定企业自身的内部优势、劣势和外部的机会和威胁等,通过调查列举出来,并依照矩阵形式排列,然后用系统分析的思想,把各种因素相互匹配起来加以分析。

    运用这种方法,可以对研究对象所处的情景进行全面、系统、准确的研究,从而将公司的战略与公司内部资源、外部环境有机地结合起来。

    4、4P营销理论

    4P即产品(Product)、价格(Price)、渠道(Place)、推广(Promotion),在营销领域,这种以市场为导向的营销组合理论,被企业应用最普遍。

    可以说企业的一切营销动作都是在围绕着4P理论进行,也就是将:产品、价格、渠道、推广。通过将四者的结合、协调发展,从而提高企业的市场份额,达到最终获利的目的。

    产品:从市场营销的角度来看,产品是指能够提供给市场,被入们使用和消费并满足人们某种需要的任何东西,包括有形产品、服务、人员、组织、观念或它们的组合。

    价格:是指顾客购买产品时的价格,包括基本价格、折扣价格、支付期限等。影响定价的主要因素有三个:需求、成本与竞争。

    渠道:是指产品从生产企业流转到用户手上全过程中所经历的各个环节。

    促销:是指企业通过销售行为的改变来刺激用户消费,以短期的行为(比如让利、买一送一,营销现场气氛等等)促成消费的增长,吸引其他品牌的用户或导致提前消费来促进销售的增长。广告、宣传推广、人员推销、销售促进是一个机构促销组合的四大要素。

    5、逻辑树法

    逻辑树又称问题树、演绎树或分解树等。它是把一个已知问题当成“主干”,然后开始考虑这个问题和哪些相关问题有关,也就是“分支”。逻辑树能保证解决问题的过程的完整性,它能将工作细分为便于操作的任务,确定各部分的优先顺序,明确地把责任落实到个人。

    逻辑树的使用必须遵循以下三个原则:

    要素化:把相同的问题总结归纳成要素。

    框架化:将各个要素组织成框架。遵守不重不漏的原则。

    关联化:框架内的各要素保持必要的相互关系,简单而不独立。

    6、AARRR模型

    AARRR模型是所有运营人员都要了解的一个数据模型,从整个用户生命周期入手,包括获取(Acquisition)、激活(Activition)、留存(Retention)、变现(Revenue)和传播(Refer)。

    每个环节分别对应生命周期的5个重要过程,即从获取用户,到提升活跃度,提升留存率,并获取收入,直至最后形成病毒式传播。

    开源数据挖掘工具有哪些?
    刘老师 数据分析师

    1、RapidMiner

    该工具是用Java语言编写的,通过基于模板的框架提供先进的分析技术。该款工具最大的好处就是,用户无需写任何代码。它是作为一个服务提供,而不是一款本地软件。值得一提的是,该工具在数据挖掘工具榜上位列榜首。

    另外,除了数据挖掘,RapidMiner还提供如数据预处理和可视化、预测分析和统计建模、评估和部署等功能。更厉害的是它还提供来自WEKA(一种智能分析环境)和R 脚本的学习方案、模型和算法。

    RapidMiner分布在AGPL开源许可下,可以从SourceForge上下载。SourceForge是一个开发者进行开发管理的集中式场所,大量开源项目在此落户,其中就包括维基百科使用的MediaWiki。

    2、WEKA

    WEKA原生的非Java版本主要是为了分析农业领域数据而开发的。该工具基于Java版本,是非常复杂的,并且应用在许多不同的应用中,包括数据分析以及预测建模的可视化和算法。与RapidMiner相比优势在于,它在GNU通用公共许可证下是免费的,因为用户可以按照自己的喜好选择自定义。

    WEKA支持多种标准数据挖掘任务,包括数据预处理、收集、分类、回归分析、可视化和特征选取。

    添加序列建模后,WEKA将会变得更强大,但目前不包括在内。

    3、R-Programming

    如果我告诉你R项目,一个GNU项目,是由R(R-programming简称,以下统称R)自身编写的,你会怎么想它主要是由C语言和FORTRAN语言编写的,并且很多模块都是由R编写的,这是一款针对编程语言和软件环境进行统计计算和制图的免费软件。R语言被广泛应用于数据挖掘,以及开发统计软件和数据分析中。近年来,易用性和可扩展性也大大提高了R的知名度。

    除了数据,它还提供统计和制图技术,包括线性和非线性建模,经典的统计测试,时间序列分析、分类、收集等等。

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司