问答详情

主流的数据分析平台构架有哪些?

673次观看
标签: 数据分析平台 数据分析平台构架
老师回答

1、Hadoop

Hadoop 采用 Map Reduce 分布式计算框架,根据 GFS开发了 HDFS 分布式文件系统,根据 Big Table 开发了 HBase数据存储系统。Hadoop 的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo,Facebook,Amazon 以及国内的百度,阿里巴巴等众多互联网公司都以 Hadoop 为基础搭建自己的分布。

2、Spark

Spark 是在 Hadoop 的基础上进行了一些架构上的改良。Spark 与Hadoop 最大的不同点在于,Hadoop 使用硬盘来存储数据,而Spark 使用内存来存储数据,因此 Spark 可以提供超过 Ha?doop 100 倍的运算速度。由于内存断电后会丢失数据,Spark不能用于处理需要长期保存的数据。

3、Storm

Storm是 Twitter 主推的分布式计算系统。它在Hadoop的基础上提供了实时运算的特性,可以实时的处理大数据流。不同于Hadoop和Spark,Storm不进行数据的收集和存储工作,它直接通过网络实时的接受数据并且实时的处理数据,然后直接通过网络实时的传回结果。

4、Samza

Samza 是由 Linked In 开源的一项技术,是一个分布式流处理框架,专用于实时数据的处理,非常像Twitter的流处理系统Storm。不同的是Sam?za 基于 Hadoop,而且使用了 Linked In 自家的 Kafka 分布式消息系统。

Samza 非常适用于实时流数据处理的业务,如数据跟踪、日志服务、实时服务等应用,它能够帮助开发者进行高速消息处理,同时还具有良好的容错能力。

免费直播

    相关推荐
    提升企业数据分析能力的技术有哪些?
    刘老师 数据分析师

    1.回归分析

    当您需要进行预测和预测未来趋势时, 回归分析是很好的工具。回归测量因变量 (要测量的变量) 和自变量 (用于预测因变量的数据) 之间的关系。虽然你只能有一个因变量, 但你可以有几乎无限数量的独立变量。回归还可以帮助您发现运营中可以通过突出趋势和因素之间的关系来优化的业务点。

    2.假设检验

    这种分析方法也称为“T 测试”, 可将所拥有的数据与假设进行比较。它还可以预测可能做出的决策将如何影响您的业务。T 测试可以比较两个变量, 以找到相关性, 并根据结果做出决策。例如, 实际业务中可能会假设更多的工作时间相当于更高的生产率。在实施延长工作时间之前, 重要的是要确保有真正的效果, 以避免造成不好的反作用。

    3.蒙特卡洛模拟

    作为计算不可预知变量对特定因子影响的最常用方法之一, 蒙特卡罗模拟使用概率建模来帮助预测风险和不确定性。为了测试假设或场景, 蒙特卡洛模拟将使用随机数和数据, 根据任何结果对任何情况进行各种可能的结果进行分析。这是一个非常有用的数据分析方法,可以跨越多个领域应用,包括项目管理、财务、工程、物流等等。通过测试各种可能性,可以了解随机变量如何影响您的计划和项目。

    4.内容分析

    这种方法有助于了解定性数据中出现的总体主题。使用词云图颜色编码特定主题和想法等技术有助于分析文本数据,以找到最常见的线程。在处理用户反馈、访谈数据、开放式调查等数据时,内容分析可以很好地工作。这有助于确定需要改进的最重要领域。

    5.叙事分析

    叙事分析主要包含五个要素,即行动(act)、场景(scene)、行动者(agent)、能动性(agency)和目的(purpose)。这种分析侧重于故事和想法在整个公司的沟通方式,可以帮助你更好地了解组织文化。这可能包括解释员工对其工作的感受、客户对组织的看法以及如何查看运营流程。它在考虑改变企业文化或规划新的营销策略时非常有用。

    没有统计分析的黄金标准,也没有绝对正确的方法。选择的方法应始终反映收集的数据以及要提取的解决方案类型。匹配正确的数据和分析有助于发现更好的方案,以优化企业的业务,对企业业务进行数字化变革。

    数据挖掘的常用方法有哪些?
    刘老师 数据分析师

    1、决策树法

    决策树在解决归类与预测上有着极强的能力,它以法则的方式表达,而这些法则则以一连串的问题表示出来,经由不断询问问题最终能导出所需的结果。典型的决策树顶端是一个树根,底部有许多的树叶,它将纪录分解成不同的子集,每个子集中的字段可能都包含一个简单的法则。此外,决策树可能有着不同的外型,例如二元树、三元树或混和的决策树型态。

    2、神经网络法

    神经网络法是模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,它将每一个连接看作一个处理单元,试图模拟人脑神经元的功能,可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改上。其优点是具有抗干扰、非线性学习、联想记忆功能,对复杂情况能得到精确的预测结果;缺点首先是不适合处理高维变量,不能观察中间的学习过程,具有“黑箱”性,输出结果也难以解释;其次是需较长的学习时间。神经网络法主要应用于数据挖掘的聚类技术中。

    3、关联规则法

    关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。

    4、遗传算法

    遗传算法模拟了自然选择和遗传中发生的繁殖、交配和基因突变现象,是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。它的基本观点是“适者生存”原理,具有隐含并行性、易于和其他模型结合等性质。主要的优点是可以处理许多数据类型,同时可以并行处理各种数据;缺点是需要的参数太多,编码困难,一般计算量比较大。遗传算法常用于优化神经元网络,能够解决其他技术难以解决的问题。

    5、聚类分析法

    聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。根据定义可以把其分为四类:基于层次的聚类方法;分区聚类算法;基于密度的聚类算法;网格的聚类算法。常用的经典聚类方法有K-mean,K-medoids,ISODATA等。

    6、模糊集法

    模糊集法是利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集合理论是用隶属度来描述模糊事物的属性。系统的复杂性越高,模糊性就越强。

    7、web页挖掘

    通过对Web的挖掘,可以利用Web的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。

    8、逻辑回归分析

    反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。

    9、粗糙集法

    是一种新的处理含糊、不精确、不完备问题的数学工具,可以处理数据约简、数据相关性发现、数据意义的评估等问题。其优点是算法简单,在其处理过程中可以不需要关于数据的先验知识,可以自动找出问题的内在规律;缺点是难以直接处理连续的属性,须先进行属性的离散化。因此,连续属性的离散化问题是制约粗糙集理论实用化的难点。

    10、连接分析

    它是以关系为主体,由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉连结分析收集到顾客使用电话的时间与频率,进而推断顾客使用偏好为何,提出有利于公司的方案。除了电信业之外,愈来愈多的营销业者亦利用连结分析做有利于企业的研究。

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司