问答详情

数据分析平台特点是什么?

630次观看
标签: 数据分析平台 数据分析平台特点
老师回答

1. 高效分布式

有必要是高效的分布式体系。物联网发生的数据量巨大,仅我国而言,就有5亿多台智能电表,每台电表每隔15分钟采集一次数据,一天全国智能电表就会发生500多亿条记载。这么大的数据量,任何一台服务器都无能力处理,因而处理体系有必要是分布式的,水平扩展的。

2. 实时处理

有必要是实时处理的体系。互联网大数据处理,大家所了解的场景是用户画像、推荐体系、舆情分析等等,这些场景并不需求什么实时性,批处理即可。可是关于物联网场景,需求根据采集的数据做实时预警、决议计划,延时要控制在秒级以内。

3. 高牢靠性

需求运营商等级的高牢靠服务。物联网体系对接的往往是生产、经营体系,假如数据处理体系宕机,直接导致停产,发生经济有丢失、导致对终端顾客的服务无法正常供给。比方智能电表,假如体系出问题,直接导致的是千家万户无法正常用电。

4. 高效缓存

需求高效的缓存功用。绝大部分场景,都需求能快速获取设备当前状态或其他信息,用以报警、大屏展示或其他。体系需求供给一高效机制,让用户能够获取全部、或契合过滤条件的部分设备的最新状态。

5. 实时流式核算

需求实时流式核算。各种实时预警或猜测现已不是简单的根据某一个阈值进行,而是需求经过将一个或多个设备发生的数据流进行实时聚合核算,不只是根据一个时间点、而是根据一个时间窗口进行核算。不仅如此,核算的需求也适当杂乱,因场景而异,应容许用户自定义函数进行核算。

免费直播

    相关推荐
    数据挖掘常用的方法有哪些?
    刘老师 数据分析师

    1、分类

    分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。

    主要的分类方法:决策树、KNN 法 (K-Nearest Neighbor)、SVM 法、VSM 法、Bayes 法、神经网络等。

    2、聚类

    聚类指事先并不知道任何样本的类别标号,按照对象的相似性和差异性,把一组对象划分成若干类,并且每个类里面对象之间的相似度较高,不同类里面对象之间相似度较低或差异明显。我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,聚类是一种无监督学习。

    聚类的方法(算法):主要的聚类算法可以划分为如下几类,划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法。每一类中都存在着得到广泛应用的算法, 划分方法中有 k-means 聚类算法、层次方法中有凝聚型层次聚类算法、基于模型方法中有神经网络聚类算法。

    3、回归分析

    回归分析是一个统计预测模型,用以描述和评估因变量与一个或多个自变量之间的关系;反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系。

    回归分析的应用:回归分析方法被广泛地用于解释市场占有率、销售额、品牌偏好及市场营销效果。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。

    回归分析的主要研究问题:数据序列的趋势特征、数据序列的预测、数据间的相关关系等。

    4、关联规则

    关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则是描述数据库中数据项之间所存在的关系的规则。

    5、神经网络方法

    神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的问题,以及那些以模糊、不完整、不严密的知识或数据为特征的问题,它的这一特点十分适合解决数据挖掘的问题。

    6、Web数据挖掘

    web数据挖掘是一项综合性技术,指Web从文档结构和使用的集合C中发现隐含的模式P,如果将C看做是输入,P 看做是输出,那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。

    7、特征分析

    特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。

    8、偏差分析

    偏差是数据集中的小比例对象。通常,偏差对象被称为离群点、例外、野点等。偏差分析就是发现与大部分其他对象不同的对象。

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司