大数据分析重大计算方法选择需慎重

2020/09/29 20:12

大数据分析重大计算方法选择需慎重

大数据分析依靠机器学习和大规模计算，对规模巨大的数据进行分析。作为时下最火热的IT行业的词汇，数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。大数据时代的来临，大数据分析应运而生。

　　安联全球救援长期从事道路救援已有12年，利用大数据分析科学分析救援数据，在第一时间内合理调配救援资源，并在最短时间内通知相关部门展开对应的援助。2015年7月6日，安联全球救援在北京庆祝在华第500万个成功道路救援案例诞生。在过去的12年里，安联全球救援投入了大量资金和资源在全国范围内建立专业服务网络，并分别在北京和成都设立运营中心，其网络覆盖全国1762个城市，平均服务到达时间为39分钟。利用大数据分析，大大提高了道路救援效率。

　　那么大数据分析究竟是怎么样?那些方法更有效?我们该如何利用起来呢?

　　大数据分析可以分为五个基本方面：

　　1.可视化分析(Analytic Visualizations)——不管是对数据分析专家还是普通用户，数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据，让数据自己说话，让观众听到结果。

　　2.数据挖掘算法(Data Mining Algorithms)——可视化是给人看的，数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部，挖掘价值。这些算法不仅要处理大数据的量，也要处理大数据的速度。

　　3.预测性分析能力(Predictive Analytic Capabilities)——数据挖掘可以让分析员更好的理解数据，而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。

　　4.义引擎(Semantic Engines)——我们知道由于非结构化数据的多样性带来了数据分析的新的挑战，我们需要一系列的工具去解析，提取，分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。

　　5.数据质量和数据管理(Data Qualityand Master Data Management)——数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。

　　大数据分析方法的选择

　　大数据分析性能的好坏，也就是说机器学习预测的准确率，与使用的学习算法、问题的性质、数据集的特性包括数据规模、数据特征等都有关系。一般地，Ensemble方法包括Random Forest和Ada Boost、SVM、Logistic Regression分类准确率最高。没有一种方法可以“包打天下”。RandomForest、SVM等方法一般性能最好，但不是在什么条件下性能都最好。

　　不同的方法，当数据规模小的时候，性能往往有较大差异，但当数据规模增大时，性能都会逐渐提升且差异逐渐减小。也就是说，在大数据条件下，什么方法都能work的不错。对于简单问题，Random Forest、SVM等方法基本可行，但是对于复杂问题，比如语音识别、图像识别，最近流行的深度学习方法往往效果更好。深度学习本质是复杂模型学习，是今后研究的重点。

　　在实际应用中，要提高分类的准确率，选择特征比选择算法更重要。好的特征会带来更好的分类结果，而好的特征的提取需要对问题的深入理解。

　　大数据分析策略分析

　　建立大数据分析平台时，选择实现若干种有代表性的方法即可。当然，不仅要考虑预测的准确率，还有考虑学习效率、开发成本、模型可读性等其他因素。大数据分析平台固然重要，同时需要有一批能够深入理解应用问题，自如使用分析工具的工程师和分析人员。

　　只有善工利器，大数据分析才能真正发挥威力。