1.Hadoop
Hadoop是一个由Apache基金会所开发的分布式体系基础架构。用户能够在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop是一个能够对很多数据进行分布式处理的软件结构。Hadoop 以一种牢靠、高效、可伸缩的方式进行数据处理。
2.Apache Hive
Hive是一个建立在Hadoop上的开源数据仓库基础设施,经过Hive能够很简略的进行数据的ETL,对数据进行结构化处理,并对Hadoop上大数据文件进行查询和处理等。 Hive供给了一种简略的类似SQL的查询言语—HiveQL,这为了解SQL言语的用户查询数据供给了便利。
3. Apache Spark
Apache Spark是Hadoop开源生态体系的新成员。它供给了一个比Hive更快的查询引擎,由于它依赖于自己的数据处理结构而不是依靠Hadoop的HDFS服务。一起,它还用于事情流处理、实时查询和机器学习等方面。
4. Keen IO
Keen IO是个强壮的移动应用分析东西。开发者只需要简略到一行代码, 就能够跟踪他们想要的关于他们应用的任何信息。开发者接下来只需要做一些Dashboard或者查询的工作就能够了。
5. Ambari
Apache Ambari是一种基于Web的东西,支撑Apache Hadoop集群的供给、管理和监控。Ambari已支撑大多数Hadoop组件,包含HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。
6. Flume
Flume是Cloudera供给的一个高可用的,高牢靠的,分布式的海量日志搜集、聚合和传输的体系,Flume支撑在日志体系中定制各类数据发送方,用于搜集数据;一起,Flume供给对数据进行简略处理,并写到各种数据接受方(可定制)的才能。
7.MapReduce
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的首要思维,都是从函数式编程言语里借来的,还有从矢量编程言语里借来的特性。它极大地便利了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式体系上。
关于常见的大数据开发工具有哪些,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。