HDFS:
Hadoop Distributed File System ,分布式文件系统,提供对应用程序数据的高吞吐量,高伸缩性,高容错性的访问。数据存储管理的基础。
YARN:
任务调度和集群资源管理。
MapReduce:
基于YARN的大型数据集并行处理系统。
Hbase:
分布式的、面向列的开源数据库。
Hive:
数据仓库工具,可以将sql语句转换为MapReduce任务进行运行。
Mahout:
Apache旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现。
Pig:
对大型数据集进行分析和评估的平台。
ZooKeeper:
分布式的,开放源码的分布式应用程序协调服务。
Hadoop环境搭建包括:
Linux环境安装、Hadoop本地模式安装、Hadoop伪分布式模式安装、完全分布式安装、Hadoop HA安装
Hadoop由GNU/Linux平台支持(建议)。需要安装一个Linux操作系统并设置Hadoop环境。如果有Linux操作系统等,可以把它安装在VirtualBox(要具备在 VirtualBox内安装Linux经验,没有装过也可以学习试着来)。
关于大数据技术Hadoop学习哪些内容,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。