大数据技术Hadoop学习哪些内容?

环球青藤 2021/01/10 02:20

HDFS:

Hadoop Distributed File System ,分布式文件系统,提供对应用程序数据的高吞吐量,高伸缩性,高容错性的访问。数据存储管理的基础。

YARN:

任务调度和集群资源管理。

MapReduce:

基于YARN的大型数据集并行处理系统。

Hbase:

分布式的、面向列的开源数据库。

Hive:

数据仓库工具,可以将sql语句转换为MapReduce任务进行运行。

Mahout:

Apache旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现。

Pig:

对大型数据集进行分析和评估的平台。

ZooKeeper:

分布式的,开放源码的分布式应用程序协调服务。

Hadoop环境搭建包括:

Linux环境安装、Hadoop本地模式安装、Hadoop伪分布式模式安装、完全分布式安装、Hadoop HA安装

Hadoop由GNU/Linux平台支持(建议)。需要安装一个Linux操作系统并设置Hadoop环境。如果有Linux操作系统等,可以把它安装在VirtualBox(要具备在 VirtualBox内安装Linux经验,没有装过也可以学习试着来)。

关于大数据技术Hadoop学习哪些内容,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。

免费直播

    精选课程 更多

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司