Google File System是文件存储系统,主要用来解决数据存储的问题,采用多台分布式机器,使用灾难冗余的方式,既做到了数据读写速度的提升,同时又能保证数据的安全。大数据技术首要的要求就是先把数据存下来,HDFS为了解决存储的问题,把大量的数据用成千上万台机器存储,而用户在前端看到的只是一个文件系统,而不是许多文件系统,这是一种对用户友好的处理方式。
在解决了数据存储的问题之后,如何更高效地处理数据呢?如果让一台机器处理TB级或者PB级的数据,那么可能会花费几天甚至几周的时间,而这对于很多公司的业务来说是不可接受的。
而MapReduce/Spark就是为了解决这个问题,它可以给并行处理任务的计算机分配的任务更加合理,并负责任务之间的通信,以及数据交换等工作。MapReduce/Spark提供一种可靠的、能够运行在集群上的计算模型。MapReduce会把所有的函数都分为两类,即Map和Reduce。Map会将数据分成很多份,然后分配给不同的机器处理;Reduce把计算的结果合并,得到最终的结果。
但是如果直接使用MapReduce的程序,会发现使用门槛比较高,Hive和Pig基于MapReduce的基础封装出一个更友好、更简单的方式,可以很容易地实现MapReduce程序。Pig以类似脚本的方式实现MapReduce,Hive以SQL的方式实现。Hive和Pig会把脚本或者SQL自动翻译成MapReduce程序,然后交给计算引擎执行计算。数据分析师由于经常使用SQL,所以Hive的使用门槛就变得更低,而且Hive的代码量比较少,一两行的SQL语句就可以解决很多问题,而如果使用MapReduce,可能需要上百行。所以,Hive得到越来越多的人青睐,并逐渐流行起来。
关于大数据知识:了解大数据基础Hadoop,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。