膜拜-华为内部都在强推的 783 页大数据处理系统：Hadoop 源代码 pdf

第 3 章 Hadoop 集群和 YARN，虽然 Hadoop 也可以在单机上运行,但是这个平台的典型运行场景无疑是在多机的集群(Cluster)上。我们把运行着 Hadoop 平台的集群,就 Hadoop 平台的边界所及,称为“Hadoop 集群”。其中的每台机器都成为集群的一个“节点(node)”,节点之间连成一个局域网。这个局域网一般都是交换网,而不是路由网。这就是说,集群中只有交换机(switch),一般是二层交换机,也可能是三层交换机,但是没有普通的路由器,因为那些路由器引入的延迟太大了。不过这也不绝对,有时候可能确实需要将一个集群分处在不同网段中,而通过路由器相连,但是这并不影响 Hadoop 的运行(除性能降低之外)。就 Hadoop 而言,路由器与交换机在逻辑上是一样的。

第 4 章 Hadoop 的 RPC 机制，RPC 是“RemoteProcedureCall”即“远地过程调用”的缩写。这个机制的目的,是让一台机器上的程序能像调用本地的“过程”那样来调用别的机器上的某些过程。这里所谓“过程”,在传统的 C 程序设计中统称为“函数”,在 Pascal 程序设计中既可以是 PROCEDURE 也可以是 FUNCTION,在 Java 等 OO 程序设计语言中就是 “方法 (method)”。所以,Java 传统的 RPC 机制称为 RMI,即“远地方法启用(RemoteMethodInvocation)”。

图片[1] - 膜拜-华为内部都在强推的 783 页大数据处理系统：Hadoop 源代码 pdf - MaxSSL

第 5 章 Hadoop 作业的提交，在计算机上启动运行一个应用,首先要把这个应用作为“作业(Job)”提交给计算机系统。

一般这是通过键入一个命令行或点击某个图标而实现的,操作很简单。但是,如果我们要考察在提交作业时系统内部的流程,那就比较复杂了。学过操作系统的人对单

机上的作业提交过程会有比较深入的了解,不过那不是本书所要关注的问题。本书所关注的是,在通常运行于计算机集群的 Hadoop 系统上,作业是怎样提交的。

第 6 章作业的调度与指派，

图片[1] - 膜拜-华为内部都在强推的 783 页大数据处理系统：Hadoop 源代码 pdf - MaxSSL

第 7 章 NodeManager 与任务投运，用户提交的作业为 ResourceManager 接受并得到调度运行之后,RM 会设法将其投入运行。但是一个作业 (Job 或 App)通常都包含着很多任务,比方说 N 个 MapTask 和 1 个 ReduceTask,所以作业的投运终究会分解成许多任务的投运。

第 8 章 MRAppMaster 与作业投运，

图片[1] - 膜拜-华为内部都在强推的 783 页大数据处理系统：Hadoop 源代码 pdf - MaxSSL

第 9 章 YARN 子系统的计算框架，Hadoop 中 YARN 子系统的使命是为用户提供大数据的计算框架。早期的 Hadoop,甚至早期的 YARN 都只提供一种计算框架,那就是 MapReduce。如前所述,MapReduce 是一种极简的,然而在很多情况下颇为有效的计算模型和框架。

但是 Hadoop 的 MapReduce 框架要求使用者提供用 Java 语言编写的 Mapper 和 Reducer,而 App 本身则虽然简单但也要求用 Java 编写,这又使有些用户感到有点不便,而且 MapReduce 这个模式也过于简单和单调。所以 Hadoop 后来有了一些新的发展,除 MapReduce 外又提供了称为 Chain 和 Stream 的计算框架。一来使用户不必非得用 Java 编程;二来更允许用户利用 Linux 上的 Utility 工具软件搭建更像“数据流”的结构。本章介绍 YARN 子系统为用户提供的计算框架,当然主要还是传统的 MapReduce 框架。

码字不易，觉得有帮助的可以帮忙点个赞+转发关注，让更多有需要的人看到又是一年求职季，在这里，我为各位准备了一套 Java 程序员精选高频面试笔试真题，来帮助大家攻下 BAT 的 offer，题目范围从初级的 Java 基础到高级的分布式架构等等一系列的面试题和答案，用于给大家作为参考。需要的私信我回复【000】即可免费获取

第 10 章 MapReduce 框架中的数据流