目录

架构图

Datanode 从节点(slave)

元数据(Metadata)

元数据信息持久化

Block


架构图

Namenode 主节点(master)

管理HDFS文件系统的命名空间,维护元数据信息, 处理客户端读写请求

Datanode 从节点(slave)

存储数据(Block),集群启动时,DataNode向NameNode汇报Block列表信息集群运行期间, 通过心跳机制定期(默认3秒) 与NameNode保持通信

元数据(Metadata)

信息存放在NameNode内存当中 包含:HDFS中文件及目录的基本属性信息(如拥有者、权限信息创建时间等)、文件有哪些block构成、 以及block的位置存放信息。

元数据信息持久化

fsimage(元数据镜像检查点文件)

edits(编辑日志文件,记录写操作)

注:block的位置信息并不会做持久化,仅仅只是在DataNode启动汇报给NameNode,存放在NameNode内存空间内

Block

• Block是HDFS的最小存储单元 • Block的大小 -默认大小:128M(HDFS 1.x中,默认64M)

-若文件大小不足128M,则会单独成为一个block -实质上就是Linux相应目录下的普通文件

-名称格式:blk_xxxxxxx

•Block和元数据分开存储,Block存储于DataNode,元数据存储于NameNode

• Block多副本 -默认副本数:3

-机架感知:将副本存储到不同的机架上,实现数据的高容错

-副本均匀分布:提高访问带宽和读取性能,实现负载均衡,避免出现数据倾斜