Hadoop(一)-HDFS
HDFS(Hadoop Distirbuted File System)hadoop分布式文件系统。 原博客地址:http://blog.csdn.net/u013963380/article/details/61616046
1.HDFS的设计理念
- 存储大文件:这里的大文件是指GB甚至TB级别的文件
- 高效的访问模式:一次写入,多次读取(流式数据访问)
- 运行在普通廉价的服务器上:能运行在普通的硬件上,即使硬件出现故障,也可以通过容错策略来保证数据的完整性
HDFS(Hadoop Distirbuted File System)hadoop分布式文件系统。 原博客地址:http://blog.csdn.net/u013963380/article/details/61616046
1.HDFS的设计理念
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

2.HDFS的基本概念
3.HDFS的实现思想
4.HDFS的基本架构
这里的rack是指机柜(包含若干台服务器)。上面的图其实并不能完全说明HDFS的工作机制,下面以往hdfs上面存放大文件为例,说明写操作的机制。
在这里,客户端将本地文件test.txt写到hdfs上(路径:hdfs://nn:9000/xudong, hadoop fs -put test.txt /xudong),首先大文件test.txt被切分成3个block(block1,block2,block3),然后分别存储到三台datanode节点上,每个block有几个备份放在其他的datanode节点上,上面只画了block1的2个备份。Namenode负责管理这些节点上的block。
5.NameNode元数据管理机制 namenode管理元数据是有自己的机制的,为了配套上面的客户端写文件到hdfs,下面举例说明NN管理上传文件的过程:
在NomeNode中元数据存储的细节: NameNode(FileName,replicas,block_ids,idhost........) /xudong/test.txt,3,{blk_1,blk_2,blk_3},blk_1:[h0,h1,h3]},{blk_2:[h1,h2,h3],{blk_3:h0,h2,h3}}
到这里,HDFS的基本知识就结束了,以后遇到更全的知识会陆续补充。