hdfs

HDFS写入操作

MacDown Screenshot

场景

有一个文件FileA，100M大小。Client将FileA写入到HDFS上。

HDFS按默认配置。

HDFS分布在三个机架上Rack1，Rack2，Rack3。

写操作流程

将 100M 文件划分为 64M 和 36M 两个block
 
将 64M 的block1按 64k 的package划分;
 
将第一个package发送给host2;
 
host2接收完后，将第一个package发送给host1，同时client向host2发送第二个package;
 
host1接收完第一个package后，发送给host3，同时接收host2发来的第二个package;
 
以此类推，如图红线实线所示，直到将block1发送完毕;
 
host2、host1、host3向NameNode发送通知，host2向Client发送通知，说“消息发送完了”。如图粉红颜色实线所示。（ack）
 
client收到host2发来的消息后，向namenode发送消息，说block1写完了。这样block1就完成了。如图黄色粗实线;
 
同样的方式向host7，host8，host4发送block2

写操作总结

写1T文件，我们需要3T的存储，3T的网络流量贷款。

在执行读或写的过程中，NameNode和DataNode通过HeartBeat进行保存通信，确定DataNode活着。如果发现DataNode死掉了，就将死掉的DataNode上的数据，放到其他节点去。读取时，要读其他节点去。

挂掉一个节点，没关系，还有其他节点可以备份；甚至，挂掉某一个机架，也没关系；其他机架上，也有备份。

HDFS读取操作

MacDown Screenshot

场景

1.client要从datanode上，读取FileA。而FileA由block1和block2组成。

读操作流程

client向namenode发送读请求；

namenode查看Metadata信息，返回fileA的block的位置。

client读取block数据，先block1,再block2

读操作总结

如果clinet位于机架上，优选读取本机架上的数据；

namenode读取的block元数据列表是按照Datanode的网络拓扑结构进行排序过的（本地节点优先，其次是同一机架节点）；

Client还维护了一个dead node列表，只要此时bock对应的Datanode列表中节点不出现在dead node列表中就会被返回，用来作为读取数据的Datanode节点。

参考文章：https://segmentfault.com/a/1190000011575458；

https://www.cnblogs.com/YDDMAX/p/6753591.html

spark基本原理

rdd1.RDD是Spark提供的核心抽象，即弹性分布式数据集（弹性指rdd可以权衡数据存储在内存或磁盘）2.RDD有分区，如一个RDD有90万数据，10个分区，每个10万数据；默认一个分区最大128M，可通过spark.files.maxPartitionBytes调节。3.每个分区都会被一个计算任务处理，并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数，如果没有指定，那么...

kafka也是现在各家互联网公司里非常常用的技术了，虽然现在我们组暂时没有用到，还是学习一手，记录下，以备不时之需。## 1.本地kafka搭建 1.安装brew 2.安装kafka：brew install kafka 配置文件位置：/usr/local/etc/kafka/server.properties /usr/local/e...

2018-10-03

@WYK

bigDataSimple