8.1. 当集群规模节点数达到一定数量后会存在如下问题
1:hadoop的NN存在瓶颈
2:节点之间网路连接由于节点数太多,会建立太多的连接,这种笛卡尔积的下推和连接会影响并发
8.2. 建议将机器分组
1:如每10台机器分为1组,我们称为一个联邦。
2:每个联邦内单独一个hadoop小集群
3:不同联邦内的NN,SN,DN通过域名加以区分,全局唯一
3:组合组之间通过CN与worker之间建立映射联系,同一个表跨越不同联邦存储。
采用这种方式,可以完美的解决上述问题。
建议每个联邦内的域名采用如下规则命名,便于理解
联邦一
172.24.219.191 nn.group1.luxindb.com
172.24.219.192 sn.group1.luxindb.com
172.24.219.193 dn1.group1.luxindb.com
172.24.219.194 dn2.group1.luxindb.com
联邦二
172.24.210.191 nn.group2.luxindb.com
172.24.210.192 sn.group2.luxindb.com
172.24.210.193 dn1.group2.luxindb.com
172.24.210.194 dn2.group2.luxindb.com