HDFS

HDFS中Datanode存在大量没有删除的Block磁盘被占满案例分析

最近发现hdfs中，有的datanode节点，磁盘发生告警，然后分析了一下。然后上网搜索了一下为什么，分析如下：查看对应datanode的数据目录，发现确实有很多的数据块（量非常大，都超过了实际hdfs中的数据块总量）这时候，猜测应该是有很多需要被删除的数据块没有被删除。猜测可能是NameNode和DataNode之间的通讯出现异常导致。于是查看NameNode和DataNode日志，发现并没有任何异常信息，只是发现NameNode定时对其中的三台机器发出了删除指令

BLOCK[i] ask 192.168.200.8:50010 to delete  blk_7080908721303033545_7530145 BLOCK[/i] ask 192.168.200.9:50010 to delete  blk_-6550808355677895247_7465333 BLOCK* ask 192.168.200.7:50010 to delete  blk_2415291932316966347_7460687

按照网上的方法，通过dfsadmin证实了，确实是有大量的block在等待删除

hadoop dfsadmin -metasave meta.txt

然后到logs目录下查看meta.txt文件结果如下：

Metasave: Blocks 572428 waiting deletion from 8 datanodes.

显示有几十万的block等待删除没有办法，只好从源码着手。在FSNameSystem.java文件里面找到了最终问题的所在：

public int computeDatanodeWork() throws IOException {
 int workFound = 0;
 int blocksToProcess = 0;
 int nodesToProcess = 0;
 // blocks should not be replicated or removed if safe mode is on
 if (isInSafeMode())
 return workFound;
 synchronized(heartbeats) {
 blocksToProcess = (int)(heartbeats.size() 
 * ReplicationMonitor.REPLICATION_WORK_MULTIPLIER_PER_ITERATION);
nodesToProcess = (int)Math.ceil((double)heartbeats.size() 
 * ReplicationMonitor.INVALIDATE_WORK_PCT_PER_ITERATION / 100);

}

 workFound = computeReplicationWork(blocksToProcess); 

 // Update FSNamesystemMetrics counters
 synchronized (this) {
 pendingReplicationBlocksCount = pendingReplications.size();
 underReplicatedBlocksCount = neededReplications.size();
 scheduledReplicationBlocksCount = workFound;
 corruptReplicaBlocksCount = corruptReplicas.size();
}

workFound += computeInvalidateWork(nodesToProcess);

 return workFound;
}

computeInvalidateWork就是用于计算这次需要删除的数据块。但是并不是每次都把所有的节点都处理一遍，而是每次只处理nodesToProcess个节点，而这个数量决定于datanode的总数(heartbeats.size，我这儿是8)和一个系数(INVALIDATE_WORK_PCT_PER_ITERATION，写死的32)。也就是说每次只处理 8*32% = 3(这就解释了为啥每次只删除三台数据节点上的数据块。) 再查看节点选择部分：

……
 private Map> recentInvalidateSets = 
 new TreeMap>();

……
String firstNodeId = recentInvalidateSets.keySet().iterator().next();

……

发现是通过iterator遍历的，然后悲剧的发现recentInvalidateSets用的是TreeMap，也就是说是有序的…… 所以只要这三个节点有数据需要删除，就不会删除到其他节点这时候，发现这个问题是调整的时候，修改了一个配置项（dfs.replication.interval，默认是3秒，我修改成了30秒）导致的，当时修改的初衷是防止过早出现数据块复制。但是修改这个配置项以后，数据块副本数检查的间隔拉长了，导致30秒内，有几台机器一直有数据块需要删除，从而无法删除其他节点上的数据块，最终导致磁盘空间无法释放。因为INVALIDATE_WORK_PCT_PER_ITERATION是系统写死的，所以只能通过把dfs.replication.interval改回来，暂时解决这个问题。

0

2015-09-09

0 个评论

要回复文章请先登录或注册

HDFS中Datanode存在大量没有删除的Block磁盘被占满案例分析

0 个评论

发起人

推荐内容

OpenSkill 专业的开源技术学习问答平台

HDFS中Datanode存在大量没有删除的Block磁盘被占满案例分析

0 个评论

发起人

推荐内容

相关问题

OpenSkill 专业的开源技术学习问答平台