Spark repartition导致磁盘被写满

Posted by AlstonWilliams on June 9, 2019

在客户环境跑数据的时候,老是发现数据量稍大的时候,会把磁盘空间跑满,进一步导致任务失败。

而观察下来,发现是在repartition的时候,出现的问题。repartition的shuffle read是100G,shuffle write是400G。

回想起以前写的Spark架构-Shuffle(译) 这篇文章,shuffle的时候会写磁盘,所以猜到是这儿的原因。

于是把repartition操作去掉,直接写Hive,就没有问题了.