Spark中reduceByKey()和groupByKey()的区别(译)

Posted by AlstonWilliams on February 17, 2019

我们都知道,在Spark当中,分组操作时,提供了这么两个函数。那么,这两个方法有什么区别呢?我们应该使用哪一个呢?

我们用WordCount程序来举例。

val words = Array("one", "two", "two", "three", "three", "three")
val wordPairsRDD = sc.parallelize(words).map(word => (word, 1))

val wordCountsWithReduce = wordPairsRDD
  .reduceByKey(_ + _)
  .collect()

val wordCountsWithGroup = wordPairsRDD
  .groupByKey()
  .map(t => (t._1, t._2.sum))
  .collect()

这两种做法的结果都是正确的。

但是,在大的数据集上,reduceByKey()的效果比groupByKey()的效果更好一些。因为reduceByKey()会在shuffle之前对数据进行合并。

下面一张图就能表示reduceByKey()都做了什么。

而当我们调用reduceByKey()的时候,所有的键值对都会被shuffle到下一个stage,传输的数据比较多,自然效率低一些。

原文链接

Prefer reduceByKye() over groupByKey()