【<a target="_blank" href="https://www.huoban.com/news/tags-644.html"style="font-weight:bold;">Spark</a>API <a target="_blank" href="https://www.huoban.com/news/tags-231.html"style="font-weight:bold;">Java</a>版】JavaPairRDD—

【SparkAPI Java版】JavaPairRDD——aggregateByKey（二）

网友投稿 858 2025-04-01

Aggregate the values of each key, using given combine functions and a neutral "zero value". This function can return a different result type, U, than the type of the values in this RDD, V. Thus, we need one operation for merging a V into a U and one operation for merging two U's. The former operation is used for merging values within a partition, and the latter is used for merging values between partitions. To avoid memory allocation, both of these functions are allowed to modify and return their first argument instead of creating a new U. Parameters: zeroValue - (undocumented) seqFunc - (undocumented) combFunc - (undocumented) Returns: (undocumented)

aggregateByKey函数对PairRDD中相同Key的值进行聚合操作，在聚合过程中同样使用了一个中立的初始值。和aggregate函数类似，aggregateByKey返回值的类型不需要和RDD中value的类型一致。因为aggregateByKey是对相同Key中的值进行聚合操作，所以aggregateByKey函数最终返回的类型还是Pair RDD，对应的结果是Key和聚合好的值；而aggregate函数直接是返回非RDD的结果，这点需要注意。在实现过程中，定义了三个aggregateByKey函数原型，但最终调用的aggregateByKey函数都一致。

// Scala def aggregateByKey[U: ClassTag](zeroValue: U, partitioner: Partitioner) 　　　　(seqOp: (U, V) => U, combOp: (U, U) => U): RDD[(K, U)] def aggregateByKey[U: ClassTag](zeroValue: U, numPartitions: Int) 　　　　(seqOp: (U, V) => U, combOp: (U, U) => U): RDD[(K, U)] def aggregateByKey[U: ClassTag](zeroValue: U) 　　　　(seqOp: (U, V) => U, combOp: (U, U) => U): RDD[(K, U)] // java public JavaPairRDD aggregateByKey(U zeroValue, Partitioner partitioner, Function2 seqFunc, Function2 combFunc) public JavaPairRDD aggregateByKey(U zeroValue, int numPartitions, Function2 seqFunc, Function2 combFunc) public JavaPairRDD aggregateByKey(U zeroValue, Function2 seqFunc, Function2 combFunc)

【SparkAPI JAVA版】JavaPairRDD——aggregateByKey（二）

第一个aggregateByKey函数我们可以自定义Partitioner。除了这个参数之外，其函数声明和aggregate很类似；其他的aggregateByKey函数实现最终都是调用这个。

第二个aggregateByKey函数可以设置分区的个数(numPartitions)，最终用的是HashPartitioner。

最后一个aggregateByKey实现先会判断当前RDD是否定义了分区函数，如果定义了则用当前RDD的分区；如果当前RDD并未定义分区，则使用HashPartitioner。

public class AggregateByKey { public static void main(String[] args) { System.setProperty("hadoop.home.dir","F:\\hadoop-2.7.1"); SparkConf conf = new SparkConf().setMaster("local").setAppName("TestSpark"); JavaSparkContext sc = new JavaSparkContext(conf); JavaPairRDD javaPairRDD = sc.parallelizePairs(Lists.>newArrayList( new Tuple2("cat",3), new Tuple2("dog",33), new Tuple2("cat",16), new Tuple2("tiger",66)), 2); // 打印样例数据 javaPairRDD.foreach(new VoidFunction>() { public void call(Tuple2 stringIntegerTuple2) throws Exception { System.out.println("样例数据>>>>>>>" + stringIntegerTuple2); } }); JavaPairRDD javaPairRDD1 = javaPairRDD.aggregateByKey(14, new Function2() { public Integer call(Integer v1, Integer v2) throws Exception { System.out.println("seqOp>>>>> 参数One："+v1+"--参数Two:"+v2); return Math.max(v1,v2); } }, new Function2() { public Integer call(Integer v1, Integer v2) throws Exception { System.out.println("combOp>>>>> 参数One："+v1+"--参数Two:"+v2); return v1+v2; } }); // 打印结果数据 javaPairRDD1.foreach(new VoidFunction>() { public void call(Tuple2 stringIntegerTuple2) throws Exception { System.out.println("结果数据>>>>>>>" + stringIntegerTuple2); } }); } }

// 打印样例数据这里的分区是两个其中分区内都有一个相同key值 19/03/03 22:16:07 INFO Executor: Running task 0.0 in stage 0.0 (TID 0) 样例数据>>>>>>>(cat,3) 样例数据>>>>>>>(dog,33) 19/03/03 22:16:07 INFO Executor: Running task 1.0 in stage 0.0 (TID 1) 样例数据>>>>>>>(cat,16) 样例数据>>>>>>>(tiger,66) 19/03/03 22:16:07 INFO Executor: Running task 0.0 in stage 1.0 (TID 2) // 第一个分区比较大小 14 3 => 14（cat）， 14 33 => 33（dog） seqOp>>>>> 参数One：14--参数Two:3 seqOp>>>>> 参数One：14--参数Two:33 19/03/03 22:16:08 INFO ShuffleBlockFetcherIterator: Started 0 remote fetches in 4 ms 19/03/03 22:16:07 INFO TaskSetManager: Finished task 0.0 in stage 1.0 (TID 2) in 76 ms on localhost (executor driver) (1/2) // 第二个分区比较 14 16 => 16（cat） ,14 66 => 66（tiger） seqOp>>>>> 参数One：14--参数Two:16 seqOp>>>>> 参数One：14--参数Two:66 19/03/03 22:16:08 INFO ShuffleBlockFetcherIterator: Started 0 remote fetches in 4 ms // 这个就是combOp阶段在不同分区内相同key的值做聚合操作也就是（cat）14 + （cat）16 = 30 combOp>>>>> 参数One：14--参数Two:16 // 最后结果结果数据>>>>>>>(dog,33) 结果数据>>>>>>>(cat,30) 19/03/03 22:16:08 INFO ShuffleBlockFetcherIterator: Started 0 remote fetches in 0 ms 结果数据>>>>>>>(tiger,66)

一定要记住： combOp 是聚合的不同分区相同key的值

从上述过程中，我们就能明白流程是什么了。

seqOp

开始我们的数据是：

分片1：(cat,3) (dog,33)

分片2：(cat,16) (tiger,66)

// 这里只有两个分片所以写两个过程第一个分片开始seqOp过程： 14（zeroValue）和 3（cat）比较 = 14（结果1）， 14（zeroValue）和 33（dog）比较 = 14（结果2）第二个分片开始元素聚合过程： 14（zeroValue）和 16（cat）比较 = 14（结果3）， 14（zeroValue）和 66（tiger）比较 = 14（结果4）

combOp（不同分区相同key值）

开始分片combOp过程：cat在不同分区有相同key值结果1 + 结果3 = 30（结果5）最终得到的结果2 ，结果4，结果5 结果数据>>>>>>>(dog,33) 结果数据>>>>>>>(cat,30) 结果数据>>>>>>>(tiger,66)

如果有什么不明白的评论留言即可。

EI企业智能 Java spark 可信智能计算服务 TICS 智能数据

Java的面向对象编程">Java的面向对象编程

858 2025-04-01

一个 Java class">我是一个 Java class

858 2025-04-01

util.Random和concurrent.ThreadLocalRandom对比">java.util.Random和concurrent.ThreadLocalRandom对比

858 2025-04-01

【SparkAPI Java版】JavaPairRDD——aggregateByKey（二）

Java的面向对象编程">Java的面向对象编程

一个 Java class">我是一个 Java class

util.Random和concurrent.ThreadLocalRandom对比">java.util.Random和concurrent.ThreadLocalRandom对比

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

定制订单管理系统（为特定需求定制的订单管理系统）

什么是在线文档？怎么发在线文档

友情链接

【SparkAPI Java版】JavaPairRDD——aggregateByKey（二）

Java的面向对象编程">Java的面向对象编程

一个Java class">我是一个Java class

util.Random和concurrent.ThreadLocalRandom对比">java.util.Random和concurrent.ThreadLocalRandom对比

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

友情链接

一个 Java class">我是一个 Java class