时代Java，与您同行！关注微信公众号，关注前沿技术，微信搜索：nowjava或时代Java，也可点击这里扫码关注

时代Java

京东自营 + 国补 iPhone 历史最低价国家补贴享8折

JDK24 革命性特性 Stream Gatherers：让数据流处理更智能、更简洁

欢马劈雪

工程师 (已认证)

原创分享签约作者

发表于教程文章

657

一、Stream Gatherers 是什么？

Stream Gatherers 是 JDK 24 引入的一个强大新特性，它扩展了 Java Stream API 的能力，让我们能够更灵活地处理数据流。如果将传统的 Stream API 比作工厂生产线上的基础工序，如筛选、映射等，那么 Gatherers 就像是更复杂、智能的工序。它不仅可以记住之前处理过的元素，还能根据一个输入元素产生多个或零个输出元素，彻底突破传统 Stream 的局限性。

在传统的 Stream API 中，像map、filter、reduce这些操作虽然已经非常强大且常用，但在面对某些复杂场景时，仍然存在一定的局限性。例如，当我们需要处理滑动窗口数据，计算一段时间内的移动平均值，或者需要根据数据的前后状态进行关联处理时，使用传统的 Stream API 实现起来会比较复杂，代码量也会大幅增加，可读性和维护性都会受到影响。而 Stream Gatherers 正是为了解决这些复杂场景下的处理难题而诞生的。它允许开发者在数据流处理过程中维护状态，并根据单个元素生成零个、一个或多个输出，使得原本复杂的滑动窗口、状态依赖计算等场景变得轻松易实现。

二、核心特性深度解析

2.1 有状态操作：记忆数据历史

在传统的 Stream API 中，像map和filter这样的操作都是无状态的。这意味着它们在处理每个元素时，不会考虑之前处理过的元素的任何信息。例如，当我们使用map将一个整数列表中的每个元素都乘以 2 时：

List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5);

List<Integer> doubled = numbers.stream()

                              .map(n -> n \* 2)

                              .collect(Collectors.toList());

每个元素的处理都是独立的，map操作并不关心它之前处理的是哪个元素。同样，filter操作在判断一个元素是否应该被保留时，也不会参考之前元素的情况。

而 Stream Gatherers 的有状态操作则打破了这种限制。它可以在处理元素的过程中维护状态，记住之前处理过的元素，从而让前面元素的处理结果影响后续元素的处理方式。例如，在实时数据聚合场景中，我们可能需要计算一个滑动窗口内数据的总和。假设我们有一个股票价格的数据流，每秒钟会收到一个新的价格数据，我们希望每 3 秒计算一次这 3 秒内股票价格的平均值，以观察股票价格的短期波动情况。使用 Stream Gatherers，我们可以轻松实现这个功能：

List<Double> stockPrices = Arrays.asList(100.0, 102.0, 105.0, 103.0, 107.0, 104.0);

List<Double> windowAverages = stockPrices.stream()

                                        .gather(Gatherers.windowSliding(3))

                                        .map(window -> window.stream()

                                                             .mapToDouble(Double::doubleValue)

                                                             .average()

                                                             .orElse(0.0))

                                        .collect(Collectors.toList());

在这个例子中，windowSliding(3)创建了一个大小为 3 的滑动窗口，它会记住之前处理过的两个元素，当新的元素到来时，它会根据这三个元素计算平均值。这种有状态的操作在处理需要前后数据关联的场景时，显得尤为强大。

2.2 输入输出不对等：1 个元素生成多个结果

传统的 Stream API 操作中，像map这样的转换操作遵循严格的一对一关系，即一个输入元素只能产生一个输出元素。例如，当我们使用map将字符串列表中的每个字符串转换为它的长度时：

List<String> words = Arrays.asList("apple", "banana", "cherry");

List<Integer> lengths = words.stream()

                            .map(String::length)

                            .collect(Collectors.toList());

每个字符串都对应一个长度值，不会出现一个字符串生成多个长度值，或者不生成任何长度值的情况。

而 Stream Gatherers 则突破了这种限制，它支持一个输入元素产生零个、一个或多个输出元素。例如，在数据分块场景中，我们可能需要将一个大的数据集合按照一定的规则分成多个小块。假设我们有一个整数列表，我们希望将它每 3 个元素分成一组：

List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10);

List<List<Integer>> chunks = numbers.stream()

                                    .gather(Gatherers.chunking(3))

                                    .collect(Collectors.toList());

在这个例子中，chunking(3)会将输入的整数流按照每 3 个元素一组进行分块，最后一组可能不足 3 个元素。这样，一个输入元素（这里是整数流中的每个整数）在经过chunking(3)操作后，会成为某个分组中的一部分，从而实现了一个输入元素对应多个输出元素（分组后的列表）的效果。同样，在事件分割场景中，如果我们有一个包含多个事件的日志流，每个事件可能由多个日志行组成，我们可以使用 Stream Gatherers 将这些日志行分割成独立的事件，一个日志行（输入元素）可能会参与生成一个事件（输出元素），也可能因为它只是事件的一部分而不单独生成输出。

2.3 与现有 API 无缝集成

Stream Gatherers 设计的一个重要目标就是与现有的 Java Stream API 能够无缝集成，这使得开发者在使用时可以充分利用已有的知识和经验，同时又能享受到 Gatherers 带来的强大功能。它可以与map、filter、reduce等传统操作自由组合，形成更强大的数据处理流水线。例如，我们可以先使用filter过滤掉一些不符合条件的元素，然后再使用 Stream Gatherers 进行复杂的状态维护和转换操作，最后再使用map进行最后的结果转换：

List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10);

List<Double> result = numbers.stream()

                            .filter(n -> n > 5)

                            .gather(Gatherers.windowSliding(2))

                            .map(window -> window.stream()

                                                 .mapToDouble(Double::doubleValue)

                                                 .average()

                                                 .orElse(0.0))

                            .collect(Collectors.toList());

在这个例子中，首先使用filter过滤掉小于等于 5 的元素，然后使用windowSliding(2)对剩下的元素进行滑动窗口操作，最后对每个窗口计算平均值。通过这种方式，我们可以将传统 Stream API 的简单操作和 Stream Gatherers 的复杂操作有机结合起来，实现更灵活的数据处理逻辑。

此外，Stream Gatherers 还提供了一些内置方法来增强流水线的处理能力，同时也支持开发者通过自定义逻辑来实现特定的转换操作。例如，distinctConsecutive()方法可以去除流中连续重复的元素，这在处理一些需要去重的数据时非常有用：

List<String> words = Arrays.asList("apple", "apple", "banana", "banana", "apple");

List<String> distinct = words.stream()

                            .gather(Gatherers.distinctConsecutive())

                            .collect(Collectors.toList());

如果内置方法无法满足需求，开发者还可以创建自定义的 Gatherer。通过实现Gatherer接口的方法，我们可以定义自己的状态维护和元素转换逻辑，从而实现高度定制化的数据处理。

三、代码示例实战

3.1 滑动窗口平均值计算

在数据分析领域，滑动窗口平均值计算是一个非常常见的操作。例如，在股票市场中，我们需要计算股票价格在一定时间窗口内的平均价格，以此来分析股票价格的短期趋势。假设我们有一个包含股票每日收盘价的列表，现在我们要计算每 3 天的平均收盘价，代码实现如下：

import java.util.List;

import java.util.stream.Gatherers;

public class SlidingWindowExample {

   public static void main(String\[] args) {

       // 假设这是股票每日收盘价

       List<Double> stockPrices = List.of(100.0, 102.0, 105.0, 103.0, 107.0, 104.0);

       // 计算大小为3的滑动窗口的平均值

       List<Double> averages = stockPrices.stream()

              .gather(Gatherers.windowSliding(3))

              .map(window -> window.stream()

                    .mapToDouble(Double::doubleValue)

                    .average()

                    .orElse(0.0))

              .collect(Collectors.toList());

       System.out.println("滑动窗口平均值: " + averages);

   }

}

在这段代码中，Gatherers.windowSliding(3)创建了一个大小为 3 的滑动窗口。它会依次将流中的元素按 3 个一组进行分组，例如，首先是[100.0, 102.0, 105.0]，然后是[102.0, 105.0, 103.0]，以此类推。对于每个窗口，我们通过map操作将其转换为一个新的流，再使用mapToDouble将其中的元素转换为双精度浮点数，然后调用average方法计算平均值，orElse(0.0)用于处理窗口为空的情况（在实际场景中一般不会出现，但为了代码的健壮性保留）。最后，通过collect操作将所有窗口的平均值收集到一个列表中并输出。

3.2 去除连续重复元素

在文本处理、数据清洗等场景中，我们经常需要去除数据中的重复元素。而Stream Gatherers提供的distinctConsecutive方法可以非常方便地去除流中连续重复的元素。例如，在一个日志系统中，可能会出现连续的重复日志记录，我们可以使用这个方法来简化日志显示，只保留不同的日志内容。以下是代码示例：

import java.util.List;

import java.util.stream.Gatherers;

public class DistinctConsecutiveExample {

   public static void main(String\[] args) {

       // 假设这是日志内容列表

       List<String> logs = List.of("INFO: System started", "INFO: System started", "WARN: Resource shortage", "WARN: Resource shortage", "INFO: System stopped");

       // 去除连续重复的日志内容

       List<String> distinctLogs = logs.stream()

              .gather(Gatherers.distinctConsecutive())

              .collect(Collectors.toList());

       System.out.println("原始日志列表: " + logs);

       System.out.println("去除连续重复后的日志列表: " + distinctLogs);

   }

}

在上述代码中，Gatherers.distinctConsecutive()方法会遍历日志流，当遇到连续重复的日志内容时，只保留第一个，从而得到一个去除了连续重复元素的新流。最后通过collect操作将这个新流收集为列表并输出。需要注意的是，这个方法与传统的distinct()方法不同，distinct()方法会去除整个流中所有重复的元素，而不只是连续重复的元素。例如，如果列表中"INFO: System started"在不同位置出现，distinct()会将所有重复的都去除，而distinctConsecutive只会去除相邻的重复部分。

3.3 自定义分组收集

在实际开发中，我们经常会遇到需要根据特定规则对数据进行分组的需求。虽然 Java Stream API 本身提供了一些分组方法，但对于一些复杂的分组逻辑，Stream Gatherers的自定义 Gatherer 功能可以让我们更灵活地实现。比如，我们有一个订单列表，每个订单包含订单金额和订单时间，现在我们希望按照订单金额的范围（例如，0 - 100 元为一组，101 - 200 元为一组，以此类推）对订单进行分组，代码实现如下：

展开阅读全文

本文系作者在时代Java发表，未经许可，不得转载。

如有侵权，请联系nowjava@qq.com删除。

编辑于 2025-04-16 22:13:532025-04-16 22:13:53

教程文章

文章订阅