假设我有这样的东西:
Stream<Integer> stream = Stream.of(2,1,3,5,6,7,9,11,10)
.distinct()
.sorted();
distinct()
和 sorted()
的 javadoc 都说它们是“有状态的中间操作”。这是否意味着流在内部会做一些事情,比如创建一个哈希集,添加所有流值,然后看到 sorted()
会将这些值放入排序列表或排序集中?还是比这更聪明?
换句话说,是 .distinct().sorted()
导致 java 遍历流两次还是 java 延迟直到执行终端操作(例如 .collect
)?
最佳答案
您问了一个意味深长的问题,暗示必须在两个备选方案之间做出选择。
有状态的中间操作必须存储数据,在某些情况下,直到能够将元素传递到下游之前存储所有元素,但这并不会改变这个工作被推迟到终端操作已经完成的事实已经开始。
说它必须“遍历流两次”也是不正确的。正在进行完全不同的遍历,例如在 sorted()
的情况下,首先,遍历将要排序的内部缓冲区中填充的源,其次,遍历缓冲区。对于distinct()
,在顺序处理中没有二次遍历,内部的HashSet
只是用来判断是否向下游传递一个元素。
所以当你运行的时候
Stream<Integer> stream = Stream.of(2,1,3,5,3)
.peek(i -> System.out.println("source: "+i))
.distinct()
.peek(i -> System.out.println("distinct: "+i))
.sorted()
.peek(i -> System.out.println("sorted: "+i));
System.out.println("commencing terminal operation");
stream.forEachOrdered(i -> System.out.println("terminal: "+i));
它打印
commencing terminal operation
source: 2
distinct: 2
source: 1
distinct: 1
source: 3
distinct: 3
source: 5
distinct: 5
source: 3
sorted: 1
terminal: 1
sorted: 2
terminal: 2
sorted: 3
terminal: 3
sorted: 5
terminal: 5
显示在终端操作开始之前没有发生任何事情,并且来自源的元素立即通过 distinct()
操作(除非是重复的),而所有元素都缓冲在 中sorted()
在传递到下游之前的操作。
可以进一步证明distinct()
不需要遍历整个流:
Stream.of(2,1,1,3,5,6,7,9,2,1,3,5,11,10)
.peek(i -> System.out.println("source: "+i))
.distinct()
.peek(i -> System.out.println("distinct: "+i))
.filter(i -> i>2)
.findFirst().ifPresent(i -> System.out.println("found: "+i));
打印
source: 2
distinct: 2
source: 1
distinct: 1
source: 1
source: 3
distinct: 3
found: 3
如 Jose Da Silva’s answer 所解释和演示的那样,缓冲量可能会随着有序并行流的变化而变化,因为部分结果在传递给下游操作之前必须进行调整。
由于这些操作在实际终端操作已知之前不会发生,因此与 OpenJDK 中目前发生的优化相比,可能有更多的优化(但可能会在不同的实现或 future 版本中发生)。例如。 sorted().toArray()
可以使用并返回相同的数组,或者 sorted().findFirst()
可以变成一个 min()
等
关于java - sorted 和 distinct 会立即处理流吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49289094/