groovy - 使用 --indy 执行冒泡排序慢 5 倍

标签 groovy java-8 jruby invokedynamic

我写了一个冒泡排序的实现来玩玩 Groovy,看看是否 --indy对性能有任何显着影响。

本质上,它将一千个随机整数的列表排序一千次,并测量排序列表的平均执行时间。

列表中有一半是 Integer[] ,另一半是ArrayList<Integer> .

结果真的让我很困惑:

$ groovyc BubbleSort.groovy
$ time java -cp ~/.gvm/groovy/current/embeddable/groovy-all-2.4.3.jar:. BubbleSort
Average: 22.926ms
Min: 11.202ms
[...] 26.48s user 0.84s system 109% cpu 25.033 total

$ groovyc --indy BubbleSort.groovy
$ time java -cp ~/.gvm/groovy/current/embeddable/groovy-all-2.4.3-indy.jar:. BubbleSort
Average: 119.766ms
Min: 68.251ms
[...] 166.05s user 1.52s system 135% cpu 2:03.82 total

查看运行基准测试时的 CPU 使用率,使用 --indy 编译时 CPU 使用率要高很多。比没有。

Cpu Usage

这引起了我的兴趣,所以我再次运行了基准测试 - 但这次启用了 Yourkit 代理和 CPU 跟踪。以下是记录的调用树:

--indy :
Call tree without <code>--indy</code>

--indy :
Call tree with <code>--indy</code>

这是性能图表 - 请注意,时间尺度不同,因为 --indy代码太慢了。

--indy (1 秒规模):
Performance without <code>--indy</code>

--indy (60 年代规模):
Performance with <code>--indy</code>

可以看出,在没有 --indy 的情况下编译时,CPU 使用率稳定在一个核心的 100%(图中为 12.5%)。但是当使用 --indy 编译时,在 12.5% 到 ~35% 之间变化很大。 .更令人困惑的是,Yourkit 只报告一个事件线程(而我的代码只使用主线程),但它仍然设法保持两个半内核被占用。

--indy 编译的代码在开始时也使用了大量内核时间,尽管这会在一段时间后下降并稳定在 0% - 此时代码似乎有点加速(堆使用增长率增加)并且 CPU 使用率增加。

谁能向我解释这种行为?

版本:
$ groovy -v
Groovy Version: 2.4.3 JVM: 1.8.0_45 Vendor: Oracle Corporation OS: Linux

$ java -version
java version "1.8.0_45"
Java(TM) SE Runtime Environment (build 1.8.0_45-b14)
Java HotSpot(TM) 64-Bit Server VM (build 25.45-b02, mixed mode)

BubbleSort.groovy:
class BubbleSort {
    final def array

    BubbleSort(final def array) {
        this.array = array
    }

    private void swap(int a, int b) {
        def tmp = array[a];
        array[a] = array[b]
        array[b] = tmp;
    }

    private void rise(int index) {
        for(int i = index; i > 0; i--) {
            if(array[i] < array[i - 1]) {
                swap(i, i-1)
            } else {
                break
            }
        }
    }

    void sort() {
        for(int i = 1; i < array.size(); i++) {
            rise i
        }
    }

    final static Random random = new Random()

    static void main(String[] args) {
        def n = 1000
        def size = 1000
        // Warm up
        doBenchmark 100, size
        def results = doBenchmark n, size
        printf("Average: %.3fms%n", results.total / 1e6 / n)
        printf("Min: %.3fms%n", results.min / 1e6)
    }

    private static def doBenchmark(int n, int size) {
        long total = 0
        long min = Long.MAX_VALUE
        n.times {
            def array = (1..size).collect { random.nextInt() }
            if(it % 2) {
                array = array as Integer[]
            }
            def start = System.nanoTime()
            new BubbleSort<Integer>(array).sort()
            def end = System.nanoTime()
            def time = end - start
            total += time
            min = Math.min min, time
        }
        return [total: total, min: min]
    }
}

我对冒泡排序实现的优化不感兴趣,除非它们与 invokedynamic 有关。行为 - 此处的目标不是编写性能最佳的冒泡排序,而是了解原因 --indy有如此大的负面性能影响。

更新:

我将我的代码转换为 JRuby 并尝试了同样的事情,结果是相似的,尽管没有 invokedynamic,JRuby 几乎没有那么快。 :
$ JAVA_OPTS="-Djruby.compile.invokedynamic=false" jruby bubblesort.rb
Average: 78.714ms
Min: 35.000ms

$ JAVA_OPTS="-Djruby.compile.invokedynamic=true" jruby bubblesort.rb
Average: 136.287ms
Min: 92.000ms

更新 2:

如果我删除将列表更改为 Integer[] 的代码一半的时间性能显着提高,尽管没有 --indy 仍然更快:
$ groovyc BubbleSort.groovy
$ java -cp ~/.gvm/groovy/current/embeddable/groovy-all-2.4.3.jar:. BubbleSort
Average: 29.794ms
Min: 26.577ms

$ groovyc --indy BubbleSort.groovy
$ java -cp ~/.gvm/groovy/current/embeddable/groovy-all-2.4.3-indy.jar:. BubbleSort
Average: 37.506ms
Min: 33.555ms

如果我用 JRuby 做同样的事情,invokedynamic是比较快的:
$ JAVA_OPTS="-Djruby.compile.invokedynamic=false" jruby bubblesort.rb
Average: 34.388ms
Min: 31.000ms

$ JAVA_OPTS="-Djruby.compile.invokedynamic=true" jruby bubblesort.rb
Average: 20.785ms
Min: 18.000ms

最佳答案

答案很简单,其实很简单,Groovy 还没有 PIC。

...或者您可以说我们通常有一个大小为 1 的内联缓存。这意味着每次更改列表数组类型时,它都会使之前确实存在的所有缓存无效,并且缓存版本将被丢弃。这对于普通 Groovy 来说与 indy 几乎相同,只是普通 Groovy 使用运行时生成的类,而 indy 使用调用动态/lambda 形式。但是 lambda 形式最初较慢,而峰值性能更好。基本上你所做的是让热点从头开始对大多数方法调用,防止它一直应用优化。当然,这不是你的错,而是 Groovy 没有 PIC 的错。只是为了说明这一点......这不是语言的问题,它只是我还没有实现的东西。

另一方面,JRuby 有一个 PIC,因此不必一直遭受创建新方法句柄的开销。

关于groovy - 使用 --indy 执行冒泡排序慢 5 倍,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29812958/

相关文章:

groovy - 使用 stanford nlp 查找日期及其在字符串中的位置

java - 使用 jackson java 将 JSON 转换为 POJO 作为对象类

java - 限制和无序流的内部变化

java - JRuby 中的双括号初始化

ruby - 如何在 JRuby 中包含类依赖 jar?

jenkins - 如果阶段设置构建失败/不稳定状态,如何退出 Jenkins 管道?

java - 如何修复 groovy.lang.MissingMethodException : No signature of method

java - 如何为数据集描述创建 spock 风格的 DSL?

java - 使用 java 8 流生成一个 N 个字符长的虚拟字符串

java.lang.OutOfMemoryError : Java heap space 错误