为了解决这个问题,我创建了一个开源 Java Thread Affinity library
当我有多个线程密切交互时,它可以减少延迟并提高吞吐量。对于单线程任务,它仍然可以减少相当多的抖动。
此程序查看调用 System.nanoTime()
之间的时间差异并报告超过 10x,000 ns 的时间差异。
public class TimeJumpingMain {
static final long IGNORE_TIME = 1000 * 1000 * 1000; // the first second to allow warmup.
static final int minJump = 10; // smallest jump of 10 us.
static final int midJump = 100; // mid size jump of 100 us.
static final int bigJump = 1000; // big jump of 1 ms.
public static void main(String... args) {
int[] intervalTimings = new int[1000];
int[] jumpTimings = new int[1000];
long start = System.nanoTime();
long prev = start;
long prevJump = start;
int jumpCount = 0;
int midJumpCount = 0;
int bigJumpCount = 0;
while (true) {
long now = System.nanoTime();
long jump = (now - prev) / 1000;
if (jump > minJump && now - start > IGNORE_TIME) {
long interval = (now - prevJump) / 1000;
if (jumpCount < intervalTimings.length) {
intervalTimings[jumpCount] = (int) interval;
jumpTimings[jumpCount] = (int) jump;
}
if (jump >= midJump)
midJumpCount++;
if (jump >= bigJump)
bigJumpCount++;
prevJump = now;
jumpCount++;
}
prev = now;
if (now - start > 120L * 1000 * 1000 * 1000 + IGNORE_TIME)
break;
}
System.out.println("interval us\tdelay us");
for (int i = 0; i < jumpCount && i < intervalTimings.length; i++) {
System.out.println(intervalTimings[i] + "\t" + jumpTimings[i]);
}
System.out.printf("Time jumped %,d / %,d / %,d times by at least %,d / %,d / %,d us in %.1f seconds %n",
jumpCount, midJumpCount, bigJumpCount, minJump, midJump, bigJump, (System.nanoTime() - start - IGNORE_TIME) / 1e9);
}
}
在我的机器上报告
Time jumped 2,905 / 131 / 20 times by at least 10 / 100 / 1,000 us in 120.0 seconds
我已经尝试 chrt
设置实时优先级和 taskset
尝试在启动进程后锁定到单个核心,但这些并没有像我预期的那样有帮助。
我将该框配置为将所有中断移动到 cpu 0-3,并将所有进程的 cpu 掩码从 0xFF 移动到 0x0F。在 top
中,前四个 cpu 大约是 99% 空闲,最后四个 cpu 是 100.0% 空闲。
使用 chrt -r 99
作为根
Time jumped 673 / 378 / 44 times by at least 10 / 100 / 1,000 us in 120.0 seconds
但是,当单独使用 taskset -c 7
时(我已经确定 cpu7 是免费的)
Time jumped 24 / 1 / 0 times by at least 10 / 100 / 1,000 us in 120.0 seconds
使用chrt -r 99 taskset -c 7
Time jumped 7 / 1 / 0 times by at least 10 / 100 / 1,000 us in 120.0 seconds
似乎在进程开始后尝试使用任务集对我不起作用。
更广泛的问题是;
如何减少 Java 进程的抖动?还有其他减少 Linux 抖动的技巧吗?
注意:此进程运行期间不会发生 GC(使用 -verbosegc 检查)
似乎代码编译在 100 - 102 ms 之后每次可能会导致 3.62 ms 的延迟。出于这个原因,我忽略了第一秒的所有内容作为热身。
最佳答案
有系统抖动和 JVM 抖动。
对于前者,您可以在启动时使用 isolcpus 参数来确保只有您的应用程序代码可以在这些 cpus 上运行
http://www.novell.com/support/viewContent.do?externalId=7009596&sliceId=1
理想情况下,您应该只为 Activity 线程执行一个 jni 调用(对您自己的 jni 库)到 sched_setaffinity
,这样您就真的只有在那里运行的线程。
根据我的经验,系统抖动可以通过使用 isolcpus 最小化,中断仅由特定内核处理,关闭超线程,并且绝对删除所有使用的电源管理(这些是 bios 选项,当它们可用于关闭所有c-state 和 p-state 管理),同时在屏蔽核心上运行您的应用程序。 BIOS 特定选项显然特定于您的主板,因此您需要根据您的主板型号进行调查。
另一个看系统级的是本地 APIC 中断(LOC,本地中断计数器)频率。这是使用 1kHz 中断的“低延迟桌面”吗?无论哪种方式,您都可以预期抖动会在中断间隔周围聚集
还有 2 个我几乎一无所知,但我知道这是抖动的来源;内核 tlb 刷新中断和用户空间 tlb 刷新中断。一些 RT 内核提供了控制这些选项的选项,因此这可能是另一回事。也可以看看this site有关在 RT 内核上构建 RT 应用程序的更多提示。
关于java - 如何减少 Java 的抖动?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8140407/