java - newFixedThreadPool 与 newSingleThreadExecutor 的性能问题

标签 java multithreading performance concurrency threadpool

我正在尝试对我们的客户端代码进行基准测试。所以我决定编写一个多线程程序来对我的客户端代码进行基准测试。我正在尝试测量下面的方法将花费多少 time (95 Percentile)-

attributes = deClient.getDEAttributes(columnsList);

下面是我编写的多线程代码,用于对上述方法进行基准测试。我在我的两个场景中看到了很多变化-

1) 首先,使用20 个线程运行 15 分钟 的多线程代码。我得到 95 个百分点作为 37ms。我正在使用-

ExecutorService service = Executors.newFixedThreadPool(20);

2) 但是如果我使用相同的程序运行 15 分钟-

ExecutorService service = Executors.newSingleThreadExecutor();

代替

ExecutorService service = Executors.newFixedThreadPool(20);

当我使用 newFixedThreadPool(20) 运行我的代码时,我得到 95 个百分点作为 7ms,这比上面的数字要小得多。

谁能告诉我出现如此高性能问题的原因是什么-

newSingleThreadExecutor 与 newFixedThreadPool(20)

通过这两种方式,我的程序都运行了 15 分钟

下面是我的代码-

public static void main(String[] args) {

    try {

        // create thread pool with given size
        //ExecutorService service = Executors.newFixedThreadPool(20);
        ExecutorService service = Executors.newSingleThreadExecutor();

        long startTime = System.currentTimeMillis();
        long endTime = startTime + (15 * 60 * 1000);//Running for 15 minutes

        for (int i = 0; i < threads; i++) {
            service.submit(new ServiceTask(endTime, serviceList));
        }

        // wait for termination        
        service.shutdown();
        service.awaitTermination(Long.MAX_VALUE, TimeUnit.DAYS);
    } catch (InterruptedException e) {

    } catch (Exception e) {

    }
}

下面是实现Runnable接口(interface)的类-

class ServiceTask implements Runnable {

    private static final Logger LOG = Logger.getLogger(ServiceTask.class.getName());
    private static Random random = new SecureRandom();

    public static volatile AtomicInteger countSize = new AtomicInteger();

    private final long endTime;
    private final LinkedHashMap<String, ServiceInfo> tableLists;

    public static ConcurrentHashMap<Long, Long> selectHistogram = new ConcurrentHashMap<Long, Long>();


    public ServiceTask(long endTime, LinkedHashMap<String, ServiceInfo> tableList) {
        this.endTime = endTime;
        this.tableLists = tableList;
    }

    @Override
    public void run() {

        try {

            while (System.currentTimeMillis() <= endTime) {

                double randomNumber = random.nextDouble() * 100.0;

                ServiceInfo service = selectRandomService(randomNumber);

                final String id = generateRandomId(random);
                final List<String> columnsList = getColumns(service.getColumns());

                List<DEAttribute<?>> attributes = null;

                DEKey bk = new DEKey(service.getKeys(), id);
                List<DEKey> list = new ArrayList<DEKey>();
                list.add(bk);

                Client deClient = new Client(list);

                final long start = System.nanoTime();

                attributes = deClient.getDEAttributes(columnsList);

                final long end = System.nanoTime() - start;
                final long key = end / 1000000L;
                boolean done = false;
                while(!done) {
                    Long oldValue = selectHistogram.putIfAbsent(key, 1L);
                    if(oldValue != null) {
                        done = selectHistogram.replace(key, oldValue, oldValue + 1);
                    } else {
                        done = true;
                    }
                }
                countSize.getAndAdd(attributes.size());

                handleDEAttribute(attributes);

                if (BEServiceLnP.sleepTime > 0L) {
                    Thread.sleep(BEServiceLnP.sleepTime);
                }
            }
        } catch (Exception e) {

        }
    }
}

更新:-

这是我的处理器规范 - 我正在 Linux 机器上运行我的程序,2 个处理器定义为:

vendor_id       : GenuineIntel
cpu family      : 6
model           : 45
model name      : Intel(R) Xeon(R) CPU E5-2670 0 @ 2.60GHz
stepping        : 7
cpu MHz         : 2599.999
cache size      : 20480 KB
fpu             : yes
fpu_exception   : yes
cpuid level     : 13
wp              : yes
flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss syscall nx rdtscp lm constant_tsc arch_perfmon pebs bts rep_good xtopology tsc_reliable nonstop_tsc aperfmperf pni pclmulqdq ssse3 cx16 sse4_1 sse4_2 popcnt aes hypervisor lahf_lm arat pln pts
bogomips        : 5199.99
clflush size    : 64
cache_alignment : 64
address sizes   : 40 bits physical, 48 bits virtual
power management:

最佳答案

Can anyone tell me what can be the reason for such high performance issues with newSingleThreadExecutor vs newFixedThreadPool(20)...

如果您并行运行的任务(在这种情况下为 20 个)多于处理器数量(我怀疑您有 20 个以上的处理器盒),那么是的,每个单独的任务将需要更长的时间才能完成。计算机一次执行一项任务比在同时运行的多个线程之间切换更容易。即使您将池中的线程数限制为您拥有的 CPU 数,每个任务的运行速度也可能会变慢,尽管速度会稍微慢一些。

但是,如果您比较不同大小的线程池的吞吐量(完成多个任务所需的时间),您应该会发现 20 个线程的吞吐量应该更高。如果您使用 20 个线程执行 1000 个任务,它们总体上会比仅使用 1 个线程快得多。每个任务可能需要更长的时间,但它们将并行执行。考虑到线程开销等,它可能不会快 20 倍,但可能快 15 倍左右。

您不应该担心单个任务的速度,而应该通过调整池中的线程数来尝试最大化任务吞吐量。使用多少线程在很大程度上取决于 IO 量、每个任务使用的 CPU 周期、锁、同步块(synchronized block)、操作系统上运行的其他应用程序以及其他因素。

人们通常使用 1-2 倍的 CPU 数量作为池中线程数量的好起点,以最大化吞吐量。更多 IO 请求或线程阻塞操作则添加更多线程。更多的 CPU 绑定(bind)然后减少线程数以更接近可用的 CPU 数。如果您的应用程序与服务器上其他更重要的应用程序竞争操作系统周期,则可能需要更少的线程。

关于java - newFixedThreadPool 与 newSingleThreadExecutor 的性能问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16125626/

相关文章:

c# - 多线程 .NET RabbitMQ 发布者

.net - DataRow线程安全吗?如何使用多个线程更新数据表中的单个数据行? -.net 2.0

javascript - 什么时候在 DOM 环境中发生回流?

performance - 为什么 JPA/Eclipselink 即使使用 BatchFetchType.IN 提示也会触发冗余数据库查询?

java - 像使用 C++ 迭代器一样使用 java 迭代器

java hibernate 实体: allow to set related object both by id and object itself

c# - C#中的并发下载/处理

java - 自定义 Textview 字体不起作用

java - 如何在监听器中正确使用 bundle (匿名内部类)

c# - 我执行的 KMP 算法有什么问题?