java - 查询包含集合(集合)的大行时,Cassandra 出现内存不足错误

标签 java cassandra out-of-memory datastax cql3

我正在使用 Cassandra 2.0.8,我有一个定义如下的 cql3 表:

CREATE TABLE search_scf_tdr (
  fieldname text,
  fieldvalue text,
  scalability int,
  timestamptdr bigint,
  tdrkeys set<blob>,
  PRIMARY KEY ((fieldname, fieldvalue, scalability), timestamptdr)
)

我为此 key 空间使用每个 DC 2 的复制因子。 我通过使用这样的更新将项目一个一个地添加到 tdrkeys 集合中来插入此表:

UPDATE search_scf_tdr SET tdrkeys = tdrkeys + "new value" WHERE "all primary key fields";

tdrkeys中的每个元素是 84 字节(固定大小)。

在该表中查询时,我使用查询一次检索大约 160 行(使用 timestamptdrscalability 的范围以及 fieldnamefieldvalue 的固定值)。 tdrkeys 中的行包含数千个元素 Collection 。

我有一个由 42 个节点组成的集群,分为两个数据中心。 我有单独的服务器使用 datastax java 驱动程序 2.0.9.2 在每个数据中心运行总共 24 个线程调用此查询(在每个查询之间对结果做很多其他事情),一致性级别为 ONE:

SELECT tdrkeys FROM search_scf_tdr WHERE fieldname='timestamp' and fieldvalue='' and scalability IN (0,1,2,3,4,5,6,7,8,9,10) and timestamptdr >= begin and timestamptdr < end;

每个 Cassandra 节点都有 8 Gb 的 Java 堆和 16 Gb 的物理内存。我们已经尽可能多地调整了 cassandra.yaml 文件和 JVM 参数,但仍然遇到内存不足的问题。

我们得到的内存不足错误的堆转储显示超过 6 Gb 的堆被线程占用(在 200 到 300 之间)持有许多 org.apache.cassandra.io.sstable.IndexHelper$IndexInfo 实例包含2 HeapByteBuffer 包含 84 字节的数据。

Cassandra system.log 显示如下错误:

ERROR [Thread-388] 2015-05-18 12:11:10,147 CassandraDaemon.java (line 199) Exception in thread Thread[Thread-388,5,main]
java.lang.OutOfMemoryError: Java heap space
ERROR [ReadStage:321] 2015-05-18 12:11:10,147 CassandraDaemon.java (line 199) Exception in thread Thread[ReadStage:321,5,main]
java.lang.OutOfMemoryError: Java heap space
    at java.nio.HeapByteBuffer.<init>(HeapByteBuffer.java:57)
    at java.nio.ByteBuffer.allocate(ByteBuffer.java:331)
    at org.apache.cassandra.io.util.MappedFileDataInput.readBytes(MappedFileDataInput.java:146)
    at org.apache.cassandra.utils.ByteBufferUtil.read(ByteBufferUtil.java:392)
    at org.apache.cassandra.utils.ByteBufferUtil.readWithShortLength(ByteBufferUtil.java:371)
    at org.apache.cassandra.io.sstable.IndexHelper$IndexInfo.deserialize(IndexHelper.java:187)
    at org.apache.cassandra.db.RowIndexEntry$Serializer.deserialize(RowIndexEntry.java:122)
    at org.apache.cassandra.io.sstable.SSTableReader.getPosition(SSTableReader.java:970)
    at org.apache.cassandra.io.sstable.SSTableReader.getPosition(SSTableReader.java:871)
    at org.apache.cassandra.db.columniterator.SSTableSliceIterator.<init>(SSTableSliceIterator.java:41)
    at org.apache.cassandra.db.filter.SliceQueryFilter.getSSTableColumnIterator(SliceQueryFilter.java:167)
    at org.apache.cassandra.db.filter.QueryFilter.getSSTableColumnIterator(QueryFilter.java:62)
    at org.apache.cassandra.db.CollationController.collectAllData(CollationController.java:250)
    at org.apache.cassandra.db.CollationController.getTopLevelColumns(CollationController.java:53)
    at org.apache.cassandra.db.ColumnFamilyStore.getTopLevelColumns(ColumnFamilyStore.java:1547)
    at org.apache.cassandra.db.ColumnFamilyStore.getColumnFamily(ColumnFamilyStore.java:1376)
    at org.apache.cassandra.db.Keyspace.getRow(Keyspace.java:327)
    at org.apache.cassandra.db.SliceFromReadCommand.getRow(SliceFromReadCommand.java:65)
    at org.apache.cassandra.db.ReadVerbHandler.doVerb(ReadVerbHandler.java:47)
    at org.apache.cassandra.net.MessageDeliveryTask.run(MessageDeliveryTask.java:60)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:724)

最佳答案

您正在对多个分区使用“IN”查询,因为可伸缩性是分区键的一部分。这导致 cassandra 跨多个节点协调查询。有关详细信息,请参阅,例如,this .

解决方案是对可伸缩性中的每个值运行单独的查询,然后手动合并结果或不使其成为分区键的一部分,即。 PRIMARY KEY ((fieldname, fieldvalue), scalability, timestamptdr) 如果可能的话。

关于java - 查询包含集合(集合)的大行时,Cassandra 出现内存不足错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30366729/

相关文章:

java - 从java中的scala.Option获取长值

java - 如何创建其条目具有通用字段的项目数组?

c# - Cassandra C# insert 似乎正在删除先前的数据?

python - Spark k-means OutOfMemoryError 异常

java - 将 3GB 文件转换为字节数组

r - 修复运行 profvis R 包时出现 pandoc "out of memory"错误

java - 为 apache-tomcat-9.0.5 启用 brotli 压缩

java - java中如何统计鼠标右键的点击次数?

mysql - 考虑从MySQL切换到Cassandra或MongoDB以获取临时元数据

database - Cassandra 中的 map 数据类型可以使用哪些数据类型