java - Spring 数据 JPA : Batch insert for nested entities

标签 java hibernate spring-data-jpa

我有一个测试用例,我需要将 100'000 个实体实例保存到数据库中。我当前使用的代码执行此操作,但最多需要 40 秒才能将所有数据持久保存在数据库中。从大小约为 15 MB 的 JSON 文件中读取数据。

现在我已经为另一个项目在自定义存储库中实现了批量插入方法。但是,在那种情况下,我有很多顶级实体需要保留,只有几个嵌套实体。

在我目前的情况下,我有 5 Job包含大约 ~30 JobDetail 列表的实体实体。一JobDetail包含 850 到 1100 JobEnvelope实体。

写入数据库时​​,我提交了 Job 的列表默认实体 save(Iterable<Job> jobs)接口(interface)方法。所有嵌套实体都具有 CascadeType PERSIST .每个实体都有自己的表。

启用批量插入的通常方法是实现自定义方法,如 saveBatch每隔一段时间就会刷新一次。但在这种情况下我的问题是 JobEnvelope实体。我不会用 JobEnvelope 来坚持他们存储库,而不是我让 Job 的存储库实体处理它。我正在使用 MariaDB 作为数据库服务器。

所以我的问题归结为以下几点:我怎样才能制作 JobRepository批量插入它的嵌套实体?

这些是我的 3 个实体:

工作

@Entity
public class Job {
  @Id
  @GeneratedValue
  private int jobId;

  @OneToMany(fetch = FetchType.EAGER, cascade = CascadeType.PERSIST, mappedBy = "job")
  @JsonManagedReference
  private Collection<JobDetail> jobDetails;
}

工作详情

@Entity
public class JobDetail {
  @Id
  @GeneratedValue
  private int jobDetailId;

  @ManyToOne(fetch = FetchType.EAGER, cascade = CascadeType.PERSIST)
  @JoinColumn(name = "jobId")
  @JsonBackReference
  private Job job;

  @OneToMany(fetch = FetchType.EAGER, cascade = CascadeType.PERSIST, mappedBy = "jobDetail")
  @JsonManagedReference
  private List<JobEnvelope> jobEnvelopes;
}

工作信封

@Entity
public class JobEnvelope {
  @Id
  @GeneratedValue
  private int jobEnvelopeId;

  @ManyToOne(fetch = FetchType.EAGER, cascade = CascadeType.PERSIST)
  @JoinColumn(name = "jobDetailId")
  private JobDetail jobDetail;

  private double weight;
}

最佳答案

确保正确配置与 Hibernate 批处理相关的属性:

<property name="hibernate.jdbc.batch_size">100</property>
<property name="hibernate.order_inserts">true</property>
<property name="hibernate.order_updates">true</property>

关键是,如果连续的语句操作同一个表,则它们可以被批处理。如果出现insert to another table的语句,必须中断之前的批量构建,在该语句之前执行。使用 hibernate.order_inserts 属性,您允许 Hibernate 在构造批处理语句之前重新排序插入(hibernate.order_updates 对更新语句具有相同的效果)。

jdbc.batch_size 是 Hibernate 将使用的最大批大小。尝试并分析不同的值,然后选择一个在您的用例中显示最佳性能的值。

请注意,插入语句的批处理是 disabled如果使用 IDENTITY id 生成器。

特定于 MySQL,您必须指定 rewriteBatchedStatements=true 作为连接 URL 的一部分。为确保批处理按预期工作,添加 profileSQL=true 以检查驱动程序发送到数据库的 SQL。更多详情 here .

如果您的实体是版本化的(出于乐观锁定目的),那么为了利用批量更新(不影响插入)您还必须打开:

<property name="hibernate.jdbc.batch_versioned_data">true</property>

使用此属性,您可以告诉 Hibernate JDBC 驱动程序能够在执行批量更新时返回正确的受影响行数(需要执行版本检查)。您必须检查这是否适用于您的数据库/jdbc 驱动程序。例如,它 does not work在 Oracle 11 和更早的 Oracle 版本中。

您可能还想刷新和清除持久化上下文 after each batch释放内存,否则所有托管对象都保留在持久性上下文中,直到它关闭。

此外,您还可以找到 this blog很有用,因为它很好地解释了 Hibernate 批处理机制的细节。

关于java - Spring 数据 JPA : Batch insert for nested entities,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35791383/

相关文章:

spring-boot - QueryByExampleExecutor<Contact> 类型中的方法 findOne(Example<S>) 不适用于参数 (Long)

spring - 没有@Id的抽象@MappedSuperclass的JpaRepository

java - 当测试文件未扩展到 TestCase 时,如何在 JUnit 4 中动态创建测试套件?

java - 使用 java android 进行签名和验证

java - 如何使用 Eclipse 从 Github 运行下载的嵌套演示 Android 项目?

java - 让 maven 启动 jetty (Tapestry 教程)

java - 是否可以让 hibernate 生成用于创建表索引的 SQL 代码?

java - 文件和代码中的 Hibernate 配置

java - 无法执行 JDBC 批量更新 :Exception in thread "main" org. hibernate.exception.ConstraintViolationException:

java - spring data jpa 根据日期和时间选择值