sql-server - 使用 Apache Kafka 将数据从 MSSQL 同步到 Elasticsearch

标签 sql-server elasticsearch apache-kafka apache-kafka-connect

我目前正在 SQL Server 中运行文本搜索,这正在成为一个瓶颈,出于显而易见的原因,我想将事情转移到 Elasticsearch,但我知道我必须对数据进行非规范化以获得最佳性能和可扩展性。

目前,我的文本搜索包括一些聚合和连接多个表以获得最终输出。连接的表不是那么大(每个表最多 20GB)但会不定期更改(插入、更新、删除)(其中两个每周一次,另一个按需更改 x一天几次)。

我的计划是将 Apache Kafka 与 Kafka Connect 一起使用,以便从我的 SQL Server 读取 CDC,将这些数据加入 Kafka 并将其保存在 Elasticsearch 中,但是我找不到任何 Material 告诉我当删除时将如何处理数据正在持久化到 Elasticsearch。

默认驱动程序甚至支持吗?如果不是,有哪些可能性? Apache Spark、Logstash?

最佳答案

我不确定现在 Kafka Connect 是否已经可以做到这一点,但似乎可以通过 Nifi 解决。

希望我理解需要,这里是使用标准 NiFi 处理器之一删除 Elasticsearch 记录的文档:

https://nifi.apache.org/docs/nifi-docs/components/org.apache.nifi/nifi-elasticsearch-5-nar/1.5.0/org.apache.nifi.processors.elasticsearch.DeleteElasticsearch5/

关于sql-server - 使用 Apache Kafka 将数据从 MSSQL 同步到 Elasticsearch,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45576642/

相关文章:

sql - SQL 中所需的异常输出格式

SQL身份(1,1)从0开始

sql - 从不同的另一个 View 创建一个 View 并计算一些字段

elasticsearch - Logstash和ElasticSearch术语 token

grails - ElasticSearch 过滤器未返回结果...语法问题?

sql-server - Excel 源作为查找转换连接

spring - 如何让elasticsearch数据与MySql保持同步?

java - 我的 Kafka 自定义分区器类中出现错误

java - Consumer.endOffsets 在 Kafka 中是如何工作的?

scala - 从 RDD 访问 KafkaOffset 时出现异常