elasticsearch - 将旧数据从Elasticsearch存档到Google Cloud Storage

标签 elasticsearch google-cloud-platform google-cloud-storage elasticsearch-curator

我在elasticsearch中安装了Google Compute Instance服务器。每分钟都会提取大量数据,并且下划线磁盘很快就会填满。
我知道我们可以增加磁盘的大小,但这会花费很多时间来存储长期数据。
我们需要将90天的数据存储在Elasticsearch服务器(Compute engine disk)中,并将90天以上的数据(直到7年)存储在Google Cloud Storage Buckets中。如果以后需要分析,则应可检索较旧的数据。
我知道的一种方法是经常拍摄快照,并使用Curator从Elasticsearch服务器中删除超过90天的索引。这样,我可以保持磁盘空闲并最大程度地降低存储成本。
还有其他方法可以完成,而无需手动自动化上述想法?
例如,Elasticsearch提供的开箱即用的功能可以将超过90天的数据本身存档,并将数据文件保存在磁盘中,然后我们可以将该文件从磁盘Google Cloud Storage手动移出磁盘。

最佳答案

没有其他方法可以使用snapshot/restore API来备份数据,这是唯一可用的安全可靠的选项。
有一个插件可以将google cloud storage用作存储库。
如果您使用的是带有基本许可证的7.5+版本和Kibana,则可以直接从Kibana interface配置快照,如果您使用的是旧版本或没有Kibana,则需要依靠Curator或运行带有自定义脚本的自定义脚本crontab调度程序。
虽然可以复制数据目录,但每次复制数据时都需要停止整个集群,而要还原它,则每次都需要从头开始创建新集群,这是很多工作,而不是当您拥有快照/还原API之类的东西时,这非常实用。

关于elasticsearch - 将旧数据从Elasticsearch存档到Google Cloud Storage,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62770667/

相关文章:

python - Haystack 使用的 ElasticSearch 索引因未知原因损坏

elasticsearch - 如何在 elasticsearch 中存储 Java 8 (JSR-310) 日期

google-cloud-platform - Google Cloud Composer 变量不会传播到 Airflow

google-cloud-platform - gcloud alpha pubsub 订阅搜索方法未找到异常

python - 尝试使用 python 连接到 Google 云存储(GCS)

python-3.x - Google Cloud Storage get_blob 调用导致套接字连接失效

php - 使用 ongr-io/ElasticsearchDSL 包添加突出显示

elasticsearch - 在此日期范围查询示例中,我们可以期望什么?

python - 多次更新/删除后谷歌云存储文件卡在时间上

ruby-on-rails-3 - 谷歌存储的存储访问凭证,用于 Rails 应用程序中的carrierwave gem