amazon-web-services - 如何将Spark EMR集群与AWS Elasticsearch集群连接

标签 amazon-web-services elasticsearch apache-spark

我有一个运行在AWS环境下的Spark Streaming作业,例如Spark ClusterA。我还配置了另一个新的AWS Elasticsearch集群,即ES ClusterB。
现在我必须将数据从Spark(即集群A)发送到Elastic搜索集群(即集群B),我正在从中获取引用
https://www.elastic.co/guide/en/elasticsearch/hadoop/master/spark.html

根据上述链接指南
对于Spark conf中的群集A,我已经设置了以下参数

SparkConf conf = new SparkConf().setAppName("ElasticSearchTest");

    conf.set("spark.serializer", org.apache.spark.serializer.KryoSerializer.class.getName()); 
    conf.set("es.nodes", [endpoint of aws elasticsearch cluster]);
    conf.set("es.port", "9200");

我在设置aws flex 集群期间允许所有访问策略内的操作。

我低于异常(exception)。它显示classnotfound。但这不是正确的问题,我也已经验证了POM文件中存在类(Maven)

enter image description here
我是刚与AWS Elasticsearch集成到Spark中的新手,有人可以指导我进行必要的配置,因为需要什么配置才能实现?

最佳答案

您将需要使用一些连接器来读取 flex 搜索,并将其转换为RDD以进行操作,这是我认为可以使用的连接器示例(但未经测试)

https://github.com/elastic/elasticsearch-hadoop#apache-spark

关于amazon-web-services - 如何将Spark EMR集群与AWS Elasticsearch集群连接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35151078/

相关文章:

lucene - Elasticsearch可以提出映射建议吗?

Django Haystack ElasticSearch InvalidJsonResponseError : <Response [404]>

json - filebeat @timestamp 不会被覆盖

scala - Spark DataFrame 根据列条件更改数据类型

python - 在 hadoop 和 yarn 上安装 pyspark

amazon-web-services - 将 aws lambda 函数作为服务目录产品调用是一个好习惯吗?

amazon-ec2 - 对于 AWS,如何使用 ruby​​ aws-sdk 为资源设置标签?

azure - Databricks/Spark 从 Parquet 文件读取自定义元数据

java - 从本地机器到 AWS RDS PostgreSQL 数据库的连接速度非常慢

amazon-web-services - 为什么要为 Docker 使用 AWS ECS 与 ElasticBeanstalk?