aws-glue - 使用来自外部 REST API 的数据的 AWS Glue 作业

我正在尝试创建一个工作流，其中 AWS Glue ETL 作业将从外部 REST API 而不是 S3 或任何其他 AWS 内部源提取 JSON 数据。
这甚至可能吗？有人做吗？
请帮忙!

最佳答案

是的，我确实从 Twitter、FullStory、Elasticsearch 等 REST API 中提取数据。通常，我确实使用 Python Shell 作业进行提取，因为它们更快(冷启动相对较小)。完成后，它会触发一个 Spark 类型的作业，该作业仅读取我需要的 json 项。
我使用请求 pyhton 库。

为了将数据保存到 S3 中，您可以执行以下操作

import boto3
import json

# Initializes S3 client
s3 = boto3.resource('s3')

tweets = []
//Code that extracts tweets from API
tweets_json = json.dumps(tweets)
obj = s3.Object("my-tweets", "tweets.json")
obj.put(Body=data)

关于aws-glue - 使用来自外部 REST API 的数据的 AWS Glue 作业，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59714187/

上一篇：logstash - Logstash JDBC 上的 SQL 语句 |如何仅过滤今天插入的行？

下一篇：git - 无法在 Visual Studio Mac 上更改分支

amazon-web-services - AWS Athena 看不到 Kinesis 生成的记录

python-3.x - 使用 boto3 获取数据库中的表列表

amazon-web-services - 如何处理 AWS Glue 中的 `No enum constant` 错误

amazon-web-services - AWS 胶水连接到 RDS Mysql

amazon-web-services - 手动设置 AWS Glue ETL 书签

amazon-web-services - awsglue中的catalog_connection参数是什么？

aws-glue - 如何将输入传递给步骤函数映射状态中的任务参数？

json - 在 Athena 中查询可选嵌套 JSON 字段

python - 如何将实时日志写入 AWS Glue 日志