parquet - 尝试运行具有大量列的极其基本的 AWS-glue 爬虫时获取 "Internal Service Exception"

标签 parquet aws-glue

我正在尝试通过让 S3 parquet 文件可通过 Athena 查询来进行一些 POC 测试。

我从一些非常基本的东西开始:一个 parquet 文件,大约有 400 行和大约 800 列(我知道这是一个不寻常的存储系统;但出于业务逻辑原因,没有太多其他选择)

当我尝试在其上运行胶水爬虫时,这似乎失败了,并出现一般性的Internal Service Exception错误。

我用较少的列(其他一切都相同)尝试了同样的事情,并且很低,看吧,它奏效了。这是某种我不知道的限制吗?

如有任何帮助,我们将不胜感激。

最佳答案

这不是胶水限制而是雅典娜限制。由于数据目录在内部使用 Athena 进行查询,因此它应该遵循 Athena 标准。

Athena table, view, database, and column names allow only underscore special characters

Athena table, view, database, and column names cannot contain special characters, other than underscore (_).

更多详情:https://docs.aws.amazon.com/athena/latest/ug/tables-databases-columns-names.html

关于parquet - 尝试运行具有大量列的极其基本的 AWS-glue 爬虫时获取 "Internal Service Exception",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56228622/

相关文章:

mysql - Amazon Athena 表创建问题

amazon-web-services - Amazon AWS Athena HIVE_CANNOT_OPEN_SPLIT : Error opening Hive split/Not valid Parquet file, parquet 文件使用 Athena 压缩为 gzip

apache-spark - 如何为将来的排序合并连接保留已排序的 Parquet 表?

java - 使用 AWS EMR 将 JSON 字符串转换为 Parquet 格式

java - org.apache.parquet.schema.InvalidSchemaException : A group type can not be empty. Parquet 不支持没有叶子的空组

amazon-web-services - 编写 spark 数据框或编写胶水动态框架,在 AWS Glue 中哪个选项更好?

amazon-web-services - Glue 爬虫从分区的 S3 存储桶中创建了多个表

automation - 如何自动化ETL作业部署和运行?

date - pyspark-生成日期序列

hadoop - 如何解决Hive文本文件格式和 Parquet 文件格式之间的日期差异