我正在尝试通过让 S3 parquet 文件可通过 Athena 查询来进行一些 POC 测试。
我从一些非常基本的东西开始:一个 parquet 文件,大约有 400 行和大约 800 列(我知道这是一个不寻常的存储系统;但出于业务逻辑原因,没有太多其他选择)
当我尝试在其上运行胶水爬虫时,这似乎失败了,并出现一般性的Internal Service Exception
错误。
我用较少的列(其他一切都相同)尝试了同样的事情,并且很低,看吧,它奏效了。这是某种我不知道的限制吗?
如有任何帮助,我们将不胜感激。
最佳答案
这不是胶水限制而是雅典娜限制。由于数据目录在内部使用 Athena 进行查询,因此它应该遵循 Athena 标准。
Athena table, view, database, and column names allow only underscore special characters
Athena table, view, database, and column names cannot contain special characters, other than underscore (_).
更多详情:https://docs.aws.amazon.com/athena/latest/ug/tables-databases-columns-names.html
关于parquet - 尝试运行具有大量列的极其基本的 AWS-glue 爬虫时获取 "Internal Service Exception",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56228622/