我正在尝试使用 OpenCSVSerde 和一些整数和日期列创建一个表。但是列被转换为字符串。这是预期的结果吗? 作为一种解决方法,我在此步骤之后进行了显式类型转换(这使得整个运行速度变慢)
hive> create external table if not exists response(response_id int,lead_id int,creat_date date ) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES ('quoteChar' = '"', 'separatorChar' = '\,', 'serialization.encoding'='UTF-8', 'escapeChar' = '~') location '/prod/hive/db/response' TBLPROPERTIES ("serialization.null.format"="");
OK
Time taken: 0.396 seconds
hive> describe formatted response;
OK
# col_name data_type comment
response_id string from deserializer
lead_id string from deserializer
creat_date string from deserializer
Source Code这解释了将数据类型更改为字符串。
最佳答案
这是 CSVSerDe serde 的已知限制。 CSVSerDe 将所有列视为字符串类型。即使您使用此 SerDe 创建包含非字符串列类型的表,DESCRIBE TABLE 输出也会显示字符串列类型。类型信息是从 SerDe 中检索的。要将表中的列转换为所需的类型,您可以在表上创建一个 View ,将 CAST 转换为所需的类型。
参见此处:CSVSerde这个 confluence 是关于 CSVSerDe 的,但是它使用了 Open-CSV
关于hadoop - 当我在 Hive 中使用 OpenCSVSerde 时,为什么所有列都创建为字符串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50001124/