hadoop - 如何将 Postgres "Text"数据类型加载到 HIVE 中

标签 hadoop apache-spark hive

我有一个包含文本列(详细信息)的 postgress 表。我已在 Hive 中将 detail 声明为 STRING。当我尝试从 SQOOP 或 SPark 导入它时,它已成功导入。但是,我缺少详细信息列中可用的大量数据,并且在配置单元表中创建了许多空行。

谁能帮我解决这个问题?

例如:详细列有以下数据

line1 sdhfdsf dsfdsdfdsf dsfs
line2 jbdfv df ffdkjbfd
jbdsjbfds dsfsdfb dsfds
dfds dsfdsfds dsfdsdskjnfds
sdjfbdsfdsdsfds

只有“line1 sdhfdsf dsfdsdfdsf dsfs”被导入到配置单元表中。

我可以看到剩余行的空行。

最佳答案

Hive 不支持文本文件格式中的多行。您必须将此数据加载到二进制文件 Avro 或 Parquet 中,以保留换行符。如果您不需要保留它们,那么您可以使用 hive-drop-import-delims 剥离它们

关于hadoop - 如何将 Postgres "Text"数据类型加载到 HIVE 中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35519973/

相关文章:

apache-spark - 为 kafka 主题 : No current assignment for partition topic1 分配新分区(旧分区被撤销)后,Spark Streaming 作业失败

csv - 通过Ambari将大型csv文件加载到Hive

sql - 在配置单元中按日期重复以前的值

hadoop - Hadoop MapReduce:具有TextInputFormat的映射器数量

security - Hadoop:用户到组映射的OpenLDAP设置因DN无效而失败

hadoop - hadoop是在单个计算机上管理数据批处理的可行解决方案吗?

java - 如何找到哪个 Java/Scala 线程锁定了一个文件?

scala - 如何在数据集中存储自定义对象?

Hadoop 数据和控制流

hadoop - 在 hive 仓库中归档