encoding - 在 Hive 中使用冰岛 Thorn 字符作为分隔符

标签 encoding hadoop hive

我目前正在尝试将一些 DoubleClick 广告日志导入 Hadoop。

这些日志存储在 gzip 分隔文件中,该文件使用第 1252 页(Windows-ANSI?)进行编码,并使用冰岛 Thorn 字符作为分隔符。

我可以愉快地将这些日志导入到单个列中,但我似乎找不到一种方法让 Hive 理解 Thorn 字符 - 我想也许是因为它不理解 1252 编码?

我查看了创建表文档 - http://hive.apache.org/docs/r0.9.0/language_manual/data-manipulation-statements.html - 但似乎找不到任何方法让这个编码/分隔符工作。

我也从 https://karmasphere.com/karmasphere-analyst-faq 看到过建议这些文件的编码是 ISO-8859-1 - 但我不知道如何在 Hive 或 HDFS 中使用该信息。

我知道我可以在导入后执行映射作业,将这些行拆分为多个记录。

但是有没有更简单的方法直接使用这个分隔符?

谢谢

斯图尔特

最佳答案

使用“\-2” char 是有符号字节。

显然 Hive 开发者不认为这是一个问题: https://issues.apache.org/jira/browse/HIVE-237

关于encoding - 在 Hive 中使用冰岛 Thorn 字符作为分隔符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12833866/

相关文章:

java 读写 unicode/UTF-8 文件名(不是内容)

android - Android 4.1.2 上奇怪的 JSON 编码问题

java - 如何在级联中仅从一行中获取某些列

maven - 运行hbase java程序出错

amazon-web-services - Hadoop 配置单元无法在 AWS EMR 上扩展

PHP 函数可出于多种目的安全地编码字符

encoding - LaTeX hyperref 的问题

hadoop - 谷歌云引擎 : LibSnappy not installed errur during command-line installation of Hadoop

hadoop - 在 Hive 中使用自定义 UDF 的 LeaseExpiredException

hadoop - hadoop 中连接表的问题,其中驱动程序表有 1000 万条记录,而子表左连接有 100 万条记录