csv - 从CSV文件创建Hive表时的唯一ID

标签 csv hadoop hive

我有一个要导出为Hive表的CSV文件列表,但是我很确定某些记录在CSV中是多余的。 CSV中的每个记录/行都由一个键标识,我想使用该键作为主键来生成表。我将如何生成Hive表,以确保没有重复的行?

最佳答案

ROW_NUMBER() OVER([partition_by_clause] order_by_clause)

返回以1开头的升序整数序列。
select x, row_number() over(order by x, property) as row_number, property from int_t;
+----+------------+----------+
| x  | row_number | property |
+----+------------+----------+
| 1  | 1          | odd      |
| 1  | 2          | square   |
| 2  | 3          | even     |
| 2  | 4          | prime    |
| 3  | 5          | odd      |
| 3  | 6          | prime    |
| 4  | 7          | even     |
| 4  | 8          | square   |
| 5  | 9          | odd      |
| 5  | 10         | prime    |
| 6  | 11         | even     |
| 6  | 12         | perfect  |
| 7  | 13         | lucky    |
| 7  | 14         | lucky    |
| 7  | 15         | lucky    |
| 7  | 16         | odd      |
| 7  | 17         | prime    |
| 8  | 18         | even     |
| 9  | 19         | odd      |
| 9  | 20         | square   |
| 10 | 21         | even     |
| 10 | 22         | round    |
+----+------------+----------+

关于csv - 从CSV文件创建Hive表时的唯一ID,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30589287/

相关文章:

python - 模拟 CSV DictReader

c# - 如何从 UTF 8 编码的 csv 中删除 BOM() 字符?

javascript - 将数据从 csv 复制到 D3 中的数组中

Fetcher : Exceeded MAX_FAILED_UNIQUE_FETCHES 随机播放中的 Hadoop 错误

linux - Hadoop 信息 ipc.Client : Retrying connect to server localhost/127. 0.0.1:9000

apache-spark - hadoop aws 版本兼容性

hive - Parquet Hive 表中的架构演变

javascript - Applescript 在谷歌浏览器中提取文本

python - 是否可以将文件保存在 Hadoop 中而不将它们保存在本地文件系统中?

hadoop - hive 服务器 : ClassNotFound (HiveServer)