mysql - 删除 hive 直线中的重复 header

标签 mysql hadoop hive pyspark beeline

Select ACCOUNT_NUMBER, BIN AS RISK_BIN FROM test.daily_call_routing2;" 
| python -c 'exec("import sys;import csv;reader = csv.reader(sys.stdin, 
dialect=csv.excel_tab);writer = csv.writer(sys.stdout, 
dialect=csv.excel)\nfor row in reader: writer.writerow(row)")' > 
$EXPORT_DIR//home/rabbid160/test_$DATE_STR.csv;**

当我尝试在 beeline-hive 中执行上述命令时，我能够看到数据，但是中间有多个 header 。任何人都可以告诉我如何解决只有一个标题和数据的问题。

Example as follows:

+--------------------+----------+--+
|帐号 | risk_bin |
+--------------------+------------+--+
| 8498310230444304 | 2 |
| 8778104140754717 | 2 |
| 8155100513664825 | 2 |
| 8155100513664825 | 2 |
| 8155400040004812 | 2 |
| 8155200521190266 | 2 |
| 8155300210482543 | 2 |
| 8497202241094288 | 2 |
| 8155500010197049 | 2 |
+--------------------+------------+--+
|帐号 | risk_bin |
+--------------------+------------+--+
| 8155100030718781 | 2 |
| 8495444731138751 | 2 |
| 8498320015120250 | 2 |
| 8498330360083177 | 2 |
| 8155300210487112 | 2 |
| 8777701821146336 | 2 |
| 8497202461586765 | 2 |
| 8155400310837610 | 2 |

最佳答案

在直线中，标题应重复的行数由直线变量 headerinterval 定义。

您可以使用直线命令 !set headerinterval 100 设置 headerinterval

将 headerinterval 设置为较大的值，这样您可能只会看到一次标题。

关于mysql - 删除 hive 直线中的重复 header ，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45867225/

上一篇：java - 在 reducer 中迭代自定义可写组件的问题

下一篇：python - 使用pyspark从本地系统读取文件时获取文件名

相关文章：

apache-spark - 如何在Hive表中检查损坏的记录

hadoop - HIVE_STATS_JDBC_TIMEOUT 用于 Spark 中的 Hive 查询

mysql - 如何获得商品折扣

mysql - 将表行旋转到没有结果的列

mysql - 如何在mysql中实现这样的数据透视表？

hadoop - Hadoop 中的 (key,value) 对总是 ('text' ,1) 吗？

mysql - MariaDb 的 DDL 中的 [cs] 意味着什么

performance - Hadoop MapReduce 为多个作业读取一次数据集

hadoop - 从 Dataproc 上的 MapReducer 映射器记录日志

hadoop - 查询不更新Oozie编辑器中的数据