我是 Python 和 Hive 的新手。
我希望能得到一些建议。
有没有人对如何将 python pandas 数据框转换为配置单元表有任何提示?
最佳答案
您的脚本应该在 hive 可以使用“在路径中加载本地数据”方法加载数据的机器内运行。
查询 pandas 数据框以创建列名数据类型列表
使用 python 字符串操作(基本上是串联)编写有效的 HQL (DDL) 创建表语句
在 Hive 中发出创建表语句。
将 pandas 数据帧写成 cvs,用“\t”分隔,关闭 header 和索引(检查 to_csv() 的参数)
5.- 从您的 python 脚本调用运行 hive -e 的系统控制台:
Use: for instance:
p = subprocess.Popen( ['hive', '-e', str_command_list], stdout = subprocess.PIPE,
stderr = subprocess.PIPE )
out, err = p.communicate()
这将调用 hive 控制台并执行,例如,加载本地路径中的数据,将您的 csv 数据插入到创建的表中。
那你就开心了。
关于python - Pandas DataFrame 到 Hive 表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23817958/