python-3.x - 从元数据动态创建 DataFrame 列

标签 python-3.x pandas dataframe databricks azure-databricks

我是 Python 和 Databricks 的新手。

我在没有列标题的文本文件中有数据。

'|'是这个文本文件中的列值分隔符

我在一个单独的 Excel 文件中有关于列名称及其顺序的详细信息。

我必须创建包含列详细信息的 DataFrame,然后我必须在其中导入数据行

请建议创建 DataFrame 列的最佳方法,我应该在哪里维护此列的详细信息(名称、类型、顺序)

文本文件中的示例数据:-

C1|CL1|23|dsfr|54|hjhg|nnf|hb
C1|CL2|23|dsfe|344|er|nnf||fg
C1|CL3|23|dsef|364|e|nnf|fg
C2|CL1a|2783|d56sfr|54|hjhg|nbvc|hb
C2|CL2a|253|dsf56e|344|er|hjhgf||fyyg
C2|CL3a|2673|dse56f|364|e|tre|ttt|yy

标题详细信息:-

Col1(string)
Col2(string)
Col3(number)
..
..

请注意,在现实中,我确实有超过 300 列的字符串、数字、日期时间、 bool 类型

最佳答案

headers_df = pd.read_csv('标题 csv 路径') headers = headers_df.values.tolist()

分配列名

pd.read_csv('path/to/file/without_header.csv',sep='|',names=headers)

希望这能回答你的问题

关于python-3.x - 从元数据动态创建 DataFrame 列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60812326/

相关文章:

python - 如何在 Pandas 数据框中选择括号内的数据

python - 当我计算列表中连续元素之间的差异时,如何保持列表中的第一个元素不变?

python - 如果API没有返回数据,如何跳到Python中的另一个循环?

r - 在现有行之间添加空白行

python-3.x - 在 Spark 2.1.0 上通过 python3 在 Zeppelin 中使用 pyspark

python-3.x - ValueError : Expected 2D array, 得到了标量数组

python - 在 pandas 中,如何绘制多个索引?

python - 将ARMA模型拟合到python中按时间索引的时间序列

python - 将 groupby 或 datetime 对象转换/分割并转置为数据帧

r - 将列名转换为 R 中的行