python - 推断字段分隔文件信息的库

标签 python csv machine-learning

<分区>

我有各种由用户上传的“未知”字段分隔文件(我对它们的内容控制为零,甚至不知道它们将以“v”结尾),我想看看如果有现有库(希望在 python 中)推断出有关未知字段分隔文件的以下信息:

  • 标题所在的行号。
  • 是否有标题。
  • 分隔符是什么。
  • 如果在标题后跳过任何行

enter image description here

在上面的示例中,标题将从第 2 行开始,数据将从第 4 行开始(这里的分隔符是一个制表符,但上面的网格中没有显示)。

是否有任何开源库(ML/AI?)尝试根据前约 100 行数据推断文件标题信息?这是 Google 搜索的一种方法,但未指定任何软件包:https://www.computer.org/csdl/proceedings/hpcc/2016/4297/00/07828554.pdf .


更新:本质上,我正在寻找是否存在一个库(以任何语言),我可以在其中传递它只有前 100 行数据,它将是能够对(1)标题在哪一行(2)数据从哪一行开始进行有根据的猜测; (3) 分隔符是什么。

最佳答案

看看pandas .它是当今数据解析/分析的首选库。

CSV 解析器支持自动检测分隔符,您还可以提供模式来指定注释。例如上述情况中的“#”。

由于上面的第一行,我还不确定它会如何表现,因为它不是以注释字符开头,如果我找到更多信息,我会改进答案。

关于python - 推断字段分隔文件信息的库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52601808/

相关文章:

python - 行轴的 np.sum 在 Numpy 中不起作用

python Postgresql : Ignoring the last column from csv file

python - 从 Zip 文件中读取 CSV

python - Pandas 。将数据框中具有相同值的所有列合并为单列

c++ - 如何测试空白 c++ :

python - 创建 csv 文件,其中每一行都是一个列表中的一些嵌套列表

machine-learning - 'training loss'在机器学习中意味着什么?

python - 用于考虑 keras 最后一层网络的训练

python - 定义变量

python - scipy.io 的导入问题