python - 推断字段分隔文件信息的库

<分区>

关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。

我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。

关闭 4 年前。

我有各种由用户上传的“未知”字段分隔文件(我对它们的内容控制为零，甚至不知道它们将以“v”结尾)，我想看看如果有现有库(希望在 python 中)推断出有关未知字段分隔文件的以下信息:

在上面的示例中，标题将从第 2 行开始，数据将从第 4 行开始(这里的分隔符是一个制表符，但上面的网格中没有显示)。

是否有任何开源库(ML/AI？)尝试根据前约 100 行数据推断文件标题信息？这是 Google 搜索的一种方法，但未指定任何软件包:https://www.computer.org/csdl/proceedings/hpcc/2016/4297/00/07828554.pdf .

更新:本质上，我正在寻找是否存在一个库(以任何语言)，我可以在其中传递它只有前 100 行数据，它将是能够对(1)标题在哪一行(2)数据从哪一行开始进行有根据的猜测； (3) 分隔符是什么。

最佳答案

看看pandas .它是当今数据解析/分析的首选库。

CSV 解析器支持自动检测分隔符，您还可以提供模式来指定注释。例如上述情况中的“#”。

由于上面的第一行，我还不确定它会如何表现，因为它不是以注释字符开头，如果我找到更多信息，我会改进答案。

关于python - 推断字段分隔文件信息的库，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52601808/

相关文章：

python - 行轴的 np.sum 在 Numpy 中不起作用