python-3.x - 将 inception 输出导出为 spacy 的训练输入格式

标签 python-3.x spacy named-entity-recognition

我正在使用 INCEpTION 0.11.0 ( https://inception-project.github.io/ ) 来注释我的训练数据。 我想使用 python spacy 来使用这个训练数据。我可以在 Inception 中看到几种可以导出的格式,但我不确定哪一种最适合 spacy。

enter image description here

我没有看到任何有关将这些导出的文件转换为空间格式的文档。

我可以编写一个新脚本来完成此转换。在此之前,我想知道是否有人已经解决了这个问题并可以提供一些建议?我应该选择哪种导出格式,以便更容易转换为 spacy 的格式?

最佳答案

将数据导出为 CONLLU 可能是最直接的方法。 SpaCy 可以使用 converter script 将 CONLLU 文档转换为其预期格式:python -m spacy convert /path/to/input/doc.connlu /path/to/output/doc.jsonl -c conllu

您会发现它支持 CONLL 文档的转换,但支持哪种 CONLL 格式并不是立即显而易见的。您可以通过使用 -c 来尝试此操作上面的论证。

关于python-3.x - 将 inception 输出导出为 spacy 的训练输入格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57840677/

相关文章:

python - Python 中的 KeyError **kwargs

python - 类型错误 : translate() takes exactly one argument (2 given)

python - spacy 标记化撇号

python - 在 NLTK3 中遍历新 block 时出现问题

regex - 具有正则表达式的命名实体识别: NLTK

python - 无法将字符串和列表从一个函数返回到另一个函数

python - 在 Python 3 中提供目录

python - 如何从 Spacy 获得更好的引理

python - textcat -> 不允许架构额外字段

python - 使用 NLTK 快速删除命名实体