python - 如何训练以行号为特征的 spaCy 模型？

标签 python machine-learning nlp spacy named-entity-recognition

我是 nlp 和 spaCy 的新手我正在从事一个从名片中提取人名和公司名称的项目。

为了提取文本，我使用了一个不错的 OCR 函数，它给我这样的东西:

Sunny J. Mistry
Product Design Engineer

Apple
5 Infinite Loop, MS 305-1PH
Cupertino, CA 95014

T 408 974-5339
M 925 548-4585
sjmistry@apple.com
www.apple.com

起初，我尝试使用默认的英语 NER 逐行处理作业，但很快就意识到这还不够。

最终我决定创建自己的自定义 NER，它将使用有关文本位置的信息进行训练。

我没有在官方文档中找到任何关于如何为训练数据添加自定义功能(如行号)的信息，但我找到了这个 answer和 example Matthew Honnibal 的建议使用多任务目标来训练具有服装特征的模型。

我还不确定:

训练数据应该是什么样的？
如何使用 spaCy 的 API 向训练过程添加自定义功能？
多任务目标是训练这种模型的正确工具吗？

最佳答案

回答我自己的问题:

我没有找到实现此类任务的官方方法，但最终我决定在包含 200 张图像的普通名片数据集上训练模型。我使用 Google OCR 从每张图片中提取文本，并使用 this 中描述的工具对其进行注释。发布。

它就像一个魅力。

关于python - 如何训练以行号为特征的 spaCy 模型？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56304109/

上一篇：python - 奥斯卡优惠应用程序覆盖福利功能冲突错误

下一篇：python - 我如何读取文件夹和子文件夹 *.wav ；和训练模型输入的特征提取？

相关文章：

python - sklearn 如何使用多个保存的模型合并和预测数据

java - UMBC 语义相似性实现

python - 'utf 8' codec can' t 解码字节 0xbd CSV 文件 1/2 字符

python - 如何使用 Pyramid 获取当前路线

machine-learning - 在 H2O 中使用分类变量的最佳实践？

php - 使用PHP的NLP编程工具？

python - 如何计算 pandas 中分类变量的滚动计数

python - 检查鼠标是否在pygame窗口之外

python - 加载和预测新数据 sklearn

python - 如何在随机森林中设置自己的概率阈值？