我正在做一个项目,其中我必须从文本文件 (.doc) 格式中提取名词形容词名词短语和动词。 我有大约 75 个这样的文件的语料库。我已经访问了 net 来查找它,并且我使用 nltk 在 python 中遇到了 POS 标记。 因为我的项目是在 c# 中(使用 visual studio 2008)我需要一个代码来这样做。 我已经尝试过相同的 wordnet api,甚至是 sharpnlp,但由于我是新手,我发现这些很难与我的项目集成。 任何人都可以建议我使用词汇等更简单的代码来做到这一点。请帮助我。 谢谢。
最佳答案
我在 NLP(自然语言处理)领域为一家行业领导者工作了一段时间,您想要做的事情绝非易事。我认识 nltk
的创建者之一,我自己也用过它;它是一个高质量的开源工具,我建议您使用它(您是否有特别令人信服的理由使用 C#?)
词性标注通常通过在手写注释数据上训练语言模型,然后将该模型应用于新文本、预测词性并给出置信度来实现。 nltk
有执行此操作的工具,他们也有一些模型(如果我没记错的话)。
您会发现大多数工具都是用 C++、Java 和 Python 编写的。如果您不懂任何一种语言,请将此视为学习一些东西的绝好机会!
参见 Wikipedia ,尤其是底部的链接,以获取更多信息和可用于此类标记的其他软件。
关于c# - 使用Visual C#从文本文件语料库中提取名词、名词短语、形容词动词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4164614/