c# - 使用Visual C#从文本文件语料库中提取名词、名词短语、形容词动词

标签 c# nlp

我正在做一个项目，其中我必须从文本文件 (.doc) 格式中提取名词形容词名词短语和动词。我有大约 75 个这样的文件的语料库。我已经访问了 net 来查找它，并且我使用 nltk 在 python 中遇到了 POS 标记。因为我的项目是在 c# 中(使用 visual studio 2008)我需要一个代码来这样做。我已经尝试过相同的 wordnet api，甚至是 sharpnlp，但由于我是新手，我发现这些很难与我的项目集成。任何人都可以建议我使用词汇等更简单的代码来做到这一点。请帮助我。谢谢。

最佳答案

我在 NLP(自然语言处理)领域为一家行业领导者工作了一段时间，您想要做的事情绝非易事。我认识 nltk 的创建者之一，我自己也用过它；它是一个高质量的开源工具，我建议您使用它(您是否有特别令人信服的理由使用 C#？)

词性标注通常通过在手写注释数据上训练语言模型，然后将该模型应用于新文本、预测词性并给出置信度来实现。 nltk 有执行此操作的工具，他们也有一些模型(如果我没记错的话)。

您会发现大多数工具都是用 C++、Java 和 Python 编写的。如果您不懂任何一种语言，请将此视为学习一些东西的绝好机会!

参见 Wikipedia ，尤其是底部的链接，以获取更多信息和可用于此类标记的其他软件。

关于c# - 使用Visual C#从文本文件语料库中提取名词、名词短语、形容词动词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4164614/