c# - 使用Visual C#从文本文件语料库中提取名词、名词短语、形容词动词

标签 c# nlp

我正在做一个项目,其中我必须从文本文件 (.doc) 格式中提取名词形容词名词短语和动词。 我有大约 75 个这样的文件的语料库。我已经访问了 net 来查找它,并且我使用 nltk 在 python 中遇到了 POS 标记。 因为我的项目是在 c# 中(使用 visual studio 2008)我需要一个代码来这样做。 我已经尝试过相同的 wordnet api,甚至是 sharpnlp,但由于我是新手,我发现这些很难与我的项目集成。 任何人都可以建议我使用词汇等更简单的代码来做到这一点。请帮助我。 谢谢。

最佳答案

我在 NLP(自然语言处理)领域为一家行业领导者工作了一段时间,您想要做的事情绝非易事。我认识 nltk 的创建者之一,我自己也用过它;它是一个高质量的开源工具,我建议您使用它(您是否有特别令人信服的理由使用 C#?)

词性标注通常通过在手写注释数据上训练语言模型,然后将该模型应用于新文本、预测词性并给出置信度来实现。 nltk 有执行此操作的工具,他们也有一些模型(如果我没记错的话)。

您会发现大多数工具都是用 C++、Java 和 Python 编写的。如果您不懂任何一种语言,请将此视为学习一些东西的绝好机会!

参见 Wikipedia ,尤其是底部的链接,以获取更多信息和可用于此类标记的其他软件。

关于c# - 使用Visual C#从文本文件语料库中提取名词、名词短语、形容词动词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4164614/

相关文章:

nlp - 如何在 Keras 上为 seq2seq 模型添加注意力层

api - 我应该使用哪个 Twitter API 来提取大量推文用于 NLP 研究?

c# - 如何在 EmguCV 中将位图转换为 Mat 结构以及如何检测两个图像偏移

c# - 如何在 .NET 3.5 中重用线程

c# - 获取在网络驱动器上打开文件的用户的用户名 - Microsoft Office Style

c# - 在策略设计模式的情况下,Hangfire 服务器无法选择工作

c# - 从父类的实例创建派生类的实例

c# - 在不同文档中查找相似段落

java - 如何使用 Stemmer 或 Lemmatizer 来提取特定单词的词干

php - 如何在 php 中用空格替换所有非字母数字字符?