python - 为新语言构建词性标注器

标签 python nlp nltk

我对 NLP 有点陌生,我正在尝试为僧伽罗语言构建一个 POS 标记器。构建系统有什么具体步骤吗?

最佳答案

最常见的方法是使用标记数据来训练监督机器学习算法。如果你想跟随它,请查看这个教程 train your own POS tagger ,然后,您将需要一个 POS 标记集和一个语料库,以便以监督方式创建 POS 标记器。

另一方面,你可以尝试一些无监督的方法。我准确地找到了僧伽罗语的这种半监督方法HIDDEN MARKOV MODEL BASED PART OF SPEECH TAGGER FOR SINHALA LANGUAGE 。考虑到半监督学习是无监督学习的一种变体,因此尽管您不需要付出很大的努力来标记整个语料库,但仍然需要一些标签。最后,还有一些完全无人监督的替代方案可以适应僧伽罗语。

祝你好运!

关于python - 为新语言构建词性标注器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49952762/

相关文章:

python - NLTK 将标记化的句子转换为同义词集格式

python - Python 中的错误最近邻

与 Vi(m) 集成的 Python Interpreter Shell 可能吗?

machine-learning - CountVectorizer 如何处理测试数据中的新词?

java - 解析斯坦福依赖关系

nlp - Brown Corpus在基于WordNet的语义相似度测量中的作用是什么

python - 使用 NLTK 快速删除命名实体

python - 为什么连续上传同一个文件时收到空的InMemoryUploadedFile对象

python - 基于字符串模式删除列表中元素的最佳方法

php - SQL 数组列;合并所有数组