我对 NLP 有点陌生,我正在尝试为僧伽罗语言构建一个 POS 标记器。构建系统有什么具体步骤吗?
最佳答案
最常见的方法是使用标记数据来训练监督机器学习算法。如果你想跟随它,请查看这个教程 train your own POS tagger ,然后,您将需要一个 POS 标记集和一个语料库,以便以监督方式创建 POS 标记器。
另一方面,你可以尝试一些无监督的方法。我准确地找到了僧伽罗语的这种半监督方法HIDDEN MARKOV MODEL BASED PART OF SPEECH TAGGER FOR SINHALA LANGUAGE 。考虑到半监督学习是无监督学习的一种变体,因此尽管您不需要付出很大的努力来标记整个语料库,但仍然需要一些标签。最后,还有一些完全无人监督的替代方案可以适应僧伽罗语。
祝你好运!
关于python - 为新语言构建词性标注器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49952762/