我正在处理 nat-js (Javascript 中的 NLP 工具包),我计划将其扩展以处理其他语言,例如英语和西类牙语;今天它只处理葡萄牙语。
使用 nat-js,当您需要标记器时,您可以编写如下内容:
var tkz = new nat.tokenizer();
但是如何才能处理其他语言呢?您对此有何看法:
var nat = new natFactory('pt');
var tkz = new nat.tokenizer();
我一直在思考一件事:如果您只需要葡萄牙语的分词器,为什么还要加载完整的库?我可以提供一种仅加载所需文件的简单方法吗?
最佳答案
我以前没有听说过它,但我看了 nat-js ,似乎因为它主要是为葡萄牙语创建的,所以在如何重组库方面你将有很大的灵 active 。我建议查看一些更大/被接受的 NLP 库,例如 CoreNLP、nltk 和 openNLP。它们以不同的方式处理不同语言的分词器初始化。 就我个人而言,我喜欢你基于语言创建工厂的方法。也许一项改进是这样的:
var ptnat = new portugueseNatFactory();
var tkz = ptnat.tokenizer();
这样,您可以将更多的主库分离成更小的每种语言标记器,而不是在工厂类中进行一些解析和猜测
关于javascript - 使用 Javascript 设计 NLP API,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20019841/