parsing - 最准确的句子分割开源工具是什么?

标签 parsing nlp tokenize

我需要将文本拆分成句子。我目前正在使用 OpenNLP 的句子检测器工具。我还听说过 NLTK 和斯坦福 CoreNLP 工具。目前最准确的英语句子检测工具是什么?我不需要太多的 NLP 功能——只需要一个用于句子分割/检测的好工具。

我也听说过 Lucene...但这可能太多了。但如果它有一个强大的句子检测模块,那么我会使用它。

最佳答案

NLTK 包含 this paper 中描述的 Punkt 分词器的实现。 。我不知道它是否绝对是最好的,但它非常非常好,它轻量级且易于使用,而且是免费的。

关于parsing - 最准确的句子分割开源工具是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5301655/

相关文章:

java - 如何标记化、扫描或拆分这串电子邮件地址

python - 在编写修复程序后将自定义修复程序添加到 lib2to3

android - 使用Gson直接获取Json中的数据

java关键词提取

python - 有监督的文本抽取摘要

code-generation - 机器学习和字符串代码生成器

python-3.x - 对中英文文本进行分词不正确地将英文单词拆分为字母

python - 在python中将 latex 代码转换为mathml或svg代码

ios - 如何在固定数量的项目后停止 rss 解析器?

c - 将输入文件标记为链表