text - 为什么每种语言都需要一个分词器?

标签 text lucene nlp semantics

处理文本时,为什么需要专门针对该语言的分词器?

通过空格进行标记还不够吗?在什么情况下,简单地使用空格标记化不是一个好主意?

最佳答案

标记化是从表面文本中识别语言上有意义的单位 (LMU)。

Chinese: 如果您在新加坡只能前往一间夜间娱乐场所,Zouk必然是您的不二之选。

English: If you only have time for one club in Singapore, then it simply has to be Zouk.

Indonesian: Jika Anda hanya memiliki waktu untuk satu klub di Singapura, pergilah ke Zouk.

Japanese: シンガポールで一つしかクラブに行く時間がなかったとしたら、このズークに行くべきです。

Korean: 싱가포르에서 클럽 한 군데밖에 갈시간이 없다면, Zouk를 선택하세요.

Vietnamese: Nếu bạn chỉ có thời gian ghé thăm một câu lạc bộ ở Singapore thì hãy đến Zouk.

Text Source: http://aclweb.org/anthology/Y/Y11/Y11-1038.pdf

上面并行文本的标记化版本应如下所示:

enter image description here

对于英语,这很简单,因为每个 LMU 由空格分隔/分隔。但在其他语言中,情况可能并非如此。对于大多数罗马化语言(例如印度尼西亚语),它们具有相同的空白分隔符,可以轻松识别 LMU。

但是,有时 LMU 是由空格分隔的两个“单词”的组合。例如。在上面的越南语句子中,您必须将thời_gian(在英语中表示时间)读作1个标记,而不是2个标记。将两个单词分成 2 个标记会产生无 LMU(例如 http://vdict.com/th%E1%BB%9Di,2,0,0.html )或错误的 LMU(例如 http://vdict.com/gian,2,0,0.html )。因此,正确的越南语分词器会将 thời_gian 输出为一个标记,而不是 thờigian

对于某些其他语言,它们的拼字法可能没有空格来分隔“单词”或“标记”,例如中文、日文,有时还有韩文。在这种情况下,计算机需要标记化来识别 LMU。 LMU 通常会附加语素/词形变化,因此有时在自然语言处理中,形态分析器比分词器更有用。

关于text - 为什么每种语言都需要一个分词器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17314506/

相关文章:

r - 如何从 R 中的数据框列中删除所有未指定的指定单词

html - html中的自动列文本换行

nlp - 如何使用 FastText 处理不平衡的标签数据?

java - 单行 JTextArea

Java:如何将 OutputStream 上的文本格式化为用户控制台的宽度?

java - 使用 Lucene 3.1 索引和搜索 MS Excel

solr - 获得稳定的 SOLR 分数

lucene - 我从哪里开始学习 Lucene.NET Solr Hadoop 和 MapReduce?

numpy - scipy 中的稀疏矩阵是什么意思?

language-agnostic - 什么是用于释义的好的自然语言库?