text - 为什么每种语言都需要一个分词器？

关闭。这个问题需要多问focused 。目前不接受答案。

想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post .

已关闭 9 年前。

处理文本时，为什么需要专门针对该语言的分词器？

通过空格进行标记还不够吗？在什么情况下，简单地使用空格标记化不是一个好主意？

最佳答案

标记化是从表面文本中识别语言上有意义的单位 (LMU)。

Chinese: 如果您在新加坡只能前往一间夜间娱乐场所，Zouk必然是您的不二之选。

English: If you only have time for one club in Singapore, then it simply has to be Zouk.

Indonesian: Jika Anda hanya memiliki waktu untuk satu klub di Singapura, pergilah ke Zouk.

Japanese: シンガポールで一つしかクラブに行く時間がなかったとしたら、このズークに行くべきです。

Korean: 싱가포르에서 클럽 한 군데밖에 갈시간이 없다면, Zouk를 선택하세요.

Vietnamese: Nếu bạn chỉ có thời gian ghé thăm một câu lạc bộ ở Singapore thì hãy đến Zouk.

Text Source: http://aclweb.org/anthology/Y/Y11/Y11-1038.pdf

上面并行文本的标记化版本应如下所示:

enter image description here

对于英语，这很简单，因为每个 LMU 由空格分隔/分隔。但在其他语言中，情况可能并非如此。对于大多数罗马化语言(例如印度尼西亚语)，它们具有相同的空白分隔符，可以轻松识别 LMU。

但是，有时 LMU 是由空格分隔的两个“单词”的组合。例如。在上面的越南语句子中，您必须将thời_gian(在英语中表示时间)读作1个标记，而不是2个标记。将两个单词分成 2 个标记会产生无 LMU(例如 http://vdict.com/th%E1%BB%9Di,2,0,0.html )或错误的 LMU(例如 http://vdict.com/gian,2,0,0.html )。因此，正确的越南语分词器会将 thời_gian 输出为一个标记，而不是 thời 和 gian。

对于某些其他语言，它们的拼字法可能没有空格来分隔“单词”或“标记”，例如中文、日文，有时还有韩文。在这种情况下，计算机需要标记化来识别 LMU。 LMU 通常会附加语素/词形变化，因此有时在自然语言处理中，形态分析器比分词器更有用。

关于text - 为什么每种语言都需要一个分词器？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17314506/

text - 为什么每种语言都需要一个分词器？

上一篇：roku - 错误 : Install Failure: No manifest. 包无效。安装失败:无 list

下一篇：r - 软件包 ‘stringr’ 和 ‘stringi’ 的安装具有非零退出状态