python - 为什么要对单词进行标记/预处理以进行语言分析？

我目前正在开发一个 Python 推文分析器，其中一部分是对常见单词进行计数。我看过许多关于如何执行此操作的教程，并且大多数教程在进一步分析之前对文本字符串进行标记。

当然，避免这个预处理阶段并直接从字符串中计算单词会更容易 - 那么为什么要这样做呢？

最佳答案

也许我说得太对了，但是标记化不就是指根据分隔符分割输入流(在本例中为字符)以接收任何被视为“标记”的内容吗？

您的标记可以是任意的:您可以在单词级别上执行分析，其中标记是单词，分隔符是任何空格或标点符号。您很可能会分析 n 元语法，其中您的标记对应于一组单词并完成分隔，例如通过滑动窗口。

简而言之，为了分析文本流中的单词，您需要进行标记以接收要操作的“原始”单词。

然而，标记化之后通常会进行词干提取和词形还原以减少噪音。在考虑情感分析时，这一点变得非常清楚:如果您看到标记 happy、happily 和 happiness，请执行以下操作:您想分别对待它们，还是不想将它们组合成 happy 的三个实例，以更好地传达“快乐”的更强概念？

关于python - 为什么要对单词进行标记/预处理以进行语言分析？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52916729/