我目前正在开发一个 Python 推文分析器,其中一部分是对常见单词进行计数。我看过许多关于如何执行此操作的教程,并且大多数教程在进一步分析之前对文本字符串进行标记。
当然,避免这个预处理阶段并直接从字符串中计算单词会更容易 - 那么为什么要这样做呢?
最佳答案
也许我说得太对了,但是标记化不就是指根据分隔符分割输入流(在本例中为字符)以接收任何被视为“标记”的内容吗?
您的标记可以是任意的:您可以在单词级别上执行分析,其中标记是单词,分隔符是任何空格或标点符号。您很可能会分析 n 元语法,其中您的标记对应于一组单词并完成分隔,例如通过滑动窗口。
简而言之,为了分析文本流中的单词,您需要进行标记以接收要操作的“原始”单词。
然而,标记化之后通常会进行词干提取和词形还原以减少噪音。在考虑情感分析时,这一点变得非常清楚:如果您看到标记 happy
、happily
和 happiness
,请执行以下操作:您想分别对待它们,还是不想将它们组合成 happy
的三个实例,以更好地传达“快乐”的更强概念?
关于python - 为什么要对单词进行标记/预处理以进行语言分析?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52916729/