python - 为什么要对单词进行标记/预处理以进行语言分析?

标签 python nltk tweepy analysis

我目前正在开发一个 Python 推文分析器,其中一部分是对常见单词进行计数。我看过许多关于如何执行此操作的教程,并且大多数教程在进一步分析之前对文本字符串进行标记。

当然,避免这个预处理阶段并直接从字符串中计算单词会更容易 - 那么为什么要这样做呢?

最佳答案

也许我说得太对了,但是标记化不就是指根据分隔符分割输入流(在本例中为字符)以接收任何被视为“标记”的内容吗?

您的标记可以是任意的:您可以在单词级别上执行分析,其中标记是单词,分隔符是任何空格或标点符号。您很可能会分析 n 元语法,其中您的标记对应于一组单词并完成分隔,例如通过滑动窗口。

简而言之,为了分析文本流中的单词,您需要进行标记以接收要操作的“原始”单词。

然而,标记化之后通常会进行词干提取和词形还原以减少噪音。在考虑情感分析时,这一点变得非常清楚:如果您看到标记 happyhappilyhappiness,请执行以下操作:您想分别对待它们,还是不想将它们组合成 happy 的三个实例,以更好地传达“快乐”的更强概念?

关于python - 为什么要对单词进行标记/预处理以进行语言分析?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52916729/

相关文章:

python - 使用推文 ID 使用 tweepy 查找推文在几条推文后停止 - 用户暂停错误

python - 将串行链接的输入和输出转发到其他进程的标准输入和标准输出

python - 如何使用 Python 列出目录

python - pyautogui:继续尝试,直到找到图像

python - 如何将单词归类。 (自然语言处理)

python - 没有名为 pip.req 的模块

python - Django + SQLite + ForeignKey ('self' ) = 迁移失败

python-2.7 - 是什么创造了 `maxent_treebank_pos_tagger/english.pickle` ?

python nltk处理文本,快速去除停用词

python - Tweepy API 调用不起作用