我正准备通过 Mallet 进行主题建模,并已完成提取原始数据集。当然,在导入并开始建模之前,我需要采取一些步骤来清理和简化文本。我已经准备好了停用词列表,并且我知道我可以使用 Excel 轻松删除标点符号、数字等。我有点模糊的是词干提取和词形还原。不是概念本身,而是最好的方法是什么。
为了提供更好的概述,我想做的是:
- 标准化拼写不一致的情况,例如topicmodeling -> 主题建模
- 删除单词中多余的空格,例如连续两个空格
- 词干和词形还原
根据经验,任何人都可以推荐这三个方法的最佳方法,尤其是最后一个方法吗?有没有一个应用程序可供我使用?
非常感谢!
最佳答案
首先看看如果没有这些干预措施会发生什么。
空格和标点符号通常不是问题,但您可能需要确保文本不包含制表符或换行符,因为这些可能会混淆数据导入功能。导入 Excel 等关注引号的文件时存在一个常见问题,如果引号不匹配,它可能会将多行解释为单个文档。
词干提取、词形还原和拼写正则化的问题在于它们与主题模型本身具有相同的目标。它的目标是根据上下文组合语义相似的单词,因此它实际上不存在您在英语中看到的那种变体问题。对于具有大量形态的其他语言,您可能需要更高级的东西。但在大多数情况下,您实际上只是让模型的工作变得更加困难。
使用词干分析器的一种方法是在建模之后进行词干提取。人们通常认为他们需要词干分析器,因为他们在模型输出中看到一个单词的多个小变体。我认为这是该模型正在运行的标志,但我可以看到它可能不是最好的界面。在这种情况下,您可能会注意到某些单词映射到相同的词干,并且仅显示最常见单词的原始形式。
根据我的经验,您可以采取的最有效的干预措施是清理输入中的问题(例如连字符
单词)并将重要的多单词术语转换为单个术语(例如主题建模
到 topic_modeling
)。
关于lda - 词干提取和词形还原 - 什么方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68168283/