python - 将 Python 字符串传递给 Mallet 以进行主题建模

标签 python nlp nltk topic-modeling mallet

我正在使用 BeautifulSoup 构建一个文本语料库以及从 HTML 中收集的一些元数据。如果我可以从 Python 中调用 Mallet,并让它从 Python 字符串而不是目录中的文本文件中建模主题,那将非常有帮助。这样我就可以将 Mallet 定位的 n 个关键字放入每个文件中。

当我运行时,我收到一条消息说 Mallet 已被识别:

from nltk.classify import mallet
from subprocess import call
mallet.config_mallet("malletdir/mallet-2.0.7/bin")

但我在接下来的步骤中运气不佳,我什至不确定 Mallet 是否接受保存文件以外的任何内容。

我无法找到任何我能真正理解的文档。有人看过这方面的可消化文档吗? (NLTK 书没有进入 Mallet)。我也很乐意了解在 Python 中进行主题建模的任何其他方法,我可以在没有真正深入了解 Python 的情况下操作这些方法。

对不起,这是我的第一个牛仔竞技表演。

最佳答案

如果您仍在寻找解决方案:Gensim(一个 Python 主题建模/机器学习包)有一个 Mallet 包装器,它易于使用且有详细记录。 Here是一些 Gensim 教程和特定的 tutorial用于 Mallet wrapper 。您可能还想阅读一些安装说明(主要是关于设置 Java 内存的部分)here然后你就可以开始了。

关于python - 将 Python 字符串传递给 Mallet 以进行主题建模,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22481094/

相关文章:

python - 在 python 中使用朴素贝叶斯进行文档分类

python-3.x - HashingVectorizer 后输入形状错误 Sklearn 错误

python - 在高级情况下使用 spacy 识别句子中的主语

character-encoding - 如何识别网站的字符编码?

python - 许多二维点之间的最短路径(Shapely LineString 中的旅行商?)

python - 如何测试 Python 3.4 asyncio 代码?

python - Neo4j 导入 csv,并在列中拆分值

python - 如何从 Watson Studio 中的 Jupyter Notebook 连接到 DashDB?

python - 如何使用 TfIdfVectorizer 查找重要单词?

python - NLTK PunktSentenceTokenizer 省略号拆分