python - Genism 中 Html 文档的 LDA

我有一堆 html 文档 10-15，我必须在 gensim 中应用 LDA 算法我一直坚持创建语料库，因为我不明白如何为 html 文档集合设计语料库。网站上的示例显示了它们在维基百科压缩文件 .xml.bz 上的创建

任何人请指导我如何在一堆 html 文档上应用 LDA。提前致谢

最佳答案

查看 HTML 处理库，例如 lxml 或 beautifulsoup。

对于更高级别的处理(删除样板、从 HTML 中提取纯文本)，请查看例如洪扎·波米卡莱克的jusText包。

获得纯文本文档后，您可以按照 gensim's tutorials 继续操作.

关于python - Genism 中 Html 文档的 LDA，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22361438/