我有一堆 html 文档 10-15,我必须在 gensim 中应用 LDA 算法 我一直坚持创建语料库,因为我不明白如何为 html 文档集合设计语料库。网站上的示例显示了它们在维基百科压缩文件 .xml.bz 上的创建
任何人请指导我如何在一堆 html 文档上应用 LDA。 提前致谢
最佳答案
查看 HTML 处理库,例如 lxml
或 beautifulsoup
。
对于更高级别的处理(删除样板、从 HTML 中提取纯文本),请查看例如洪扎·波米卡莱克的jusText包。
获得纯文本文档后,您可以按照 gensim's tutorials 继续操作.
关于python - Genism 中 Html 文档的 LDA,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22361438/