python - Genism 中 Html 文档的 LDA

标签 python gensim

我有一堆 html 文档 10-15,我必须在 gensim 中应用 LDA 算法 我一直坚持创建语料库,因为我不明白如何为 html 文档集合设计语料库。网站上的示例显示了它们在维基百科压缩文件 .xml.bz 上的创建

任何人请指导我如何在一堆 html 文档上应用 LDA。 提前致谢

最佳答案

查看 HTML 处理库,例如 lxmlbeautifulsoup

对于更高级别的处理(删除样板、从 HTML 中提取纯文本),请查看例如洪扎·波米卡莱克的jusText包。

获得纯文本文档后,您可以按照 gensim's tutorials 继续操作.

关于python - Genism 中 Html 文档的 LDA,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22361438/

相关文章:

Windows 上的 Python sqlite3 "unable to open database file"

machine-learning - 如何在新闻文章中使用 gensim 进行 lda?

python - 关于在 gensim 中如何实现 tf-idf 模型的一些困惑

gensim - 如何从gensim获取word2index

python - 在 python 中处理非常大的数字

python - 如何通过 OpenDAP 使用 xarray 打开多个 NetCDF 文件?

Python 多线程池 Windows 卡住

python - Doc2vec:model.docvecs 的长度仅为 10

machine-learning - 如何使用 FastText 查找相似的句子(词汇外的句子)

python - 如何从 Python 与 MATLAB 交互?