python - 大型数据集的 TFIDF

标签 python lucene nlp scikit-learn tf-idf

我有一个包含大约 800 万篇新闻文章的语料库,我需要将它们的 TFIDF 表示为稀疏矩阵。对于相对较少数量的样本,我已经能够使用 scikit-learn 做到这一点,但我相信它不能用于如此庞大的数据集,因为它首先将输入矩阵加载到内存中,这是一个昂贵的过程。

有谁知道,为大型数据集提取 TFIDF 向量的最佳方法是什么?

最佳答案

Gensim 有一个高效的 tf-idf model并且不需要一次将所有内容都保存在内存中。

您的语料库只需要是一个可迭代的,因此它不需要一次将整个语料库保存在内存中。

make_wiki script根据评论,在笔记本电脑上运行了大约 50m 的维基百科。

关于python - 大型数据集的 TFIDF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25145552/

相关文章:

python - hadoop中的数据沿袭报告

python - 分发命令行应用程序

java - 在 Lucene 中索引多个用户的数据的最佳实践是什么

php - 使用 Solr Lucene 索引不同类型的实体/对象

ruby - 在 Ruby 中检测句子元素

python - 使用 nx. Degree_histogram 绘制图的度分布

python - 如何根据 id 从给定文本文件中提取字符串的第一个、第二个和最后一个实例?

linux - Lucene 索引器在 Windows 上工作,在 Linux 上失败

nlp - Wordnet 编辑树结构

python - 在 Python 中将单词解析为(前缀、词根、后缀)