python - 我有大量相同性质的小文件。我可以在它们的基础上构建字典，但单独压缩每个文件吗？

语料库由字符串(文件名)及其校验和组成，因此我希望它的熵高于普通文本。此外，该集合太大而无法分析，因此我将对其进行采样以创建全局字典。我的任务是否有一种奇特的机器学习方法？

我应该使用哪种算法或者更好的库？

我正在使用 python 以防万一。

最佳答案

我建议您使用 sparse coding .它允许您使用您的数据集来推断一个超完备字典，然后将其用于对您的数据进行编码。如果您的数据确实具有相似的性质，那么这可能很适合您。

关于python - 我有大量相同性质的小文件。我可以在它们的基础上构建字典，但单独压缩每个文件吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13654357/

相关文章：

搜索词间最短长度的算法