python - 我有大量相同性质的小文件。我可以在它们的基础上构建字典,但单独压缩每个文件吗?

标签 python algorithm compression machine-learning storage

语料库由字符串(文件名)及其校验和组成,因此我希望它的熵高于普通文本。此外,该集合太大而无法分析,因此我将对其进行采样以创建全局字典。我的任务是否有一种奇特的机器学习方法?

我应该使用哪种算法或者更好的库?

我正在使用 python 以防万一。

最佳答案

我建议您使用 sparse coding .它允许您使用您的数据集来推断一个超完备字典,然后将其用于对您的数据进行编码。如果您的数据确实具有相似的性质,那么这可能很适合您。

关于python - 我有大量相同性质的小文件。我可以在它们的基础上构建字典,但单独压缩每个文件吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13654357/

相关文章:

搜索词间最短长度的算法

c++ - 打印从数字创建的可能字符串

c# - 如何压缩数据

gwt - 在 GWT 中压缩数据

python - 使用Python和Tesseract OCR解决Captcha

arrays - 选择数字以最大化间隔

python - 找不到redis send_command错误

algorithm - WAN 优化中使用的技术/算法

python - python中的嵌套try语句?

python - 在python中重载任意运算符