语料库由字符串(文件名)及其校验和组成,因此我希望它的熵高于普通文本。此外,该集合太大而无法分析,因此我将对其进行采样以创建全局字典。我的任务是否有一种奇特的机器学习方法?
我应该使用哪种算法或者更好的库?
我正在使用 python 以防万一。
最佳答案
我建议您使用 sparse coding .它允许您使用您的数据集来推断一个超完备字典,然后将其用于对您的数据进行编码。如果您的数据确实具有相似的性质,那么这可能很适合您。
关于python - 我有大量相同性质的小文件。我可以在它们的基础上构建字典,但单独压缩每个文件吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13654357/