我将一些网络分析的大量输出制成表格,每行列出一条边,这会导致数十 GB,超出了我的资源限制(轻描淡写)。因为我只处理数值,所以我想到我可能比使用 Py3k 默认值更聪明。 IE。如果我只有数字(以及空格和偶尔的小数点),一些其他字符编码可能会为我节省很多空间。由于我的限制,我什至可以保存行尾(不要让 Windows 标准 CRLF 重复)。这方面的最佳做法是什么?
示例行如下所示:
62233 242344 0.42442423
(实际上最后一个数字毫无意义地精确,我将把它缩减为三个非零数字。)
因为我需要用其他软件(实际上是 Stata)读取文本文件,所以我不能将数据保存为任意二进制文件,尽管我看不出 Stata 只读取 UTF-8 文本的原因。或者您只是说避免使用 UTF-8 几乎不能为我节省任何东西?
我认为压缩对我不起作用,因为我逐行编写文本,即使在此期间限制输出大小也很好。我可能很容易弄错压缩是如何工作的,但我认为它可以在文件生成后节省我的空间,但我的问题是我的代码在我对文本文件进行制表(逐行)时已经崩溃了。
感谢所有的想法和澄清的问题!
最佳答案
关于python 节省纯数字字 rune 本文件大小的注意事项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7575329/