python 节省纯数字字 rune 本文件大小的注意事项

标签 python performance character-encoding io python-3.x

我将一些网络分析的大量输出制成表格,每行列出一条边,这会导致数十 GB,超出了我的资源限制(轻描淡写)。因为我只处理数值,所以我想到我可能比使用 Py3k 默认值更聪明。 IE。如果我只有数字(以及空格和偶尔的小数点),一些其他字符编码可能会为我节省很多空间。由于我的限制,我什至可以保存行尾(不要让 Windows 标准 CRLF 重复)。这方面的最佳做法是什么?

示例行如下所示:

62233 242344 0.42442423

(实际上最后一个数字毫无意义地精确,我将把它缩减为三个非零数字。)

因为我需要用其他软件(实际上是 Stata)读取文本文件,所以我不能将数据保存为任意二进制文件,尽管我看不出 Stata 只读取 UTF-8 文本的原因。或者您只是说避免使用 UTF-8 几乎不能为我节省任何东西?

我认为压缩对我不起作用,因为我逐行编写文本,即使在此期间限制输出大小也很好。我可能很容易弄错压缩是如何工作的,但我认为它可以在文件生成后节省我的空间,但我的问题是我的代码在我对文本文件进行制表(逐行)时已经崩溃了。

感谢所有的想法和澄清的问题!

最佳答案

您可以使用 zlibgzip在生成数据时压缩数据。您根本不需要更改格式,压缩将根据您最常使用的字符和序列进行调整,以创建最佳文件大小。

关于python 节省纯数字字 rune 本文件大小的注意事项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7575329/

相关文章:

javascript - ruby 和 javascript 之间的字符串编码长度不匹配

python - Django 2 中的 URL 模式

python - 减少 ndarray 的第一维 - 保留第一个和最后一个元素

sql - 查询结果组织

java - MYSQL特殊字符问题

rest - Jersey 文件名编码

python - Python opencv 3 SIFT功能提取

python - Scrapy Scraper 不会抓取除比第一页更远的内容

Javascript 插入数组 - 性能

php - 如何使用索引提高查询性能?