Python tabstop-aware len() 和填充函数

Python 的 len() 和像 string.ljust() 这样的填充函数不是制表位感知的，即它们像对待任何其他单角字符一样对待 '\t' ，并且不要将 len() 舍入到最接近的制表位倍数。示例:

len('Bear\tnecessities\t')

是 17 而不是 24(即 4+(8-4)+11+(8-3))

然后说我还想要一个函数 pad_with_tabs(s) 这样

pad_with_tabs('Bear', 15) = 'Bear\t\t'

寻找这些的简单实现 - 首先是紧凑性和可读性，其次是效率。这是一个基本但令人恼火的问题。 @gnibbler - 你能展示一个纯粹的 Pythonic 解决方案，即使它说效率低 20 倍吗？

当然，您可以使用 str.expandtabs(TABWIDTH) 来回转换，但这很笨拙。导入数学以获得 TABWIDTH * int( math.ceil(len(s)*1.0/TABWIDTH) ) 也似乎是大材小用。

我无法管理比以下更优雅的东西:

TABWIDTH = 8

def pad_with_tabs(s,maxlen):
  s_len = len(s)
  while s_len < maxlen:
    s += '\t'
    s_len += TABWIDTH - (s_len % TABWIDTH)
  return s

并且由于 Python 字符串是不可变的，除非我们想将我们的函数猴子修补到字符串模块中以将其作为方法添加，否则我们还必须分配给函数的结果:

s = pad_with_tabs(s, ...)

特别是我无法使用列表理解或 string.join(...) 获得干净的方法:

''.join([s, '\t' * ntabs])

如果 len(s) 是 < TABWIDTH 的整数倍)，或者 len(s)>=maxlen 已经没有特殊情况。

谁能展示更好的 len() 和 pad_with_tabs() 函数？

最佳答案

TABWIDTH=8
def my_len(s):
    return len(s.expandtabs(TABWIDTH))

def pad_with_tabs(s,maxlen):
    return s+"\t"*((maxlen-len(s)-1)/TABWIDTH+1)

为什么我要使用 expandtabs()？
好吧，它很快

$ python -m timeit '"Bear\tnecessities\t".expandtabs()'
1000000 loops, best of 3: 0.602 usec per loop
$ python -m timeit 'for c in "Bear\tnecessities\t":pass'
100000 loops, best of 3: 2.32 usec per loop
$ python -m timeit '[c for c in "Bear\tnecessities\t"]'
100000 loops, best of 3: 4.17 usec per loop
$ python -m timeit 'map(None,"Bear\tnecessities\t")'
100000 loops, best of 3: 2.25 usec per loop

任何迭代你的字符串的东西都会变慢，因为即使你在循环中什么都不做，迭代也比 expandtabs 慢 4 倍。

$ python -m timeit '"Bear\tnecessities\t".split("\t")'
1000000 loops, best of 3: 0.868 usec per loop

即使只是在选项卡上拆分也需要更长的时间。您仍然需要迭代拆分并将每个项目填充到制表位

关于Python tabstop-aware len() 和填充函数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1746116/

Python tabstop-aware len() 和填充函数

上一篇：python - 如何用python/django实现restful webservice

下一篇：python - Python 中的神经网络，不使用任何现成的库......即从第一原则开始......帮助!