有没有比下面的示例更快的方法来查找 Pandas DataFrame 中最长字符串的长度?
import numpy as np
import pandas as pd
x = ['ab', 'bcd', 'dfe', 'efghik']
x = np.repeat(x, 1e7)
df = pd.DataFrame(x, columns=['col1'])
print df.col1.map(lambda x: len(x)).max()
# result --> 6
使用 IPython 的 %timeit
计时时,运行 df.col1.map(lambda x: len(x)).max()
大约需要 10 秒。
最佳答案
DSM 的建议似乎是在不进行手动微优化的情况下获得的最佳效果:
%timeit -n 100 df.col1.str.len().max()
100 loops, best of 3: 11.7 ms per loop
%timeit -n 100 df.col1.map(lambda x: len(x)).max()
100 loops, best of 3: 16.4 ms per loop
%timeit -n 100 df.col1.map(len).max()
100 loops, best of 3: 10.1 ms per loop
请注意,显式使用 str.len()
方法似乎并没有太大的改进。如果您不熟悉 IPython,这是非常方便的 %timeit
语法的来源,我绝对建议您试一试以快速测试此类内容。
更新添加截图:
关于python - 在 Pandas 数据框列中查找最长字符串的长度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21295334/