python - GAE Python 代码在生产中比本地慢得多

在我的 Python GAE 应用程序中，以下代码片段在生产环境中比在本地运行时慢得多。处理过程如下:

在 POST 中加载大约 1 MB 的文本文件。文本文件的每一行都是一个“项目”。
我的代码从文本文件创建一个项目列表，并检查重复项和有效性(通过与已编译的 RE 进行比较)。

代码如下:

def process_items(self, text):
    item_list = text.split()
    item_set = set()
    n_valid = 0
    n_invalid = 0
    n_dups = 0
    out = ""
    for item in item_list:
        if item in item_set:
            n_dups += 1
            out += "DUPLICATE: %s\n" % item
        elif valid_item(item): # This compares against a compiled RE
            item_set.add(item)
            n_valid += 1
            out += "%s\n" % item
        else:
            n_invalid += 1
            out += "INVALID: %s\n" % item
    return out

当我在本地开发服务器上运行此程序时，处理 50,000 行的 1MB 文件需要 5 秒的时间。

当我在生产中运行此命令时，同一文件需要一分钟多的时间并且请求超时。文件上传只需要大约一秒钟，所以我知道瓶颈是上面的代码。

过去，生产代码的速度与本地代码的速度大致相同。我认为这段代码没有改变，所以我怀疑 Google 端可能发生了变化。

知道为什么这段代码现在在生产中速度慢得多吗？我能做些什么来使这段代码更快吗？我需要向用户返回一个带注释的文件，指示哪些行重复，哪些行无效。

编辑:

为了回应 mgilson 的评论，我尝试了以下代码，它在执行时间上产生了巨大的差异!之前一分钟后超时的处理现在只需要大约 5 秒。 GAE 仍然比预期慢(即使考虑到相对较慢的服务器 CPU)，但随着算法的改进，现在对我来说已经不重要了。

def process_items(self, text):
    item_list = text.split()
    item_set = set()
    n_valid = 0
    n_invalid = 0
    n_dups = 0
    for i, item in enumerate(item_list):
        item = item.strip()
        if item in item_set:
            n_dups += 1
            item_list[i] = "DUPLICATE: %s" % item
        elif valid_item(item): # This compares against a compiled RE
            item_set.add(item)
            n_valid += 1
            item_list[i] = item
        else:
            n_invalid += 1
            item_list[i] = "INVALID: %s" % item
    return "\n".join(item_list)

最佳答案

GAE 生产运行速度比本地慢一点也不意外 -- 取决于您的 instance class ，您的生产 CPU 可以降至 600MHz，这比大多数开发人员计算机要慢得多。

为了加快速度，您可以做的一件事是将结果累积在列表中(或从生成器中生成它们)，然后使用 str.join 来获取完整结果:

def process_items(self, text):
    item_list = text.split()
    item_set = set()
    n_valid = 0
    n_invalid = 0
    n_dups = 0
    out = []
    for item in item_list:
        if item in item_set:
            n_dups += 1
            out.append("DUPLICATE: %s\n" % item)
        elif valid_item(item): # This compares against a compiled RE
            item_set.add(item)
            n_valid += 1
            out.append("%s\n" % item)
        else:
            n_invalid += 1
            out.append("INVALID: %s\n" % item)
    return "".join(out)

关于python - GAE Python 代码在生产中比本地慢得多，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39494684/

python - GAE Python 代码在生产中比本地慢得多

上一篇：python - 无法在 Python 3.5 中子类化多处理队列

下一篇：python - get_dummies 分割字符