python - python 中的快速/优化 N-gram 实现

标签 python nlp nltk information-retrieval n-gram

哪个 ngram 实现在 python 中最快?

我尝试分析 nltk 与 scott 的 zip (http://locallyoptimal.com/blog/2013/01/20/elegant-n-gram-generation-in-python/):

from nltk.util import ngrams as nltkngram
import this, time

def zipngram(text,n=2):
  return zip(*[text.split()[i:] for i in range(n)])

text = this.s

start = time.time()
nltkngram(text.split(), n=2)
print time.time() - start

start = time.time()
zipngram(text, n=2)
print time.time() - start

[输出]

0.000213146209717
6.50882720947e-05

在 python 中生成 ngram 有没有更快的实现?

最佳答案

一些分析的尝试。我认为使用生成器可以提高这里的速度。但与原来的轻微修改相比,改进并不明显。但是,如果您不需要同时使用完整列表,生成器函数应该会更快。

import timeit
from itertools import tee, izip, islice

def isplit(source, sep):
    sepsize = len(sep)
    start = 0
    while True:
        idx = source.find(sep, start)
        if idx == -1:
            yield source[start:]
            return
        yield source[start:idx]
        start = idx + sepsize

def pairwise(iterable, n=2):
    return izip(*(islice(it, pos, None) for pos, it in enumerate(tee(iterable, n))))

def zipngram(text, n=2):
    return zip(*[text.split()[i:] for i in range(n)])

def zipngram2(text, n=2):
    words = text.split()
    return pairwise(words, n)


def zipngram3(text, n=2):
    words = text.split()
    return zip(*[words[i:] for i in range(n)])

def zipngram4(text, n=2):
    words = isplit(text, ' ')
    return pairwise(words, n)


s = "Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum."
s = s * 10 ** 3

res = []
for n in range(15):

    a = timeit.timeit('zipngram(s, n)', 'from __main__ import zipngram, s, n', number=100)
    b = timeit.timeit('list(zipngram2(s, n))', 'from __main__ import zipngram2, s, n', number=100)
    c = timeit.timeit('zipngram3(s, n)', 'from __main__ import zipngram3, s, n', number=100)
    d = timeit.timeit('list(zipngram4(s, n))', 'from __main__ import zipngram4, s, n', number=100)

    res.append((a, b, c, d))

a, b, c, d = zip(*res)

import matplotlib.pyplot as plt

plt.plot(a, label="zipngram")
plt.plot(b, label="zipngram2")
plt.plot(c, label="zipngram3")
plt.plot(d, label="zipngram4")
plt.legend(loc=0)
plt.show()

对于这个测试数据,zipngram2 和 zipngram3 似乎是最快的。

enter image description here

关于python - python 中的快速/优化 N-gram 实现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21883108/

相关文章:

python - multiprocessing.pool.MaybeEncodingError : Error sending result occurs at last object

Python 集不会执行联合

python - 将字典列表合并为一个字典,并将项目附加到列表

python - 如何将 Django 2.2 与旧版 PostgreSQL 8.4 数据库一起使用?

machine-learning - Embedding层的初始值是多少?

nlp - 如何理解和添加这个例子中的音节中断?

python - 用于 POS 标记和 Lemmatizer 的多语言 NLTK

nlp - 如何在文本中搜索(可分离的)短语

python - 如何在nltk中用逗号或句点分割字符串

Python正则表达式nltk网站提取