我正在使用 google_ngram_downloader 读取谷歌数据集。
代码:
from google_ngram_downloader import readline_google_store
fname, url, records = next(readline_google_store(ngram_len=1))
for x in range(0,5):
print next(records)
这里我正在一个一个地阅读数据集从0,1,... a,b,c.. z开始。 next(readline_google_store(ngram_len=1)) 一个一个给出 ngram。我想直接读取数据集,这些数据集将 'a','b' 不是一个一个地读取。
必需:只读数据集,以字母'a' 开头,具有1-gram 数据集。
最佳答案
一种方法是显式添加索引
。使用此行仅获取以 a 开头的长度为 1 的 ngram。
fname, url, records = next(readline_google_store(ngram_len=1,indices='a'))
关于python - 使用 google_ngram_downloader 阅读谷歌 ngram,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26624642/