我想编写一个应用程序来搜索 Google 的 Ngram 数据,以返回过去比现在更流行的单词和短语(按任意百分比、在任意年份范围内)。
理想情况下,我希望能够找到这些单词和短语,而无需预先指定它们。谁能帮我想出一种方法,使用下载的 Ngrams 数据副本来实现此目的?
最佳答案
下载一些 n-gram 后的第一步是将它们转储到 SQLite3 database 中。例如,我获取了 1-grams starting with the letter 't'
要将它们转储到 SQLite 中,请运行命令 sqlite3 1grams.db
sqlite> create table t1grams (ngram text, year integer, match_count integer, volume_count integer);
sqlite> .separator "\t"
sqlite> .import googlebooks-eng-all-1gram-20120701-t t1grams
第二步是选择年份范围,将其命名为 YEAR_START
和 YEAR_END
,以及您的百分比,将其命名为 PERCENT_THRESHOLD
。
您的问题简化为一个查询,其中您选择那些 ngram
,使得 match_count
在 YEAR_END 的出现率降低
与 PERCENT_THRESHOLD
%YEAR_START
相比。
关于google-api - 如何在 Google Ngrams 中搜索 "dated"单词和短语?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26717324/