google-api - 如何在 Google Ngrams 中搜索 "dated"单词和短语?

标签 google-api n-gram

我想编写一个应用程序来搜索 Google 的 Ngram 数据,以返回过去比现在更流行的单词和短语(按任意百分比、在任意年份范围内)。

例如:https://books.google.com/ngrams/graph?content=cowabunga&year_start=1950&year_end=2000&corpus=15&smoothing=3

理想情况下,我希望能够找到这些单词和短语,而无需预先指定它们。谁能帮我想出一种方法,使用下载的 Ngrams 数据副本来实现此目的?

最佳答案

下载一些 n-gram 后的第一步是将它们转储到 SQLite3 database 中。例如,我获取了 1-grams starting with the letter 't'

要将它们转储到 SQLite 中,请运行命令 sqlite3 1grams.db

sqlite> create table t1grams (ngram text, year integer, match_count integer, volume_count integer);
sqlite> .separator "\t"
sqlite> .import googlebooks-eng-all-1gram-20120701-t t1grams

第二步是选择年份范围,将其命名为 YEAR_STARTYEAR_END,以及您的百分比,将其命名为 PERCENT_THRESHOLD

您的问题简化为一个查询,其中您选择那些 ngram,使得 match_countYEAR_END 的出现率降低 PERCENT_THRESHOLD%YEAR_START 相比。

关于google-api - 如何在 Google Ngrams 中搜索 "dated"单词和短语?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26717324/

相关文章:

android - 从 Android 上传照片到 picasa?

python - 在 Python 中使用 TF-IDF、NGrams 和余弦相似度进行字符串匹配

autocomplete - 使用NGrams使用Solr自动完成搜索

search - elasticsearch ngrams:为什么匹配较短的 token 而不是较长?

r - 如何从 R 中的 ngram 标记列表中有效删除停用词

ruby-on-rails - plusDomains.circles.addPeople 在 Rails 中的 Google API 产生 403 Forbidden

javascript - Google Places API 请求出错

javascript - 如何删除谷歌图表底部的零

machine-learning - 如何使用 MLE 来训练 n-gram 模型?

android - Firebase FCM 推送,获取错误缺少注册 |安卓