google-api - 如何在 Google Ngrams 中搜索 "dated"单词和短语？

我想编写一个应用程序来搜索 Google 的 Ngram 数据，以返回过去比现在更流行的单词和短语(按任意百分比、在任意年份范围内)。

例如:https://books.google.com/ngrams/graph?content=cowabunga&year_start=1950&year_end=2000&corpus=15&smoothing=3

理想情况下，我希望能够找到这些单词和短语，而无需预先指定它们。谁能帮我想出一种方法，使用下载的 Ngrams 数据副本来实现此目的？

最佳答案

下载一些 n-gram 后的第一步是将它们转储到 SQLite3 database 中。例如，我获取了 1-grams starting with the letter 't'

要将它们转储到 SQLite 中，请运行命令 sqlite3 1grams.db

sqlite> create table t1grams (ngram text, year integer, match_count integer, volume_count integer);
sqlite> .separator "\t"
sqlite> .import googlebooks-eng-all-1gram-20120701-t t1grams

第二步是选择年份范围，将其命名为 YEAR_START 和 YEAR_END，以及您的百分比，将其命名为 PERCENT_THRESHOLD。

您的问题简化为一个查询，其中您选择那些 ngram，使得 match_count 在 YEAR_END 的出现率降低 PERCENT_THRESHOLD% 与 YEAR_START 相比。

关于google-api - 如何在 Google Ngrams 中搜索 "dated"单词和短语？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26717324/

上一篇：json - 如何处理 HTTP 加载失败(错误代码 : -1009 [1:50]) in swift 4?

下一篇：scala - 谜题——用自定义类型公开私有(private)成员的公共(public)子成员

相关文章：

android - 从 Android 上传照片到 picasa？

python - 在 Python 中使用 TF-IDF、NGrams 和余弦相似度进行字符串匹配

autocomplete - 使用NGrams使用Solr自动完成搜索

search - elasticsearch ngrams:为什么匹配较短的 token 而不是较长？

r - 如何从 R 中的 ngram 标记列表中有效删除停用词

ruby-on-rails - plusDomains.circles.addPeople 在 Rails 中的 Google API 产生 403 Forbidden

javascript - Google Places API 请求出错

javascript - 如何删除谷歌图表底部的零

machine-learning - 如何使用 MLE 来训练 n-gram 模型？

android - Firebase FCM 推送，获取错误缺少注册 |安卓