我有一个大约 300,000 字的文本文件。每个单词有 5 个字母。
我希望能够确定每个单词在互联网上的独特性。
我的一个想法是用谷歌搜索这个词,看看它产生了多少结果。不幸的是,这违反了他们的服务条款。
我试图考虑任何其他方式,但它必须涉及大量查询某些网站,我怀疑他们会很感激。
大家还有其他想法吗?编程语言并不重要,但我更喜欢 C#。
最佳答案
要查找“书中”的频率,您可以使用 Google Ngram dataset ,但这不是“为了互联网”。如果这是出于学术目的Bing alternative也可能有效,并且它基于互联网频率。
关于c# - 如何判断一个词的独特性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13897843/