python - 是否提供包含英文单词(包括频率)的列表?

标签 python parsing url word-frequency

<分区>

我正在使用 Python 将 url 解析为单词。我取得了一些成功,但我正在努力减少歧义。例如,我得到以下 url

"abbeycarsuk.com"

我的算法输出:

['abbey','car','suk'],['abbey','cars','uk']

很明显,第二个解析是正确的,但第一个在技术上也是正确的(显然“suk”是我正在使用的字典中的一个词)。

如果有一个单词表也包含每个单词的频率/流行度,那将对我有很大帮助。我可以将其应用到我的算法中,然后选择第二次解析(因为“uk”显然比“suk”更常见)。有谁知道我在哪里可以找到这样的列表?我找到了 wordfrequency.info但是他们对数据收费,而且他们提供的免费样本没有足够的字数让我能够成功使用它。

或者,我想我可以下载一个大型语料库(古腾堡计划?)并自己获取频率值,但是如果这样的数据集已经存在,它会让我的生活变得容易得多。

最佳答案

Peter Norvig(Google 的研究主管)撰写了一篇关于这个主题的详尽文章,其中包含 Python 中的工作示例,并且相当容易理解。可以找到这篇文章以及示例程序中使用的数据(Google ngram 数据的一些摘录)here .可以找到针对多种语言的完整 Google ngram 集 here (如果您住在美国东部,可以免费下载)。

关于python - 是否提供包含英文单词(包括频率)的列表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17658594/

相关文章:

python - CherryPy 后台任务

python - 使用 Lark 解析获取符号

c# - 在 C# 中有任何清理 URI 的方法吗?

php - 将搜索 URL 转换为 SeoFriendly URL

.htaccess - 动态 URL 重定向

python - 无法打开 pickle 的 Sagemaker XGBoost 模型

java - Jython 中的报告实验室 "import error"

python pymysql设置autocommit false失败

python - 获取字符后的所有内容,即使有重复。 Python

c# - Uri.EscapeUriString() 关于重音字符的问题