python网站语言检测

标签 python scrapy web-crawler language-detection

我正在编写一个机器人,它可以检查数千个网站是否是英文的。

我正在使用 Scrapy(python 2.7 框架)抓取每个网站的首页,

有人可以建议我这是检查网站语言的最佳方法吗,

如有任何帮助,我们将不胜感激。

最佳答案

由于您使用的是 Python,因此可以试用 NLTK。更准确地说,您可以检查 NLTK.detect

更多信息和确切的代码片段在这里:NLTK and language detection

关于python网站语言检测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11507279/

相关文章:

android - 是否有工具可以根据当前工作目录使用 SHA 创建 repo list 文件?

python - SpaCy 安装(扩展)因 pip install 失败

python - 在 Keras 到 TPU 模型中使用 tensorflow 学习率衰减

python - 使用 Scrapy 的 LinkExtractor

python - 如何使用 python Scrapy 抓取延迟加载图像

python - 运行 python 脚本/GTKBuilder 应用程序时出现段错误?

python - 在 Scrapy 中利用 Beautifulsoup

python - 阻止由 selenium firefox 驱动程序产生的弹出窗口

python - Scrapy:HTTP 状态码未处理或不允许?

python - 过滤掉 Python Mechanize 网络爬虫的图像/文件链接