php - 批量检查一百万个域的 HTTP header

标签 php python ruby http asynchronous

<分区>

我正在查看超过一百万个域的 HTTP header (即查找 200/404/302)

此时我不需要正文 HTML(尽管我以后可能需要)所以最好使用 HEAD 请求而不是 GET。我知道有些服务器不支持 HEAD,并且为了简单起见愿意牺牲那些不可检查的。

我已经尝试了许多用 PHP 编写的解决方案(curl、multi curl、几个 DIY curl 并行选项),但它们都不够快。

我很乐意使用任何语言,理想的结果是找到一个已经编译好的 C 应用程序,只需获取一个 url 列表并吐出 header 。例如,我使用一个预滚动的 DNS 应用程序来检查所有这些域的 DNS 设置,我所要做的就是打开一个管道并向它提供域,它会在答案进来时吐出答案(不一定在相同的顺序)。

它需要异步或线程化才能足够快。

我探索了一些 python 选项(如 Twisted 框架和 liburl2),但无法启动和运行任何可靠的选项。

希望有人能帮我指出现成的解决方案!

最佳答案

看看gevent ,尤其是在基于它的图书馆。例如:https://github.com/gwik/geventhttpclient

关于php - 批量检查一百万个域的 HTTP header ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11350910/

相关文章:

php - 是否有可用于 phing 的 ssh 和 scp 任务?

javascript - 在提交链接到 php 中的不同页面后保持模式打开

python - Tensorflow - 范围明智回归损失

ruby - 如何将 Nokogiri 与 Ruby 结合使用来替换现有 xml 中的值?

ruby - 为什么 `gsub!` 返回 `nil` ?

ruby-on-rails - 强制 Spree Commerce 在生产模式下禁用 SSL

php - 在包含的文件中使用 PHP 命名空间

javascript - 如何在 Javascript 中加密字符串并确保其安全?

python - Sklearn错误: 'SVR' object has no attribute '_impl'

python - 使用 PythonMagick 从 pdf 更改为图像时图像质量下降