php - 从 API 获取数据时诊断瓶颈

我正在运行一个从 API 服务器获取数据的专用服务器。我的机器在 Windows Server 2008 操作系统上运行。

我使用 PHP curl 函数通过 http 请求(并使用代理)获取数据。我为此创建的函数:

function get_http($url)
{

$proxy_file = file_get_contents("proxylist.txt");
$proxy_file = explode("
", $proxy_file);

$how_Many_Proxies = count($proxy_file);

$which_Proxy = rand(0,$how_Many_Proxies);


$proxy = $proxy_file[$which_Proxy];

$ch = curl_init();
curl_setopt($ch, CURLOPT_URL,$url);
curl_setopt($ch, CURLOPT_PROXY, $proxy);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_HEADER, 0);
$curl_scraped_page = curl_exec($ch);
curl_close($ch);

return $curl_scraped_page;
}

然后我使用这个简单的代码将其保存在MySQL数据库中，我与curl并行运行20-40-60-100个版本(在一些数字之后，它不会提高性能，我想知道瓶颈在哪里？) :

function retrieveData($id)
{

$the_data = get_http("http://api-service-ip-address/?id=$id");

return $the_data;   

}

$ids_List = file_get_contents("the-list.txt");
$ids_List = explode("
",$ids_List);

for($a = 0;$a<50;$a++)

{

$array[$a] = get_http($ids_List[$a]);

}


    for($b = 0;$b<50;$b++)
    {


    $insert_Array[] = "('$ids_List[$b]', NULL, '$array[$b]')";


    }
    $insert_Array = implode(',', $insert_Array);

    $sql = "INSERT INTO `the_data` (`id`, `queue_id`, `data`) VALUES $insert_Array;";

    mysql_query($sql);

经过多次优化后，我陷入了每秒检索/获取/保存大约 23 行数据的困境。

MySQL 表非常简单，如下所示:

id |队列 ID(AI) |数据

请记住，数据库似乎并不是瓶颈。当我检查 CPU 使用率时，mysql.exe 进程几乎没有超过 1%。

我通过 125 个代理获取数据。 我已将测试数量减少到 20，但没有任何区别(这表明代理不是瓶颈？ - 因为当使用的代理数量减少 5 倍时，我获得了相同的性能？)

那么，如果 MySQL 和代理不是造成限制的原因，那么还有什么原因以及如何找出原因？

到目前为止，我所做的优化:

用curl函数替换file_get_contents来检索 http数据
将 https://网址替换为 http://网址(这样更快吗？)
为表格建立索引
替换了纯IP地址调用的API域名(所以 DNS 时间不是一个因素)
我只使用低延迟的私有(private)代理。

我的问题:

导致性能限制的可能原因是什么？
如何查找限制原因？
这可能是由于某些 TCP/IP 限制/apache/windows 配置不当造成的吗？
该 API 速度非常快，而且它为其他人提供的查询数量要多很多倍，因此我不认为它不能更快地响应。

最佳答案

每次调用curl函数时，您都会读取代理文件。我建议您在函数之外使用读取操作。我的意思是读取代理一次，并将其存储在数组中以重复使用。
使用此curl选项CURLOPT_TIMEOUT来定义curl执行的固定时间(例如3秒)。它将帮助您调试是否是curl操作的问题。

关于php - 从 API 获取数据时诊断瓶颈，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20757908/

php - 从 API 获取数据时诊断瓶颈

id |队列 ID(AI) |数据

上一篇：php - 将 _DB_Prefix_ 和 $id_manufacturer 放在哪里？

下一篇：php - Dhtmlx Scheduler 未在 TimeInterval 中更新