我想用ajax或jquery阅读www.google.com的html源代码(我不只是想显示源代码,我需要解析它,所以有xmlhttp.responseText很好)。
read contents of an external webpage and get specific elements有一个很好的方法在服务器端使用 php 来做到这一点 Can Javascript read the source of any web page?如果您尝试读取本地域的页面,那就太好了
yql+JSON 是一种可能性,如上所述,但看起来很慢并且开销很大
我更喜欢 ajax,因为我不需要加载 90k jquery 库,而且据我所知......
var xmlhttp=null;
var url = 'bot.html?url=http://google.com'; //must redirect in bot.html
//var url='http://www.google.com'; wont work, 0 xmlhttp.status error
if (window.XMLHttpRequest) { // code for IE7+, Firefox, Chrome, Opera, Safari
xmlhttp=new XMLHttpRequest(); //src says buggy for IE7
} else {// code for IE6, IE5
xmlhttp=new ActiveXObject("Microsoft.XMLHTTP");
}
xmlhttp.open("GET",url,true);
xmlhttp.send(null);
xmlhttp.onreadystatechange=function() {
if (xmlhttp.readyState==4 && xmlhttp.status==200) {
document.getElementById("result").innerHTML= xmlhttp.responseText;
}
}
与 jquery 非常相似...
$("#result").load(url);
其他提到的 stackoverflow 中未提及的是如何处理 ?url= 。我做了(保留所有js)...
bot.html:
<head>
<script type="text/javascript">
var vars = query.split("&");
var pair = vars[0].split("=");
if (pair[0]=='url') { // ex bot.html?url=http://www.google.com
alert('hi '+pair[1]);
window.location = pair[1];
//top.location.href=pair[1]; or
}
</script>
... above jquery or ajax ...
<div id="result">Fill Me</div>
所有这些都适用于本地页面 var url='index.php' (没有重定向),但是,这些都不适用于外部链接,例如 google.com,我似乎无法 var url='google .com',如果我尝试代理(如 jquery 所回避的,没有示例,在上面提到的 stackoverflow 中),它会加载 bot.html (本身)的源代码(从不执行警报或重定向),我认为这是有道理的,因为它正在加载,而不是正在执行。我想我可以对 ajax 使用相同的代理技巧。
尝试通过 .htaccess 重定向/代理不适合此应用程序
最佳答案
我不明白你想用问题中的第二段代码(从bot.html
开始)来完成什么。
但是!我想我有一个解决方案给你。您可能会遇到同源策略( Wikipedia 或 MDN 文档),该策略基本上规定 XMLHttpObjects 无法向除它们最初提供服务的域之外的域发出请求。这背后的想法是,如果没有在浏览器级别(换句话说,比 JS 运行时本身更高的权限)执行这种强制措施,外部脚本就很容易通过更改 AJAX 请求来窃听、破坏或劫持您的 AJAX 请求。向其发出此类请求的域或参数。
解决方法是使用脚本标签。这是我改编自 jQuery source 的一些代码(搜索“DOMContentLoaded”以获取相关部分)即可做到这一点。我也不想包含整个 jQuery 库来发出跨域 Ajax 请求 - 我们正在测试客户端操作的速度,并且某些测试目标已经不需要 jQuery,因此包含它会扭曲测试.
function saveTime() {
var s = document.createElement("script"), h = document.head || document.getElementsByTagName("head")[0] || document.documentElement;
s.async = "async";
s.type = "text/javascript";
s.onreadystatechange = function(result) {
// callback function
// Append the result into the inner HTML here
};
s.src = url;
h.insertBefore(s, h.firstChild);
}
这应该可以满足您的需求,但您可能需要调整 type
属性来获取原始/完整的 HTML 内容。它附加了 <script>
使用您在 url
中指定的源进行标记到 <head>
的开头标签(或正文,对于非常旧版本的 IE)。我没有调整清理代码。如果您查看 jQuery 源代码,您会发现它们实际上有额外的处理程序,用于在请求完成或失败后从 DOM 中删除标记。
关于ajax - 在ajax或jquery中读取外部网页的源代码(无yql+JSON/无php/无iframe),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13674202/