我有一个由我的大学托管的小网站。该策略是不启用服务器端脚本语言(例如 PHP 等),因此网站要么是静态的,要么可以使用客户端脚本(例如 javascript 等)。我也无法触摸服务器/配置它/安装东西。
无论如何,我想添加一些来自其他网站的数据(即谷歌学者引文),我设法用 Python+lxml 动态地抓取这些数据。 有什么方法可以动态查询这些数据 - 当然是在客户端?
我尝试使用 IronPython 将 Python 代码嵌入到我的网页中,但它提示找不到 lxml 导入库。但类似的解决方案会很棒。 或者一个纯 JavaScript 库,允许打开和解析外部网页...?
谢谢!
最佳答案
没有。 same origin policy防止它。
使用将数据转码为 JSON-P 的第三方代理,或使用不同的主机。
或者,在您控制的服务器上运行一个 cron 作业,定期生成新的静态 HTML 并上传到您的主机。
关于javascript - 用于抓取的服务器端脚本语言的替代方案,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9978862/