<分区>
我的需要是,如果我得到一个网页的 URL,我必须从中提取所有文本。现在,当您像 fb 时间轴一样向下滚动到末尾时,网页会进一步加载。我如何以编程方式从这些网页中提取文本?有什么想法/例子吗?
标签 php javascript jquery web
<分区>
我的需要是,如果我得到一个网页的 URL,我必须从中提取所有文本。现在,当您像 fb 时间轴一样向下滚动到末尾时,网页会进一步加载。我如何以编程方式从这些网页中提取文本?有什么想法/例子吗?
最佳答案
从网页获取动态加载的内容变得越来越复杂。
一个建议是,打开浏览器的开发人员面板并查看网络选项卡。如果您可以破译 AJAX 调用背后的逻辑,那么您可以自己调用这些 URL,例如使用 PHPs file_get_contents
。类似于 http://url.com/morecontent.php?offset=20
。
另一个建议是使用像 phantom.js 这样的 headless 浏览器,它包含一个自己的 javascript 引擎并且可以通过编程方式控制 - http://phantomjs.org/
关于php - 从动态网页中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16748668/