webkit - 构建网络爬虫——使用 Webkit 包

标签 webkit web-crawler javascript dom-manipulation

我正在尝试构建网络爬虫。
我需要两件事:

将 HTML 转换为 DOM 对象。
按需执行现有的 JavaScript。

我期望的结果是一个 DOM 对象，其中执行加载的 JavaScript 已经执行。
此外，我需要一个选项来按需执行额外的 JavaScript(在诸如 onMouseOver、onMouseClick 等事件上) 首先，我找不到好的文档来源。
我搜索了 Webkit Main Page但找不到该包用户的太多信息，也没有有用的代码示例。另外，在一些论坛上，我看到说明不使用爬虫的 Webkit 接口(interface)，而是直接使用 DOM 和 Javascript 内包。

我正在搜索文档和代码示例。
此外，关于正确使用的任何建议。

工作环境:

操作系统:Windows
语言:C++

最佳答案

查看与 WebKit 主干一起打包的一些测试工具。大多数端口(据我所知)包括 DumpRenderTree，它实例化 WebKitView，然后在处理指定文件后吐出渲染树。从理论上讲，它是 WebKit 可能的最简单示例之一。

关于webkit - 构建网络爬虫——使用 Webkit 包，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/162181/

上一篇：c# - 在 ASP.NET 页面中将项目从一个列表拖放到另一个列表？

下一篇：javascript - 如何获取描述 block 中输入的描述？ ( typescript )

相关文章：

javascript - cssText webkit 错误？

jquery - 使用 Mobile Safari 进行 OnSubmit

javascript - HTML 书状分页

c# - Abot 网络爬虫性能

javascript - 搜索蜘蛛是否会爬取已被js删除的元素？

python - 如何避免在网络爬行时出现断词

javascript - 使用 JavaScript 在 Riak kv 中进行 MapReduce

javascript - 如何使用AngularJS拦截所有http请求？

与 Android webkit 配合使用的 Javascript 调试器

Javascript:根据值对数组中的相似项目进行分组