javascript - JSOUP:从 HTML 文档解析 Javascript 字段?

标签 javascript parsing jsoup

我对 JSOUP 相当陌生,并且在标签或 id 值上使用 Element.select 进行解析时没有遇到任何问题。我遇到的问题是如何筛选页面中的 javascript 代码。我在这里加载文档:

Document doc = Jsoup.connect(pageUrl)
                .userAgent(Agent)
                .timeout(5000)
                .get();

我尝试提取的 JavaScript 字段值如下:

arrayGPSLocation["0"]    = "-19473982376,6848295867";
arrayGPSLocation["1"]    = "-19473982376,6848296245";

由于这些数组值不在标准代码标记中 <> JSOUP 是执行此操作的适当方法吗?我喜欢 JSOUP 的 API。唯一的其他方法是将字符串例程组合在一起...... 即:

int start = pageBuffer.indexOf("arrayGPSLocation[\" + counter + \"]");
int end = pageBuffer.indexOf(";");
String result = pageBuffer.subString(start,end);

这个伪代码示例在解析大页面时会出现严重的性能问题。有谁知道如何使用 JSOUP 来完成此任务还是我应该编写自己的抓取工具?

最佳答案

使用 Jsoup 可以做的就是选择包含 javascript 代码的元素,获取其字符串值并使用该字符串。就像您在示例中所做的那样。

关于javascript - JSOUP:从 HTML 文档解析 Javascript 字段?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10270473/

相关文章:

javascript - 带有 IOS 问题的 UIWebView javascript

parsing - 你如何以贪婪的方式使用 parsec?

python - 提取 numpy 结构化数组的最高值

java - Jsoup:获取所有标题标签

javascript - 使用链接 chop html 中的文本以显示更多/更少并将元素保留在内部

javascript - 使用 C# 从 DatePicker 获取周 ID

java - 在 HTTP POST 中发布什么内容

java - 以编程方式设置 jsoup 解析的网页的值

javascript - css 如何避免在此代码中固定高度

parsing - 选择的解析器组合器库(haskell)