java - 使用 JSoup 从网站源代码中提取 JavaScript 行

标签 java jsoup

我从网站上获得了这个 JavaScript 源代码。

<script>"@context": "http://schema.org/","@type": "Product","name": "Shower head","image": "https://example.com/jpeg.png","description": "Hello stackoverflow","url": "link.com","offers": {"@type": "Offer","priceCurrency": "USD","price": "10.00","itemCondition": "http://schema.org/NewCondition","availability": "http://schema.org/InStock","url": "MyUrl.com","availableAtOrFrom": {"@type": "Place","name": "Geneva, NY","geo": {"@type": "GeoCoordinates","latitude": "42.8361","longitude": "-76.9874"}},"seller": {"@type": "Person","name": "Edward"}}}</script>

我正在尝试使用此 JSoup 代码来提取最后一行 "name": "Edward"

public class JsoupCrawler {
    public static void main(String[] args) {
        try {
            Document doc = Jsoup.connect("https://example.com").userAgent("mozilla/17.0").get();
            Elements temp = doc.select("script.name");
            int i=0;
            for (Element nameList:temp) {
              i++;
              System.out.println(i+  " "+ nameList.getElementsByTag(" ").first().text() );
            } 
        }  
        catch (IOException e) {
            ex.printStackTrace();  
        } 
    }
}

有人可以帮我解决这个问题,还是不可能?

最佳答案

JSoup 正在解释 HTML。 <script>的内容元素包含 JavaScript,因此 JSoup 无法解释 <script> 中的内容元素。

看起来好像<script>的内容元素采用 JSON 格式。所以你可以使用 JSoup 来获取 <script> 的内容element,然后尝试将这个字符串放入JSON解释库中。如果您想深入了解,请看这里:How to parse JSON in Java

如果这是一次性的,您可以相信 <script> 的内容元素不要改变太多,也可以使用正则表达式来到达所需的部分。不过,我建议使用 JSON 库。

关于java - 使用 JSoup 从网站源代码中提取 JavaScript 行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50192368/

相关文章:

java - 使用 JSoup 抓取 HTML,出现 HTTP 错误,状态 456

java - 为什么欧元符号不能在此网页中正常显示?

java - 垃圾回收"Island of isolation"

java - HttpURLConnection 响应代码返回 500

java - 如何使用 JOOQ 或任何其他库使用以下数据构建方言敏感的 SQL 查询?

java - 如何使用 Jsoup 判断 HTML 表格是否有空单元格 (&nbsp)?

java - hibernate 优势?

java - java中如何将一个xml文档添加到另一个xml文档中

java - jsoup:向后遍历 Element 类型的对象

javascript - 我如何从 Android 中具有高 javascript 的网站检索?