java - 使用java查找html页面内容中元素的xpath

标签 java xpath html-parser htmlcleaner jericho-html-parser

我是 xpath 表达式的初学者,

我有以下网址:

http://www.newark.com/white-rodgers/586-902/contactor-spst-no-12vdc-200a-bracket/dp/35M1913?MER=PPSO_N_P_EverywhereElse_None

它保存 html 页面内容,使用以下 xpaths 它会在 javascript 中产生相同的 ul 元素:

  1. //*[@id="moreStock_5257711"]
  2. //*[@id="priceWrap"]/div[1]/div/a/following-sibling::ul
  3. //html/body/div/div/div/div/div/div/div/div/div/div/a/following-sibling::ul

使用这个xpaths我应该如何在java中获得相同的ul元素

我尝试使用“html clean”,但在 xpath 中失败 -

"//*[@id="priceWrap"]/div[1]/div/a/following-sibling::ul",
"//html/body/div/div/div/div/div/div/div/div/div/div/a/following-sibling::ul"

它适用于“//*[@id='moreStock_5257711']”这个xpath。 下面是我在 html clean 中尝试过的代码

package com.test.htmlcleaner.HtmlCleaner;

import java.io.IOException;

import org.htmlcleaner.CleanerProperties;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
import org.htmlcleaner.XPatherException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

public class Test {
 public static void main(String[] args) {

  try {
 HtmlCleaner htmCleaner = new HtmlCleaner();
   CleanerProperties cleanerProperties = htmCleaner.getProperties();
   cleanerProperties.setTranslateSpecialEntities(true);
   cleanerProperties.setTransResCharsToNCR(true);
   cleanerProperties.setOmitComments(true);

   String s = "http://www.newark.com/white-rodgers/586-902/contactor-spst-no-12vdc-200a-bracket/dp/35M1913?MER=PPSO_N_P_EverywhereElse_None"; 
     Document doc = Jsoup.connect(s).timeout(30000).userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.2 (KHTML, like Gecko) Chrome/15.0.874.120 Safari/535.2").get();

    String pageContent=doc.toString();
    TagNode node = htmCleaner.clean(pageContent);
    Object[] statsNode = node.evaluateXPath("//*[@id='moreStock_5257711']");
    if(statsNode.length > 0) {    
             for(int i=0;i<statsNode.length;i++){
               TagNode resultNode = (TagNode)statsNode[i];
               System.out.println("hi");
                System.out.println("Element Text : " +resultNode.getText().toString().trim());                 
               }
          }
  } catch (IOException e) {
   // TODO Auto-generated catch block
   e.printStackTrace();
  } catch (XPatherException e) {
   // TODO Auto-generated catch block
   e.printStackTrace();
  }
 }
}

我要求所有 xpath 都应与 java 中的一个包一起使用

任何人都可以建议我使用 java 获取 ul 元素的所有 xpaths 表达式吗?

感谢您的提前问候。

最佳答案

尝试调试 HtmlCleaner 创建的实际 HTML DOM 树。使用以下代码:

String pageContent = doc.toString();
TagNode node = htmCleaner.clean(pageContent);

StringWriter buffer = new StringWriter();
node.serialize(new PrettyHtmlSerializer(cleanerProperties), buffer);

System.out.println(buffer.toSting());

现在,尝试在此缓冲区输出上应用所有 XPath,看看它们为什么不起作用。

关于java - 使用java查找html页面内容中元素的xpath,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28713685/

相关文章:

xml - 如何选择没有文本子元素的元素

xml - 选择同一级别上两个节点之间的所有元素

Python:使用 html 解析器提取特定数据

java - 迭代 DFS 比递归 DFS 更快吗?

java - 如何从 xpath 表达式中获取真正的节点顺序 (java)

java - 如何将 JSONArray 转换为 int 数组?

python - 如何忽略 beautifulsoup4 python 上的标签

c# - HTML 解析器验证标签

java - 处理 ExecutionException 的最佳方法是什么?

Java Nifi 处理器与 Hibernate JPA