java - 如何查找给定文本的html元素

标签 java html xpath jsoup html-parsing

假设我有以下代码需要使用 JSoup 进行解析

<body> 
  <div id="myDiv" class="simple" >
    <p>
	  <img class="alignleft" src="myimage.jpg" alt="myimage" />
	  I just passed out of UC Berkeley
    </p>
  </div> 
</body>

问题是,只给定一个关键字“Berkeley”,是否有更好的方法来查找具有此关键字的 html 中的元素/XPath(或它的列表,如果多次出现该关键字)作为其文本的一部分。

我无法事先查看 html,并且仅在运行时可用。

我当前的实现-使用Java-Jsoup,迭代body的子元素,并获取每个子元素的“ownText”和文本,然后深入到它们的子元素以缩小html元素的范围。我觉得这很慢。

最佳答案

不优雅但简单的方式可能看起来像:

import java.util.HashSet;
import java.util.Set;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Element;
import org.jsoup.parser.Tag;
import org.jsoup.select.Elements;

public class JsoupTest {

    public static void main(String argv[]) {
        String html = "<body> \n" +
                      "  <div id=\"myDiv\" class=\"simple\" >\n" +
                      "    <p>\n" +
                      "   <img class=\"alignleft\" src=\"myimage.jpg\" alt=\"myimage\" />\n" +
                      "   I just passed out of UC Berkeley\n" +
                      "    </p>\n" +
                      "    <ol>\n" +
                        "    <li>Berkeley</li>\n" +
                        "    <li>Berkeley</li>\n" +
                      "    </ol>\n" +
                      "  </div> \n" +
                      "</body>";
        Elements eles = Jsoup.parse(html).getAllElements(); // get all elements which apear in your html
        Set<String> set = new HashSet<>(); 
        for(Element e : eles){
           Tag t = e.tag();
           set.add(t.getName());  // put the tag name in a set or list
        }
        set.remove("head"); set.remove("html"); set.remove("body"); set.remove("#root"); set.remove("img");  //remove some unimportant tags 
        for(String s : set){
             System.out.println(s);
             if(!Jsoup.parse(html).select(s+":contains(Berkeley)").isEmpty()){ // check  if the tag contains your key word
             System.out.println(Jsoup.parse(html).select(s+":contains(Berkeley)").get(0).toString());} // print it out or do something else
            System.out.println("---------------------");
            System.out.println();            
        }       
     }   
  }

关于java - 如何查找给定文本的html元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39984070/

相关文章:

java - 用JSOUP解析HTML文档,无法选择表格节点?

javascript - 在 X 时间后淡出 div

python - 使用 XPath 解析粗体标记后的文本

python - 使用 Python/Selenium 从 Angular 网站中选择复选框

xpath - 如何通过 Xpath 设置元素,在那些已经使用 Xpath 设置的元素内?

java - Spring @Autowired 在 Maven Surefire 插件中生成线程时返回 null

java - 错误 : type parameters of <T>T cannot be determined during Maven Install

javascript - 获取 <a> 标签内的数据

java - 通过 Asterisk Java 检测与 Asterisk 的连接状态

java - 如何仅返回字符串中的数字