java - 如何从网站 url 获取 html 元素名称

我想要获取 HTML 元素名称和属性名称(我不想使用 documet.getElementsByTag("*") 或 document.select("*"))无需硬编码。

是否有机会使用 Apache Tika 动态获取 HTML 元素名称，如果可能，请为我提供任何示例？

    Document doc=Jsoup.connect("http://seenyc.co/").get();
            Elements elements=doc.getAllElements();
            for(Element ele:elements){


                String  s=ele.tagName();
                Attributes n=ele.attributes();
                System.out.println(s);
                System.out.println(n);
}

最佳答案

   HashSet<String> allTags=new HashSet<String>();
   Document doc=Jsoup.connect("http://seenyc.co/").get();
            Elements elements=doc.getAllElements();
            for(Element ele:elements){
                String  s=ele.tagName();
                Attributes n=ele.attributes();
                allTags.add(s);
}

// here your hashset will have all distinct tag names from website

这是你想要的吗？

关于java - 如何从网站 url 获取 html 元素名称，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22248462/

上一篇：java - 点击按钮后执行一些操作

下一篇：java - Log4j 在属性文件中找不到配置

相关文章：

java - 如何为枚举对象编写自定义提供程序？

java - 在 try block 中返回一个字符串

java - 动态(运行时)多态性在java中如何工作？换句话说，JVM 如何知道要调用哪些方法？

java - 蒂卡信息提取

apache - Apache Tika 能够提取中文、日语等外语吗？

java - 使用扩展 asynctask 的类来检查 Android Activity 中的互联网连接

java - Parent No Argument Constructor 调用覆盖的方法

java - 使用 ContentHandler 提取文件内容

java - 如何将 org.apache.tika 源集成到我的项目中？

Java RTF 可以导入、编辑和导出吗？