java - 从 html 文件中获取信息

标签 java

好的,我正在尝试获取 data-title 和 href 并将它们分配给 java 中的变量。

<tr class="pl-video yt-uix-tile " data-video-id="MBBWVgE0ewk" data-set-video-id="" data-title="Windows Command Line Tutorial - 1 - Introduction to the Command Prompt"><td class="pl-video-handle "></td><td class="pl-video-index"></td><td class="pl-video-thumbnail"><span class="pl-video-thumb ux-thumb-wrap contains-addto"><a href="/watch?v=MBBWVgE0ewk&amp;index=1&amp;list=PL6gx4Cwl9DGDV6SnbINlVUd0o2xT4JbMu"

最佳答案

如果您不介意包含依赖项,那么有一个很好的库可以用于此类内容,名为 jsoup .

String html = ...
Document doc = Jsoup.parse(html);

Element tr = doc.select("tr").first();
Element link = tr.select("a").first();

String dataTitle = tr.attr("data-title");
String href = link.attr("href");

关于java - 从 html 文件中获取信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35207171/

相关文章:

java - Windows 中 Java 和 C 之间的任何 IPC 机制——不需要套接字

java - libgdx 无法解析符号 Android

java - EntityManager的flush()方法什么时候返回?

java - 分配给 Java 中更广泛类型的不同实现之间的区别

java - 玩!框架 1.2.4 : Is it possible to know parameters of a pending job (doJobWithResult)

java - 如何使用 Java 收集器获取嵌套列表 <Long> 的串联

java - 在实体声明中使用 Hibernate OGM 和 MongoDB 时出现异常

java - 使用 PrintWriter 打印字符串

java - Android 上未安装应用程序的应用程序链接

java - 基于 boolean 值返回信用卡的设计模式