java - 使用 JSoup 帮助抓取 HTML

标签 java eclipse data-mining web-scraping jsoup

这里有点初学者,正在从事个人项目,将我的学校类(class)设置为易于阅读的表格格式,但在从网站上抓取数据的初始步骤时遇到了问题。

我刚刚在 eclipse 中将 JSoup 库添加到我的项目中,现在在使用 Jsoup 的文档时无法初始化连接。

最后,我的目标是抓取每个类(class)名称/时间/描述,但现在我只想抓取名称。源网站的 HTML 如下所示:

<td class='CourseNum'><img src='images/minus.gif' class='ICS3330 SW' onclick="toggledetails('CS3330')

我的第一个猜测是getElementsByTag(td),然后在这些元素中查询onclick=的参数或者‘class’参数的值,清理掉开头的“I”和“SW”的后缀” 留下名称“CS3330”。

现在进入实际的实现:

Document doc = Jsoup.parse("UTF-8", "http://rabi.phys.virginia.edu/mySIS/CS2/page.php?Semester=1118&Type=Group&Group=CompSci").get();
Elements td = doc.getElementsByTag("td");

在这一点上,我已经遇到了问题(尽管我并没有偏离文档中提供的示例太远),希望能提供一些指导让我的代码正常运行!

编辑:知道了!谢谢大家!

最佳答案

根据 documentation你应该这样做:

Document doc = Jsoup.connect(url).get();

parse() 方法用于文件。

关于java - 使用 JSoup 帮助抓取 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6975053/

相关文章:

java - 迭代添加 ArrayDeque 中的所有元素

java - jQuery和Java之间的编码问题

启动简单 Struts2 应用程序时的 java.lang.ClassNotFoundException : org. apache.struts2.dispatcher.ng.filter.StrutsPrepareAndExecuteFilter

eclipse - 我可以在 Eclipse 中调试 AngularJS 和 TypeScript 吗?

python - 如何在lightGBM中设置metric输出的频率?

java - Java 非阻塞 io 可以用于所描述的应用程序吗?

java - Apache Tomcat Servlet - 线程 "main"java.lang.ClassFormatError 中的异常

android - 你如何改变 eclipse 空白 Activity ?

c++ - 基于非密度的数据聚类算法

scala - 数据框上的 FPGrowth?