javascript - 从网站上读取信息并存储在 excel 文件中

我正在尝试构建此应用程序，当提供一个包含 isbn 编号的 .txt 文件时，只需将 isbn 附加到 url www.isbn.nu/您的 isbn 编号即可访问该 isbn 编号的 isbn.nu 页面isbn 编号。

打开页面后，我想扫描它以获取有关该书的信息，并将其存储在 excel 文件中。

我正在考虑用 Java 创建 url 的文件流，但我不太确定如何从 html 页面中提取信息。将使用 JExcel Java 包存储信息。

我最好的猜测是使用 javascript 来提取信息，但我不知道如何从我的 java 程序中调用 javascript。

我的想法合理吗？如果没有，你们建议我做什么。

我的目标:从 html 页面检索信息并将其存储在文本文件中每个 ISBN 的 excel 文件中。文本文件中可以有任意数量的 isbn。

顺便说一句，这不是家庭作业，我只是为一个向苏丹捐赠书籍的组织做这件事。目前他们有 5 个人在手动编目这些书，我是其中之一。

最佳答案

Jsoup是解析网页并从中获取数据的有用工具。您可以用 Java 完成，而且非常简单。

您可以解析文本文件，使用字符串构建 URL，使用 JSoup 将其发送，然后使用 JSoup 使用页面上的 html 标记解析出信息。然后你可以随心所欲地存储它。如果您对 Java 更熟悉，那么您真的根本不需要使用 Javascript。

读取页面并使用 Jsoup 解析它的示例:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

关于javascript - 从网站上读取信息并存储在 excel 文件中，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9121836/