我正在尝试构建此应用程序,当提供一个包含 isbn 编号的 .txt 文件时,只需将 isbn 附加到 url www.isbn.nu/您的 isbn 编号即可访问该 isbn 编号的 isbn.nu 页面isbn 编号。
打开页面后,我想扫描它以获取有关该书的信息,并将其存储在 excel 文件中。
我正在考虑用 Java 创建 url 的文件流,但我不太确定如何从 html 页面中提取信息。将使用 JExcel Java 包存储信息。
我最好的猜测是使用 javascript 来提取信息,但我不知道如何从我的 java 程序中调用 javascript。
我的想法合理吗?如果没有,你们建议我做什么。
我的目标:从 html 页面检索信息并将其存储在文本文件中每个 ISBN 的 excel 文件中。文本文件中可以有任意数量的 isbn。
顺便说一句,这不是家庭作业,我只是为一个向苏丹捐赠书籍的组织做这件事。目前他们有 5 个人在手动编目这些书,我是其中之一。
最佳答案
Jsoup是解析网页并从中获取数据的有用工具。您可以用 Java 完成,而且非常简单。
您可以解析文本文件,使用字符串构建 URL,使用 JSoup 将其发送,然后使用 JSoup 使用页面上的 html 标记解析出信息。然后你可以随心所欲地存储它。如果您对 Java 更熟悉,那么您真的根本不需要使用 Javascript。
读取页面并使用 Jsoup 解析它的示例:
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");
关于javascript - 从网站上读取信息并存储在 excel 文件中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9121836/