javascript - 从网站上读取信息并存储在 excel 文件中

标签 javascript java excel web-scraping

我正在尝试构建此应用程序,当提供一个包含 isbn 编号的 .txt 文件时,只需将 isbn 附加到 url www.isbn.nu/您的 isbn 编号即可访问该 isbn 编号的 isbn.nu 页面isbn 编号

打开页面后,我想扫描它以获取有关该书的信息,并将其存储在 excel 文件中。

我正在考虑用 Java 创建 url 的文件流,但我不太确定如何从 html 页面中提取信息。将使用 JExcel Java 包存储信息。

我最好的猜测是使用 javascript 来提取信息,但我不知道如何从我的 java 程序中调用 javascript。

我的想法合理吗?如果没有,你们建议我做什么。

我的目标:从 html 页面检索信息并将其存储在文本文件中每个 ISBN 的 excel 文件中。文本文件中可以有任意数量的 isbn。

顺便说一句,这不是家庭作业,我只是为一个向苏丹捐赠书籍的组织做这件事。目前他们有 5 个人在手动编目这些书,我是其中之一。

最佳答案

Jsoup是解析网页并从中获取数据的有用工具。您可以用 Java 完成,而且非常简单。

您可以解析文本文件,使用字符串构建 URL,使用 JSoup 将其发送,然后使用 JSoup 使用页面上的 html 标记解析出信息。然后你可以随心所欲地存储它。如果您对 Java 更熟悉,那么您真的根本不需要使用 Javascript。

读取页面并使用 Jsoup 解析它的示例:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

关于javascript - 从网站上读取信息并存储在 excel 文件中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9121836/

相关文章:

excel - Lotus 123 到 Excel 2003 的转换

excel - 生成用于凭据加密的安全 Windows 用户特定加密 key

javascript - Bootstrap 模式切成两半

javascript - 对数组中的非后续元素进行排序

java - 使用反射设置字段 - String 没有 valueOf(String) 方法

java - 在Android中实现发布/订阅

java - 我如何模拟事件处理程序?

javascript - document.all [""+ object.getAttribute ("EndDate", true) + ""].value;不能在 Firefox 中工作

javascript - 如何在每个 FOR 循环步骤之后运行函数

excel - 将 NOW() 与 Excel 中的日期列表进行比较以返回当前期间?