我想要打开一个网页(其 URL 作为命令行参数给出),然后想要将该网页的内容保存为 .txt 文件。
请记住,我需要 .txt 文件,而不是网页的源代码。
我尝试使用 Selenium ,效果很好。但现在我想要一些不会打开真正的浏览器的东西,因为打开浏览器并在其中加载页面是一项耗时的任务。
我想用java来做。
我所说的内容,是指当我们在 IE 中保存网页时,通过“另存为”,然后选择“.txt”作为文件的输出格式,得到的文本(不带标记)。
最佳答案
如果我正确理解您的问题,您希望渲染页面并复制渲染的文本,而不使用导航器。
为此,您需要一个 headless 浏览器。 HTMLUnit会是一个不错的选择。
要获取文本内容,您可以这样做(未测试):
WebClient c = new WebClient(BrowserVersion.INTERNET_EXPLORER_6);
TextPage tp = c.getPage("yoururl");
String content = tp.getContent();
(参见 Javadoc )
关于java - 如何在IE(Internet Explorer)上自动执行 "Save As"?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2064967/