我有一个奇怪的问题。我过去曾使用过一个我自己编写的程序来检查 fanfiction.net 上的故事是否有新的章节出现,该程序即使现在也能正常工作(尽管它的 GUI 仍有很多不足之处)。
但是,当我尝试制作新版本时,即使我使用完全相同的代码(复制粘贴),我似乎也无法加载网页。这是下面的代码。发送类似 https://www.fanfiction.net/s/11012678/36 的 URL 时 对于 nextExists 方法,它应该返回“true”。我的旧程序可以,但这个程序不能,即使是相同的代码。
我能想到的唯一可能有任何影响的是我正在使用新版本的 Eclipse,这可能会导致它错误地编码,但我已经尝试检查所有常见的编码类型,但没有任何内容提供 HTML明文。
有谁知道这可能是什么原因造成的吗?如果我不能解决这个问题,这并不是一场灾难,但我想知道 future 是否会再次遇到同样的问题。
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
public class Util {
private static final String BEFORE = "<button class=btn TYPE=BUTTON onClick=\"self.location='", AFTER = "'\">Next ></button>", SITE = "fanfiction.net";
public static String readSite(String path) throws Exception{
URL url = new URL(path);
BufferedReader in = null;
String line;
try{
StringBuilder builder = new StringBuilder();
in = new BufferedReader(new InputStreamReader(url.openStream()));
line = in.readLine();
if(line == null){
return null;
}
builder.append(line);
while((line = in.readLine()) != null){
builder.append('\n' + line);
}
return builder.toString();
} finally{
if(in != null){
in.close();
}
}
}
public static String updatePathToEnd(String path) throws Exception{
outer: while(nextExists(path)){
String data = readSite(path);
if(path.contains(SITE)){
String link = path.substring(0, path.indexOf(SITE) + SITE.length()) + data.substring(data.indexOf(BEFORE) + BEFORE.length(), data.indexOf(AFTER));
if(readSite(link) != null) {
path = link;
continue outer;
}
}
}
return path;
}
public static boolean nextExists(String path) throws Exception{
String text = readSite(path);
if(path.contains(SITE)){
return text==null ? false : text.contains(AFTER);
}
return false;
}
}
最佳答案
我在bluej中尝试过并且工作完美,看来问题出在Eciplse中 问候
关于Java - 无法从网站获取 HTML 纯文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54773647/