java - 我正在尝试使用 boilerpipe 库在 java 中提取文章

标签 java boilerpipe

package com.index;

import java.net.URL;

import com.opensymphony.xwork2.ActionSupport;
import de.l3s.boilerpipe.extractors.ArticleExtractor;

public class search_article extends ActionSupport {
/**
 * 
 */
private static final long serialVersionUID = 1L;
String article;

public String getArticle() {
    return article;
}

public void setArticle(String article) {
    this.article = article;
}

@Override
public String execute() throws Exception {

    String content = null;
    URL url = new URL("http://www.nydailynews.com/sports/baseball");
    ArticleExtractor ae = new ArticleExtractor();
    content = ae.getText(url);
    System.out.println(content);
    System.out.println("in execute");
    return SUCCESS;
}
 }

它显示以下错误:HTTP 状态 500 - java.lang.reflect.InvocationTargetException

最佳答案

500 到 599 的 HTTP 错误(尽管实际使用的数字很少)与更广为人知的 4xx 错误不同。

4xx 错误表明作为客户端的你做错了,你应该修改你的请求,以便服务器能够完成 ist - 最突出的错误是 404 web page not found(更精确的对象未找到)。

另一方面,5xx 错误表示服务器错误。这意味着,您可能做对了所有事情,但服务器无法处理您的请求。

对于 4xx 错误,您可以继续发出您的请求,直到所有天结束,它不会工作。 对于 5xx 错误,它在某些时候可能会起作用 - 例如服务器负载过重通常会导致 500(内部服务器错误)。

关于java - 我正在尝试使用 boilerpipe 库在 java 中提取文章,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21166567/

相关文章:

java - 在编写mapreduce类时

java - 使用 Java8 Stream 如果存在则获取 String 值,如果不存在则获取 null

java - 警告 : unchecked call to compareTo(T) as a member of the raw type java. lang.Comparable

Java - 在 Eclipse 中运行的 Boilerpipe 对于演示程序无法正常工作

java - 无法读取同一个InputStream两次

python - Boilerpipe-py3 的安装尝试给出 404 错误

java - sonar/jacoco 中报告的 evosuite _ESTest.java 结果

java - Apache Pig UDF 解析问题

java - 从 python 访问 JVM