java - 如何使用样板从 HTML 中获取文章的主要内容?

标签 java summarization boilerpipe

我正在尝试使用 boilerpipe 从 HTML 中获取文章的主要内容代码。

here下载最新的jar包.

我正在尝试使用以下代码:

String article = "";
try {
    article = ArticleExtractor.INSTANCE.getText(url);   
    System.out.println("Article ++++ >>" + article);    
} catch (BoilerpipeProcessingException e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
}

但这会为每个 URL 返回一个空字符串。谁能帮我解决这个问题吗?

最佳答案

您是否尝试过传递 HTML 本身而不是 url?或者您的 url 字符串格式可能存在问题。

关于java - 如何使用样板从 HTML 中获取文章的主要内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39952702/

相关文章:

java网络爬虫下载过多GB数据

java - 将 Java ESB 部署到云端

java - 如何检测 NIO channel 上的连接错误

r - 在不降低级别的情况下在 R 中汇总/汇总

java - 使用内联 CSS 提取 HTML 文章文本

java - 在 Android 应用程序上使用锅炉管道

java - 在同步代码块中调用java计时器

java - for循环之外的语句不会被执行

r - 将行添加到数据框中,并包含组内数据的总和