java - 如何使用 Boilerpipe 从网页中提取新闻内容?

标签 java web html-parsing web-scraping boilerpipe

我需要从网页中提取主要新闻内容。我在互联网上搜索并发现了一个名为 Boilerpipe 的 api 免费用于此目的 http://boilerpipe-web.appspot.com/但是我无法在java中找到任何使用Boilerpipe的实现。谁能告诉我如何在Java中使用Boilerpipe来提取新闻内容,或者给我一些java中使用Boilerpipe来提取的实现的链接来自新闻网页的内容?

最佳答案

也许我的回答太晚了。但这非常简单。

 URL url = new URL("http://www.nydailynews.com/sports/baseball"); 
 ArticleExtractor ae = new ArticleExtractor();
 String content = ae.getText(url);  // this contains the final text

关于java - 如何使用 Boilerpipe 从网页中提取新闻内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10065560/

相关文章:

java.lang.IllegalArgumentException : You need to use a Theme. AppCompat 主题(或后代)与设计库

java - 从另一个类调用对象(java、javafx)

c# - 如何使用 HTML 敏捷包和 XPath 删除节点以清理 HTML 页面

php - 你如何解析和处理 PHP 中的 HTML/XML?

java - 如何在服务器上存储临时数据并共享给许多用户

javascript - 网站真的需要 DjangoRestFrameWork

html - 如何从 ionic 图标中删除垂直填充?

html - HTML5 Web音频API-临时录制声音

python - 从欧洲议会网站抓取数据时出现东欧字符问题

java - 子类中可访问的私有(private)字段