java - 如何使用 Boilerpipe 从网页中提取新闻内容？

标签 java web html-parsing web-scraping boilerpipe

我需要从网页中提取主要新闻内容。我在互联网上搜索并发现了一个名为 Boilerpipe 的 api 免费用于此目的 http://boilerpipe-web.appspot.com/但是我无法在java中找到任何使用Boilerpipe的实现。谁能告诉我如何在Java中使用Boilerpipe来提取新闻内容，或者给我一些java中使用Boilerpipe来提取的实现的链接来自新闻网页的内容？

最佳答案

也许我的回答太晚了。但这非常简单。

 URL url = new URL("http://www.nydailynews.com/sports/baseball"); 
 ArticleExtractor ae = new ArticleExtractor();
 String content = ae.getText(url);  // this contains the final text

关于java - 如何使用 Boilerpipe 从网页中提取新闻内容？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10065560/

上一篇：Java Web 服务生成错误响应

下一篇：java - 如何通过netty连续传输数据？

java - 从另一个类调用对象(java、javafx)

c# - 如何使用 HTML 敏捷包和 XPath 删除节点以清理 HTML 页面

php - 你如何解析和处理 PHP 中的 HTML/XML？

java - 如何在服务器上存储临时数据并共享给许多用户

javascript - 网站真的需要 DjangoRestFrameWork

html - 如何从 ionic 图标中删除垂直填充？

html - HTML5 Web音频API-临时录制声音

python - 从欧洲议会网站抓取数据时出现东欧字符问题

java - 子类中可访问的私有(private)字段