我需要从网页中提取主要新闻内容。我在互联网上搜索并发现了一个名为 Boilerpipe 的 api 免费用于此目的 http://boilerpipe-web.appspot.com/但是我无法在java中找到任何使用Boilerpipe的实现。谁能告诉我如何在Java中使用Boilerpipe来提取新闻内容,或者给我一些java中使用Boilerpipe来提取的实现的链接来自新闻网页的内容?
最佳答案
也许我的回答太晚了。但这非常简单。
URL url = new URL("http://www.nydailynews.com/sports/baseball");
ArticleExtractor ae = new ArticleExtractor();
String content = ae.getText(url); // this contains the final text
关于java - 如何使用 Boilerpipe 从网页中提取新闻内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10065560/