java - RSS阅读器然后抓取页面内容

标签 java rss nlp web-crawler

我已将 RSS 阅读器集成到我的应用程序中。 如何获取带有 RSS Feed URL 的网页? 有没有免费的 api 可以使用 URL 直接在 Java 中执行此操作?

我必须处理网页的内容(准确地说是新闻文章)并用它做一些算法。

现在的问题是做一小部分Crawler。有免费的轻量级 API 吗?

最佳答案

要获取任何 URL 的“内容”,请查看 java.net.URL 类。它有一些有用的方法来获取内容,例如 openConnection()openStream() 来获取内容。

关于java - RSS阅读器然后抓取页面内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5048440/

相关文章:

ios - 按下项目按钮时让 native "share sheet"拉起

ios - 无法在 UIWebView 中显示 RSS

r - 我如何解决以下错误?输入必须是任意长度的字符向量或字符向量列表,每个字符向量的长度为1

c# - C# 中自然语言生成的任何库或示例?

java - 无法实例化集合持久化器

go - 为我的大学网站制作自定义RSS feed

java - 在 Hadoop-2.6.0 中运行我自己的 WordCount.java 版本

machine-learning - 在Weka中使用utf-8 arff文件时无法确定结构为arff

java.util.HashMap 得到 : does key have to be exactly the same object as what is stored in the HashMap, 或者键可以只是 "equal"

java - System.getProperty ("line.separator")不工作 - Android Studio