java - 网络爬行一些网站并搜索其内容

标签 java search-engine web-crawler

我打算建立一个服务,提供特定网站中特定网页的摘要内容。

因此,我不想依赖 Google 或 Bing API(这需要花钱),而是考虑寻找可以完成这项工作的网络爬虫和搜索引擎。我只需要小规模的项目,因此 Apache Nutch 对于该项目来说太大了。

理想的解决方案是一个可嵌入的库,它可以获取网站列表、获取其内容并将其保存在数据库中以供以后搜索。有什么建议么?

最佳答案

关于java - 网络爬行一些网站并搜索其内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17223383/

相关文章:

java - 无法使用动态数据在 RecyclerView 中显示项目

search - Google 是否关心站点地图索引文件、站点地图文件和 URL 的结构/组织

python - 我希望 Scrapy 遍历每个项目一次

php - Ajax 片段元标记 - Googlebot 未读取页面内容

mysql - 搜索引擎 Lucene 与数据库搜索

seo - 如何使动态链接可通过谷歌抓取

java - 使用 Nutch 抓取...显示 IOException

java - Java 中的闭包或类似的东西

java - QuickSort的修改(分区Hoare),先偶数降序,然后奇数降序

java - 将java代码嵌入到模板中