java - 网络爬行一些网站并搜索其内容

标签 java search-engine web-crawler

我打算建立一个服务，提供特定网站中特定网页的摘要内容。

因此，我不想依赖 Google 或 Bing API(这需要花钱)，而是考虑寻找可以完成这项工作的网络爬虫和搜索引擎。我只需要小规模的项目，因此 Apache Nutch 对于该项目来说太大了。

理想的解决方案是一个可嵌入的库，它可以获取网站列表、获取其内容并将其保存在数据库中以供以后搜索。有什么建议么？

最佳答案

您的意思是您打算构建一项总结网络内容的服务吗？您可以使用以下一些 API 来执行此操作:

还有我自己的一些:

最后 2 个基于这个关于如何创建自己的摘要器的优秀教程 - http://thetokenizer.com/2013/04/28/build-your-own-summary-tool/

关于java - 网络爬行一些网站并搜索其内容，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17223383/

上一篇：Java - Apache POI - 使用循环填充行和单元格时遇到问题(Excel)

下一篇：java - 是一个 PrintWriter 和 BufferedWriter

相关文章：

java - 无法使用动态数据在 RecyclerView 中显示项目

search - Google 是否关心站点地图索引文件、站点地图文件和 URL 的结构/组织

python - 我希望 Scrapy 遍历每个项目一次

php - Ajax 片段元标记 - Googlebot 未读取页面内容

mysql - 搜索引擎 Lucene 与数据库搜索

seo - 如何使动态链接可通过谷歌抓取

java - 使用 Nutch 抓取...显示 IOException

java - Java 中的闭包或类似的东西

java - QuickSort的修改(分区Hoare)，先偶数降序，然后奇数降序

java - 将java代码嵌入到模板中

©2024 IT工具网联系我们