我打算建立一个服务,提供特定网站中特定网页的摘要内容。
因此,我不想依赖 Google 或 Bing API(这需要花钱),而是考虑寻找可以完成这项工作的网络爬虫和搜索引擎。我只需要小规模的项目,因此 Apache Nutch 对于该项目来说太大了。
理想的解决方案是一个可嵌入的库,它可以获取网站列表、获取其内容并将其保存在数据库中以供以后搜索。有什么建议么?
最佳答案
您的意思是您打算构建一项总结网络内容的服务吗?您可以使用以下一些 API 来执行此操作:
- https://www.mashape.com/stremor/stremor-automated-summary-and-abstract-generator
- https://www.mashape.com/stremor/stremor-search-results
- https://www.mashape.com/stremor/stremor-tldr-for-text-abstract-generator
- https://www.mashape.com/mlanalyzer/ml-analyzer
- https://www.mashape.com/tommoor/pagemunch
还有我自己的一些:
最后 2 个基于这个关于如何创建自己的摘要器的优秀教程 - http://thetokenizer.com/2013/04/28/build-your-own-summary-tool/
关于java - 网络爬行一些网站并搜索其内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17223383/