我需要跟踪网站内容的变化:我的用户有一个他们想要监控的网站列表,并在这些网站的内容更新时收到警报。我知道已经有一些工具可以做到这一点:firefox 插件,例如检查 4 更改、更新扫描仪等。但是,我需要从我的应用程序中执行此操作,并将从我的应用程序中监控的网站的任何更新报告给我的用户。我如何使用 javascript 或 java 来做到这一点?
最佳答案
您可能想要的是一个网络爬虫,它在每个页面上运行快速差异或散列以检查更改。这里有一个关于Java网络爬虫库的问题:https://stackoverflow.com/questions/2495289/what-is-a-good-java-web-crawler-library
至于散列,MD5 非常快,并且保证为不同的内容提供不同的散列(即使它只是有点不同)。 CRC 甚至更快,但不那么可靠。
如果这些都不适合你,希望搜索“{Java|Javascript} 网络爬虫”会给你一些想法。
关于java - 跟踪对网页内容的更改,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12612668/