我制作了一个可以从特定网站提取一些特定信息的应用程序。为此,我使用了可以提供所需输出的正则表达式。对于那个简单的爬虫,有没有比正则表达式更有效的过程或想法。
最佳答案
如果您说这是一个简单的正则表达式就可以解决您的问题,那么没有,没有其他更有效的解决方案。 当谈到爬行时,另一种方法是将整个 html 页面加载到内存中,加载到 DOM 文档中,然后使用 XPath 甚至 XQuery 进行搜索。但实际上,如果可以使用正则表达式轻松提取信息,那就不用费心了,尤其是在您不熟悉 XPath 的情况下。
当您想进行复杂的搜索时,XPath 的威力就会发挥出来。对于此任务,它比正则表达式更优雅(至少在 w3c 看来是这样)。但如果您想要一个快速的解决方案,您已经找到了,而且它在 RAM 方面也更高效。
关于java - 比正则表达式更好的系统,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10675397/