java - 比正则表达式更好的系统

标签 java web-crawler

我制作了一个可以从特定网站提取一些特定信息的应用程序。为此,我使用了可以提供所需输出的正则表达式。对于那个简单的爬虫,有没有比正则表达式更有效的过程或想法。

最佳答案

如果您说这是一个简单的正则表达式就可以解决您的问题,那么没有,没有其他更有效的解决方案。 当谈到爬行时,另一种方法是将整个 html 页面加载到内存中,加载到 DOM 文档中,然后使用 XPath 甚至 XQuery 进行搜索。但实际上,如果可以使用正则表达式轻松提取信息,那就不用费心了,尤其是在您不熟悉 XPath 的情况下。

当您想进行复杂的搜索时,XPath 的威力就会发挥出来。对于此任务,它比正则表达式更优雅(至少在 w3c 看来是这样)。但如果您想要一个快速的解决方案,您已经找到了,而且它在 RAM 方面也更高效。

关于java - 比正则表达式更好的系统,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10675397/

相关文章:

java - 如何使用java获取DOM事件监听器

nutch - 如何重新爬行坚果

java - 登录远程站点然后测试表单

java - 如何通过检查 name 的输入是否为字符串以及 partId 的输入是否为 long 来验证输入?

java - 更新 JCombobox 始终给出第一个元素 EMPTY

java - Numberformat 似乎忽略了 Android 中的小数位 - 但仅适用于美元且仅适用于德国

webserver - 网络爬虫在对网络服务器的重复请求之间等待的最佳持续时间是多少

Java 从 MS SQL 切换到 MySQL - 字符集

web-crawler - 如何增加 Apache Nutch 爬虫获取的文档数量

.net - 无法弄清楚如何使用 Html Agility Pack 读取网页的特定部分