我需要找到一个从 html 文档中的表格单元格中提取值的正则表达式。
此表格单元格的示例内容是“结果:40 分钟”。
我需要一个正则表达式来匹配实际数字 (40)。
这是在 java 中,提前致谢。
最佳答案
我以前尝试过用正则表达式来做到这一点,但这是一个难题。
使用 XPath 表达式之类的东西要容易得多,您可以在其中通过它在 DOM 层次结构中的位置指定位置。 Apache 库可以做到这一点(特别是 Xalan),可以在这里找到:http://xml.apache.org/xalan-j/
您可以使用 Firefox 插件 XPath Checker 来帮助您解决这个问题。
顺便说一句,如果您正在寻找其他工具/信息,您所说的领域称为“网络抓取”。
关于java - 用于在网页中查找值的正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2393176/