我正在尝试解析一些返回的 html(来自 http://www.google.com/movies?near=37130)以查找当前正在播放的电影。我尝试匹配的模式如下所示:
<span dir=ltr>Clash of the Titans</span>
返回的html中有几个。
我正在尝试使用以下命令获取一组电影片名:
titles = listings_html.split(/(<span dir=ltr>).*(<\/span>)/)
但我没有得到预期的结果。谁能看出我的方法或正则表达式有问题?
最佳答案
通常认为使用 RegEx 解析 HTML 是非常糟糕的,因为 HTML 没有正则语法。查看解释链接列表(一些来自 SO)here .
您应该改用指定的 HTML 库,such as this
关于ruby 正则表达式,解析 html,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2571668/