使用 Kimonolabs 提供的软件进行正则表达式处理

标签 regex web-scraping

我正在尝试使用 Kimonolabs 提供的软件从网站获取医生列表。我遇到的问题是我从网站上抓取的字符串有一个地址和一个由 <br> 分隔的邮政编码。标签。

Kimono 将此语法用于正则表达式:

/^()(.*?)()$/ 

第一组=>所需内容左侧

第二组 => 这是应该提取的内容

第三组=>所需内容右侧

具体来说,这是我尝试过的正则表达式:

/^()(.*?)(\<)$/ 
/^()(.*?)(\n)$/
/^()(.*?)(\r)$/

而且,这是我要抓取的网站:http://www.jameda.de/

这是我尝试通过正则表达式解析的示例行:

<p>Altlaufstr. 22<br>85635 Höhenkirchen-Siegertbrn</p>

但是,我尝试过的每个正则表达式模式都没有捕获任何数据。我无法理解正则表达式,因为我发现我找到的引用资料非常复杂。

最佳答案

您似乎在尝试匹配始终为 5 位数字的德国邮政编码。这将做到:

/(<br\/?>)(\d{5})()/

分割:

<br\/?>表示它前面必须有 <br>标记(带或不带斜杠)

\d{5}是5位数

注意:省略 ^$默认和服正则表达式中的 anchor ,因为此正则表达式并未尝试匹配整个文本 - 仅匹配 ZIP。

关于使用 Kimonolabs 提供的软件进行正则表达式处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25744243/

相关文章:

regex - 为什么这个正则表达式更快?

java - Select 子句复杂正则表达式模式

python - 请求响应的 Xpath 返回空列表

java - 解析java中的转义空间

c# - 如何在一行代码中转义所有值得转义的字符?

python - 可选忽略字符串中的空格(来自字符集)正则表达式 Python

python - 在 python 中使用 lxml 进行网页抓取后,我得到奇怪的字符而不是土耳其字符

java - 为什么我无法获取所有页面

python - 使用 Python/Beautiful soup/pandas 从表中只抓取选定的文本

python - 如何在抓取请求时绕过 Google Recaptcha