python - 如何从 python 中的这个(部分)html 字符串获取链接和标题

标签 python html-parsing xbmc

我正在用 python 为 xbmc 编写一个插件。我有一个字符串列表,格式如下:
<a href="/www.link.to/something">name of link</a>

通过使用美丽的石头汤(代码的相关部分):

 soup = BeautifulStoneSoup(link, convertEntities=BeautifulStoneSoup.XML_ENTITIES)
    programs = soup('ul')
    i = 0
    for prog in programs:
        i = i+1
        if i==(5+getLetterValue(name)):
            j = 0
            while j < len(prog('li')):
                li = prog('li')[j]
                link = li('a')[0]

getLeterValue是一个返回索引的函数,该索引指示放置此特定“ul”标签的位置(根据所需的字母)。

现在我想在链接和文本中拆分链接。我尝试使用 re.compile:
match=re.compile('<a href="(.+?)">(.+?)</a>').findall(link.string)
但我得到的只是match=[]

我做错了什么?

注意: 我知道我应该正则表达式 html 代码,但我不确定这个“规则”对小字符串是否有效。此外,出于某种原因,这几乎是 xbmc 插件编写的标准,我认为这是有原因的。

最佳答案

为什么不让 BeautifulSoup 给你 href attributeelement contents

关于python - 如何从 python 中的这个(部分)html 字符串获取链接和标题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7223498/

相关文章:

python - 在计算文本文档集合中的单词出现次数时遇到问题

python - 如何在 python 脚本中运行 XBMC/Kodi 视频插件?

git - 在 GitHub 上 fork 一个存储库的子目录并使其成为我自己的存储库的一部分

python - 如何在 pandas 中指定空格

python - 打印 pandas 列之间的增量差异

java - 如何使用 Jsoup 获取孤立文本?

php - 如何使用 SimpleHtmlDom 在 HTML 的 head 标签之间插入链接标签

python - 如何在xbmc 的标签控件中输入字符串?

python - 如何在 VSCode 上安装新的 python 模块?

Java解析JS生成的html元素