我正在用 python 为 xbmc 编写一个插件。我有一个字符串列表,格式如下:
<a href="/www.link.to/something">name of link</a>
通过使用美丽的石头汤(代码的相关部分):
soup = BeautifulStoneSoup(link, convertEntities=BeautifulStoneSoup.XML_ENTITIES)
programs = soup('ul')
i = 0
for prog in programs:
i = i+1
if i==(5+getLetterValue(name)):
j = 0
while j < len(prog('li')):
li = prog('li')[j]
link = li('a')[0]
getLeterValue
是一个返回索引的函数,该索引指示放置此特定“ul”标签的位置(根据所需的字母)。
现在我想在链接和文本中拆分链接。我尝试使用 re.compile:
match=re.compile('<a href="(.+?)">(.+?)</a>').findall(link.string)
但我得到的只是match=[]
我做错了什么?
注意: 我知道我应该正则表达式 html 代码,但我不确定这个“规则”对小字符串是否有效。此外,出于某种原因,这几乎是 xbmc 插件编写的标准,我认为这是有原因的。
最佳答案
为什么不让 BeautifulSoup 给你 href attribute和 element contents ?
关于python - 如何从 python 中的这个(部分)html 字符串获取链接和标题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7223498/