python - 如何使用 python 从 url 中提取元描述?

标签 python url extract meta-tags goose

我想从以下网站中提取标题和描述:

查看源代码:http://www.virginaustralia.com/au/en/bookings/flights/make-a-booking/

使用以下源代码片段:

<title>Book a Virgin Australia Flight | Virgin Australia
</title>
    <meta name="keywords" content="" />
        <meta name="description" content="Search for and book Virgin Australia and partner flights to Australian and international destinations." />

我想要标题和元内容。

我用了鹅,但它的提取效果不佳。这是我的代码:

website_title = [g.extract(url).title for url in clean_url_data]

website_meta_description=[g.extract(urlw).meta_description for urlw in clean_url_data] 

结果为空

最佳答案

请查看BeautifulSoup作为解决方案。

对于上述问题,您可以使用以下代码提取“描述”信息:

import requests
from bs4 import BeautifulSoup

url = 'http://www.virginaustralia.com/au/en/bookings/flights/make-a-booking/'
response = requests.get(url)
soup = BeautifulSoup(response.text)

metas = soup.find_all('meta')

print [ meta.attrs['content'] for meta in metas if 'name' in meta.attrs and meta.attrs['name'] == 'description' ]

输出:

['Search for and book Virgin Australia and partner flights to Australian and international destinations.']

关于python - 如何使用 python 从 url 中提取元描述?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38009787/

相关文章:

java - ImageIO.read() 返回 403 错误

Java - BufferedReader 不从 url 读取

javascript - 将子 iframe 重定向到相对 url,在 iframe 中使用 js - 但 url 是相对于父级的

string - 在 Inno Setup 中使用 Pascal 脚本从配置文件中查找和读取特定字符串

Java分割嵌套括号字符串

python - TensorFlow dynamic_rnn 回归量 : ValueError dimension mismatch

python - 可以从OpenCV中的视频文件中删除帧

python - 在 Python 中计算 BLEU 分数

python - 内置登录 User.objects.all() 上的 Django 模板标签

python - 根据 Python 中的一个条件提取字符串数据框中的数字