python - 解析未标记的 HTML 文本

标签 python html beautifulsoup html-parsing

我正在根据网站的 html 制作电子表格。我无法弄清楚如何提取未标记数据的信息。例如,我可以编写一个程序来搜索 <span class="city-names"> 内的文本。查找大学所在的城市,但大学的名称是St.圣彼得堡国立大学没有这样的标签。有没有办法让我使用 Python 和 BeautifulSoup 将其识别为大学(例如识别它是未标记文本的第二个实例)?

谢谢!

<div class="result" style="width:100%;">
  <span class="uppercase bold country-name" style="width:100%;">
        Russia
        <span class="city-names">
         St. Petersburg
        </span>
  </span>
  <br/>
  <span class="bold">
        <a href="http://eap.ucop.edu/OurPrograms/russia/Pages/russian_area_studies_st_petersburg.aspx" target="_blank">
         Russian Area Studies, St. Petersburg - Fall
        </a>
       </span>
  <br/>Council on International Educational Exchange, St. Petersburg
  <br/>St. Petersburg State University
</div>

最佳答案

这有点粗糙,这是你打算做的吗?

尝试一下这是否适用于整个页面。

from bs4 import BeautifulSoup

html = """
<div class="result" style="width:100%;">
  <span class="uppercase bold country-name" style="width:100%;">
        Russia
        <span class="city-names">
         St. Petersburg
        </span>
  </span>
  <br/>
  <span class="bold">
    <a href="http://eap.ucop.edu/OurPrograms/russia/Pages/russian_area_studies_st_petersburg.aspx" target="_blank">
        Russian Area Studies, St. Petersburg - Fall
    </a>
  </span>
  <br/>Council on International Educational Exchange, St. Petersburg
  <br/>St. Petersburg State University
</div>
"""

soup = BeautifulSoup(html, "html.parser")
cities = soup.find_all('div', attrs={'class': 'result'})
for city in cities:
    spans = city.find_all('span')
    for span in spans:
        span.decompose()
    text_you_need = BeautifulSoup(str(city),"html.parser").find('div').text
    university = text_you_need.strip().split('\n')[1].strip()
    print(university)

我从 div 中删除了 span 标签的内容,并获取了第二行文本并执行了 strip()。

输出:

St. Petersburg State University

关于python - 解析未标记的 HTML 文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34738406/

相关文章:

javascript - 如何在 Angular js 中返回 html 代码作为过滤器的输出

python - 使用 BeautifulSoup 找不到 'div' 的内容

python - BeautifulSoup 中 "findAll"和 "find_all"之间的区别

python - 使用 BeautifulSoup 添加元标记

python - Spyder在训练神经网络时关闭

python - pandas 数据框中有效值(非空行)的移动平均值

html - 应用悬停效果后图像链接不可点击

php - 如何在php邮件中添加css样式?

python - 如何缩放列表中的每个图像? pygame

python - 使用大型 mod_wsgi 应用程序最大化 apache 服务器实例