python - 解析未标记的 HTML 文本

我正在根据网站的 html 制作电子表格。我无法弄清楚如何提取未标记数据的信息。例如，我可以编写一个程序来搜索 <span class="city-names"> 内的文本。查找大学所在的城市，但大学的名称是St.圣彼得堡国立大学没有这样的标签。有没有办法让我使用 Python 和 BeautifulSoup 将其识别为大学(例如识别它是未标记文本的第二个实例)？

谢谢!

<div class="result" style="width:100%;"> <span class="uppercase bold country-name" style="width:100%;"> Russia <span class="city-names"> St. Petersburg </span> </span> <br/> <span class="bold"> <a href="http://eap.ucop.edu/OurPrograms/russia/Pages/russian_area_studies_st_petersburg.aspx" target="_blank"> Russian Area Studies, St. Petersburg - Fall </a> </span> <br/>Council on International Educational Exchange, St. Petersburg <br/>St. Petersburg State University </div>

最佳答案

这有点粗糙，这是你打算做的吗？

尝试一下这是否适用于整个页面。

from bs4 import BeautifulSoup html = """ <div class="result" style="width:100%;"> <span class="uppercase bold country-name" style="width:100%;"> Russia <span class="city-names"> St. Petersburg </span> </span> <br/> <span class="bold"> <a href="http://eap.ucop.edu/OurPrograms/russia/Pages/russian_area_studies_st_petersburg.aspx" target="_blank"> Russian Area Studies, St. Petersburg - Fall </a> </span> <br/>Council on International Educational Exchange, St. Petersburg <br/>St. Petersburg State University </div> """ soup = BeautifulSoup(html, "html.parser") cities = soup.find_all('div', attrs={'class': 'result'}) for city in cities: spans = city.find_all('span') for span in spans: span.decompose() text_you_need = BeautifulSoup(str(city),"html.parser").find('div').text university = text_you_need.strip().split('\n')[1].strip() print(university)

我从 div 中删除了 span 标签的内容，并获取了第二行文本并执行了 strip()。

输出:

St. Petersburg State University

关于python - 解析未标记的 HTML 文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34738406/

python - 解析未标记的 HTML 文本

上一篇：python - Python Matplotlib 动画绘图的更新速度缓慢。我怎样才能让它更快？

下一篇：python - 部署 Django 静态文件 - Heroku