python - 如何抓取标签之外的网络数据

标签 python html beautifulsoup web-crawler python-requests

<div id="main-content" class="content">
<div class="metaline">
<span class="article-meta author">jorden</span>
</div>
 "
 1.name:jorden> 
 2.age:28

  --
 "
 <span class="D2"> from 111.111.111.111 </span>
  </div>

我只需要

1.name:jorden
2.age:28

xxx.select('#main-content') 这将返回所有内容，但我只需要其中的一部分。因为它们不在任何标签中，所以我不知道该怎么做。

最佳答案

您想要找到相关文本之前的标记(在您的例子中为 <div class="metaline"> )，然后查看 HTML 解析树中的下一个同级:

text = soup.find("div", class_='metaline').next_sibling
print(text)
# "
# 1.name:jorden> 
# 2.age:28
#
#  --
# "
#

获得原始文本后，将其剥离，等等

关于python - 如何抓取标签之外的网络数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44124862/

上一篇：python - Scrapy响应编码不当

下一篇：python - 如何在Python click模块生成的使用消息末尾添加多个空行？

相关文章：

html - 加载 CSS 的最快方式——内联 vs HEAD

python - 如何找到美化后不显示的元素

python - 使用 Python BeautifulSoup 从网页中抓取没有 id 或类的元素

python - 碰到障碍物后如何修复角色位置？

python - 在 Python 中一起分配两个列表的索引

javascript - 单击按钮时如何更改图像

Python BS4 抓取 : AttributeError: 'NavigableString' object has no attribute 'text'

python - 使用 xmmp python 库和谷歌应用程序引擎发送 xmpp 消息

python - 使用PeriodIndex对pandas系列进行切片

html - 两个段落在 DIV 中改变位置