python - BeautifulSoup 转换成 python 换行符

标签 python python-3.x pandas beautifulsoup newline

我有一个 html 表格,每个单元格包含多行文本和数据,我试图最终提取它们,并且它们使用中断来提高从中抓取的网站的可读性。 以下是此类单元格的一个示例:

<td class="cell">-<br>21%<br>1<br>
<font color="red">5001</font><br>12%
                </td>

如何将这些中断转换为与 Pandas 兼容的换行符(即会有一个由\n 分隔的 4 行字符串)?

使用此代码片段:

for cell in soup.find_all('td'):
    cell.replace_with(cell.get_text('\n',strip=True))

表中每个条目的结果均为 NaN 值。

最佳答案

您可以将 'br' 替换为 '\n':

for linebreak in soup.find_all('br'):
    linebreak.replace_with('\n')

希望有帮助。

关于python - BeautifulSoup 转换成 python 换行符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57750303/

相关文章:

python - 创建原型(prototype)向量进行比较

python - K-Means聚类算法实现

javascript - 如何使用regEx删除js中的python注释

python - 传递导入错误 : ModuleNotFoundError: No module named '...'

python-3.x - Pandas 混合类型到整数

python - 在 pandas DataFrame 中查找重复行的索引

python - 如何停止 Cherrypy 中的请求处理?

python - 查找文本文件中所有单词的更快方法

python - pip 路径 : anaconda vs. native python(在 macOS 上)

python - Pandas DataFrame 将除 0 以外的每个值替换为 1