我有一个 html 文本,稍后我想将其转换为 pandas 数据框。
我有一个看起来像这样的文本:
<tr>
<td -some attributes- >Val1</td>
<td -some attributes- >Val2</td>
<td -some attributes- >Val3</td>
</tr>
<tr>
<td -some attributes- >Val4</td>
<td -some attributes- >Val5</td>
<td -some attributes- >Val6</td>
</tr>
我有正则表达式:<td.*>(.*)</td>
但它并没有捕获所有的值,它捕获了几乎所有的文本......
在我获取所有内容后,我将其放入数据框中。
那么为什么这个正则表达式没有捕获它应该捕获的值?
最佳答案
You can try like this instead of REGEX - just an opinion
import pandas as pd
movies_table = pd.read_html("xxx.y.com")
movies = movies_table[0] // select the correct table from the tables array.
我得到了这个工作。下面我附上了一个使用示例。
关于Python 正则表达式和 Pandas,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43895113/