尝试从 html 页面中提取嵌套部分。我想最终为每个部分创建 wiki 页面。仅提取文本不会有问题,但提取嵌套部分就会有问题。
我试图从中提取部分的页面是 - http://goo.gl/xb7Ydd
我计划将这些部分提取到 XML(或 json?)中,如下所示 -
<1.1> Section 1.1
<1.1.1> Subsection of 1.1 </1.1.1>
<1.1.2> Subsection of 1.1 </1.1.2>
</1.1>
除了复杂的正则表达式之外,任何人都可以建议其他方法吗?
最佳答案
import requests
from bs4 import BeautifulSoup
r=requests.get("http://docs.oasis-open.org/cmis/CMIS/v1.1/os/CMIS-v1.1-os.html") # get page using requests
soup=BeautifulSoup(r.content)
s = soup.find_all(text=re.compile('\.pdf'))# find all .pdf's
print s
[u'http://docs.oasis-open.org/cmis/CMIS/v1.1/os/CMIS-v1.1-os.pdf', u'http://docs.oasis-open.org/cmis/CMIS/v1.1/csprd01/CMIS-v1.1-csprd01.pdf', u'http://docs.oasis-open.org/cmis/CMIS/v1.1/CMIS-v1.1.pdf']
关于java - 从 HTML 页面提取嵌套部分时出现问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24108965/