java - 从 HTML 页面提取嵌套部分时出现问题

标签 java python

尝试从 html 页面中提取嵌套部分。我想最终为每个部分创建 wiki 页面。仅提取文本不会有问题,但提取嵌套部分就会有问题。

我试图从中提取部分的页面是 - http://goo.gl/xb7Ydd

我计划将这些部分提取到 XML(或 json?)中,如下所示 -

<1.1> Section 1.1
 <1.1.1> Subsection of 1.1 </1.1.1>
 <1.1.2> Subsection of 1.1 </1.1.2>
</1.1>

除了复杂的正则表达式之外,任何人都可以建议其他方法吗?

最佳答案

使用requestsBeautifulsoup

import requests
from bs4 import BeautifulSoup

r=requests.get("http://docs.oasis-open.org/cmis/CMIS/v1.1/os/CMIS-v1.1-os.html") # get page using requests

soup=BeautifulSoup(r.content)

s = soup.find_all(text=re.compile('\.pdf'))# find all .pdf's
print s

[u'http://docs.oasis-open.org/cmis/CMIS/v1.1/os/CMIS-v1.1-os.pdf', u'http://docs.oasis-open.org/cmis/CMIS/v1.1/csprd01/CMIS-v1.1-csprd01.pdf', u'http://docs.oasis-open.org/cmis/CMIS/v1.1/CMIS-v1.1.pdf']

关于java - 从 HTML 页面提取嵌套部分时出现问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24108965/

相关文章:

java - 如何播放存储在 java 项目中的 mp3 音频?

python - 为什么在 locals 中添加 key 实际上会创建变量?

python - 将字符串每一行中的第一个单词存储到列表中

java - 在android studio上读取textview中的html对象

java - 基于属性值的动态任务依赖性

java - 为什么我们不能在接口(interface)方法声明中使用synchronized关键字

java - 代号一-转换为新的 gui 构建器错误

python - 条目末尾的随机空间在文本文件中生成新行 python tkinter

python - 使用更重要的最近观察值计算平均值

javascript - 如何在字形完全渲染后调用 JS 函数或 Python 方法?