java - 从 Wikipedia XML 转储中提取表

我想解析 XML 维基百科转储并从中提取所有不同类型的表(不仅仅是信息框)

我正在使用wikixmlj解析转储，但问题是解析维基百科转储中的不同类型的表(分割单元格表、合并单元格表、带有颜色代码的表)。

我能够解析XML文章，直到找到标记为表格的项目，但是在将表格解析为对象时，我没有可遵循的标准，而且似乎有多种类型的表格和多种排列。

是否有一些关于表类型的记录标准可供遵循，以便我可以在我要创建的运行时对象中涵盖该标准，或者有什么方法可以解决这个问题？

注意:

以下是一些示例，可帮助您了解我的意思:

http://en.wikipedia.org/wiki/List_of_Presidents_of_the_United_States See Andrew Jackson row (some rows are merged and split)

http://en.wikipedia.org/wiki/List_of_pharaohs

http://en.wikipedia.org/wiki/Open_Handset_Alliance

http://en.wikipedia.org/wiki/Comparison_of_web_server_software sometime the header is on both top and bottom

最佳答案

好的，如果您只对表格本身感兴趣，则需要执行以下操作

1-下载维基百科转储(所有转储)

2-将表从转储中提取到一个单独的文件或一组文件中: 使用正则表达式 \{\|[\s|\S]+?\n\|-?\}

3-使用库gwtwiki为转储构建模型，然后将表文件仅转换为 html:

-添加this class和 this class到项目

-添加gwtwiki和其他必要的库

<小时/>

您现在拥有 html 文件，其中包含整个维基百科转储中出现的表格，并且这些表格采用 html 格式，因此很容易操作 (请注意，如果您想通过代码操作任何文件，请将其写入unicode文件中，因为表格的某些字符的编码)

关于java - 从 Wikipedia XML 转储中提取表，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13166068/

java - 从 Wikipedia XML 转储中提取表

上一篇：java - 不执行任何操作的适配器访问器方法

下一篇：java - httpheader 中的编码问题导致 struts 2