c# - 如何准备 Word 2007 文档以便 C# 可以从语义上提取数据?

标签 c# xml c#-4.0 ms-word

我有一个 friend 正在用 Microsoft Word 2007 写一本400 页的书

在整本书中,他有 200 个故事,每个故事都由许多段落组成。

当他写完这本书后,他想将嵌入在他的 Word 文档中的每个故事的文本复制到一个数据库表中,例如:

Title, varchar(200)
Description, text
Content, text

我们不想将每个故事都复制并粘贴到数据库中,而是希望有一个程序自动将标记的数据从 Word 文件中提取到数据库中的相应字段中。

  1. 他必须在 Microsoft Word 中做什么才能将每组段落表示为“故事内容”,将每个标题表示为“故事标题”等。先决条件是此标记在文档中不可见。我知道 Word 2007 文件基本上是压缩的 XML 文件,所以我认为这是可能的,并且我认为样式表 是我们需要的,但是我需要如何精确地准备 Word 文档,以便他添加他们被正确标记的故事?

  2. 我假设 C# 4.0 的新 COM Interop 功能是我分析 Word 文件并从嵌入式故事中检索标题、描述和内容所需要的,但是如何我在技术上这样做吗?有没有人有例子?

有没有人有过这样的项目经验(将 Microsoft Word 作为语义数据文件读取)并可以分享?

最佳答案

我会做的是使用样式。为每种类型的内容设置一种样式,并编写一个宏来逐段遍历文档并吐出相应的文本文件。

关于c# - 如何准备 Word 2007 文档以便 C# 可以从语义上提取数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3431544/

相关文章:

java - 如何使用 Java 转义 XML 中的退格键?

python - 如何使用 python 从网站获取 XML 文件?

java - 使用 Jersey 解析子节点

c# - C# 中的依赖注入(inject)

c# - 将 XElement 添加到特定位置的另一个 XElement

c# - ORDER BY 给出错误的命令

C# 单元测试 : iterating through expected results list

c#-4.0 - 是否有可用于 objectClass 和 objectCategory 的值列表?

c# - 在 C# 中查找字符串中的所有模式索引

c# - 从 SharePoint 365 下载文件