我有一个 friend 正在用 Microsoft Word 2007 写一本400 页的书。
在整本书中,他有 200 个故事,每个故事都由许多段落组成。
当他写完这本书后,他想将嵌入在他的 Word 文档中的每个故事的文本复制到一个数据库表中,例如:
Title, varchar(200)
Description, text
Content, text
我们不想将每个故事都复制并粘贴到数据库中,而是希望有一个程序自动将标记的数据从 Word 文件中提取到数据库中的相应字段中。
他必须在 Microsoft Word 中做什么才能将每组段落表示为“故事内容”,将每个标题表示为“故事标题”等。先决条件是此标记在文档中不可见。我知道 Word 2007 文件基本上是压缩的 XML 文件,所以我认为这是可能的,并且我认为样式表 是我们需要的,但是我需要如何精确地准备 Word 文档,以便他添加他们被正确标记的故事?
我假设 C# 4.0 的新 COM Interop 功能是我分析 Word 文件并从嵌入式故事中检索标题、描述和内容所需要的,但是如何我在技术上这样做吗?有没有人有例子?
有没有人有过这样的项目经验(将 Microsoft Word 作为语义数据文件读取)并可以分享?
最佳答案
我会做的是使用样式。为每种类型的内容设置一种样式,并编写一个宏来逐段遍历文档并吐出相应的文本文件。
关于c# - 如何准备 Word 2007 文档以便 C# 可以从语义上提取数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3431544/