diff format或多或少是表示文本之间差异的事实标准,并被程序员广泛用于分发源代码更改。大多数版本控制系统都可以输出差异,差异用于讨论对文本(例如源代码)的提议更改,因为它们在说明更改方面非常强大。
然而,我经常想简单地评论一个文本而不改变它,并且想要一种数据格式,它可以以一种与 diff 用于更改的方式一样强大的方式来表示对文本的注释。一个典型的用例是代码审查,我想对代码发表评论,但(还)不提出任何更改。另一个用例是用我自己的想法和提醒来注释一篇文章。在 Word 中,我可以通过标记文本并在文本旁边创建注释气球来注释文本。但是 Word 在其他方面很麻烦——我希望将注释放在一个单独的文件中,并保持原样。
存在哪些数据格式可以以与 diff 表示更改的方式一样精确的方式表示对文本的注释?
我不是在寻找像“XML”这样的一般答案。我正在寻找明确表示文本注释的格式。 (也许除了 Word 等某些程序的特定于应用程序的格式之外,不存在这种格式。)
最佳答案
很好的问题。
大多数人会将 XML 或 HTML 之类的子集放入讨论中。
标记语言使用存储在原始文本中的 (data-) 属性。但这不是你要找的。我不包括 XML/HTML 和 RDF 和微格式。
一般情况
您需要保留原始文本,克隆它,然后通过自定义标记语言添加注释。这允许原始文本与注释文本的文本差异。
重要的是单独存储原始文本和文本注释的修订。
这允许多个差异:
这是相当强大的。
存在哪些数据格式?
In the standoff representation, the texts of the documents are kept separate from annotations, which are connected to specific spans of texts through character offsets. The annotations are associated with their texts by the file naming convention that their base name (file name without suffix) is the same: for example, the file PMID-1000.a1 contains annotations for the file PMID-1000.txt.
如您所见,它是一个“基于文件名的注释关联”。
有很大的学术研究和改进空间,)
关于text - 文本注释的数据格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13672071/