text - 文本注释的数据格式

标签 text comments format

diff format或多或少是表示文本之间差异的事实标准,并被程序员广泛用于分发源代码更改。大多数版本控制系统都可以输出差异,差异用于讨论对文本(例如源代码)的提议更改,因为它们在说明更改方面非常强大。

然而,我经常想简单地评论一个文本而不改变它,并且想要一种数据格式,它可以以一种与 diff 用于更改的方式一样强大的方式来表示对文本的注释。一个典型的用例是代码审查,我想对代码发表评论,但(还)不提出任何更改。另一个用例是用我自己的想法和提醒来注释一篇文章。在 Word 中,我可以通过标记文本并在文本旁边创建注释气球来注释文本。但是 Word 在其他方面很麻烦——我希望将注释放在一个单独的文件中,并保持原样。

存在哪些数据格式可以以与 diff 表示更改的方式一样精确的方式表示对文本的注释?

我不是在寻找像“XML”这样的一般答案。我正在寻找明确表示文本注释的格式。 (也许除了 Word 等某些程序的特定于应用程序的格式之外,不存在这种格式。)

最佳答案

很好的问题。

大多数人会将 XML 或 HTML 之类的子集放入讨论中。
标记语言使用存储在原始文本中的 (data-) 属性。但这不是你要找的。我不包括 XML/HTML 和 RDF 和微格式。

一般情况

您需要保留原始文本,克隆它,然后通过自定义标记语言添加注释。这允许原始文本与注释文本的文本差异。
重要的是单独存储原始文本和文本注释的修订。

这允许多个差异:

  • “原始文本”和“带注释的文本修订版 1..n”之间的差异
  • “带注释的文本 rev n”和“带注释的文本 rev n+1”之间的差异。

  • 这是相当强大的。

    存在哪些数据格式?
  • BioNLP 格式,是一种用于信息提取的文本挖掘格式
  • http://2011.bionlp-st.org/home/file-formats
  • 小子对峙格式
  • http://brat.nlplab.org/standoff.html

  • In the standoff representation, the texts of the documents are kept separate from annotations, which are connected to specific spans of texts through character offsets. The annotations are associated with their texts by the file naming convention that their base name (file name without suffix) is the same: for example, the file PMID-1000.a1 contains annotations for the file PMID-1000.txt.



    如您所见,它是一个“基于文件名的注释关联”。
    有很大的学术研究和改进空间,)

    关于text - 文本注释的数据格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13672071/

    相关文章:

    javascript - 单页 JavaScript MVC 应用程序的评论框架,例如 AngularJS 的 Disqus

    c - 在C中将Sqlite表格式化为字符串(char)?

    javascript - 在 IntelliJ IDEA 中将 JS 行注释转换为间隔 block 注释

    python - svmLight 格式中每一项的含义是什么

    format - 是否有格式指令可以迭代 Common Lisp 中的向量?

    text - 退格字符怪异

    c++从文件中读取以构建基于指针的迷宫

    objective-c - 如何给 NSText 多个阴影?

    python - 从 numpy 数组访问 block

    python - 用注释注释 Python print() 输出