information-theory - 信息是数据的子集吗?

标签 information-theory

很抱歉,我不知道这是否是属于mathoverflow的数学问题,还是属于这里的计算机科学问题。

就是说,我相信我理解基本的difference between data, information, and knowledge。我的理解是信息既包含数据又包含含义。我不清楚的一件事是信息是否是数据。信息是被视为一种特殊的数据,还是完全不同?

最佳答案

单词datainformationknowlege是基于值的概念,用于以主观方式对特定信息集的一般“简洁性”和“有用性”进行分类。
这些词没有确切的含义,因为它们与信息处理的基本目的和方法有关。在信息论领域,这些根本没有任何意义,因为这三个都是同一件事:“信息”的集合(从信息论的角度来说)。
然而,在上下文中,它们对于总结信息集的一般性质很有用,如下所述。

信息是从数据中获得的(或有时是从中得出的),但信息可能更丰富,更清晰(从而纠正了一些值)和“更简单”(从而消除了一些不相关的数据)。因此,在集合论的意义上,信息不是数据的子集,而是一个单独的集合(通常与数据相交,但也可以具有自己的元素)。

知识(有时称为洞察力)是又一个更高的层次,它是基于信息的,也不是信息的[设定理论]子集。实际上,知识通常没有直接引用信息元素,而是讲述了有关信息/数据的“元故事”。

在数据->信息->知识链中,较高的级别是较低的级别的子集的毫无根据的想法,可能是由于[IT]信息量通常有所减少这一事实。但是从质上来说,这些信息是不同的,因此没有真正的[集合论]子集关系。

例:


来自华尔街的原始证券交易所数据是...数据
“数据之海”!某人很难直接从这些数据中找到他/她的需求。此数据可能需要标准化。例如,价格信息有时可以用精度为1/32的文本字符串表示,在其他情况下,价格可以为精度为1/8的真实二进制整数。同样,指示买方ID或卖方ID的字段可能包含拼写错误,因此指向错误的卖方/买方。等等
从上面制作的电子表格是...信息
将各种过程应用于数据:
-清洁/校正各种值
-交叉引用(例如,查找关联的代码,例如在“买方ID”列旁边添加一列以显示个人/公司的实际名称)
-合并有关同一事件(但来自不同来源)的重复记录以相互证实,但也合并为一个记录。
-汇总:例如,将给定股票的所有交易价值相加(而不是显示所有单个交易)。
所有这些(然后还有一些)将数据转换为信息,即易于使用的一组[IT感觉]信息,在这里人们可以快速找到一些“数据”,例如IBM股票在纽约的开盘价和收盘价。 2009年6月8日。
请注意,虽然使用起来更方便,部分更精确/更精确并且也精简了,但是其中没有真正的[IT感]信息,无法通过相对简单的方式从原始信息中找到或计算出这些信息(如果仅是艰辛的话) )流程。
财务分析师的报告可能包含...知识
例如,如果报告指示[虚假示例],则每当油价超过某个阈值时,金价便开始下降,但随后在咖啡和茶的价格趋于稳定的时候又迅速回升。这种特殊的见识构成了知识。一直以来,这种知识可能一直只隐藏在数据中,但是只有当人们应用了一些花哨的统计分析和/或需要人类专家的帮助才能找到或确认这种模式时,这种知识才变得显而易见。




顺便说一下,在信息一词的信息论意义上,“数据”,“信息”和“已知知识”都包含[IT意义]信息。
人们可能会滑溜溜地说:“随着链条的上升,熵减小”,但这只是松散地成立,因为


熵减少与“对人类的有用性”没有直接或系统的联系
(一个典型的例子是压缩后的文本文件的熵较小,但阅读起来却很无趣)
实际上存在信息丢失(除了熵丢失)
(例如,当数据汇总时,有关单个记录的[IT感觉]信息会丢失)
特别是在信息->知识的情况下,抽象度的变化


最后一点(如果我还没有使所有人感到困惑……)是这样的想法,即data->info->knowledge链实际上相对于[IT-sense]信息的预期用途/目的。
ewernli在下面的评论中提供了拼写检查器的示例,即,当重点是英语拼写检查时,华尔街天才最有见地的论文只是一串单词,实际上是“原始数据”,其中一些需要改进(沿着拼字法目的链。
同样,使用数千篇报纸文章的语言学家通常(我们希望...)至少包含一些见识/知识(一般意义上),他们可能只是考虑这些文章的原始数据,这将有助于他/她自动创建法语-德语词典(这将是信息),并且在他从事该项目期间,他可能会发现两种语言之间的普通单词用法出现了系统性的语义转换,因此可以洞悉不同的文化。

关于information-theory - 信息是数据的子集吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2438911/

相关文章:

不同函数的 'perceived randomness'评分算法

python - 使集合无前缀

algorithm - 数据压缩 - 指数分布的机器学习

database-design - 信息模型和本体之间有什么区别?

python - 交叉熵总是大于熵吗?

assembly - 子程序推理

compression - 理论:使某些文件变小但不变大的压缩算法?

r - Dredge MuMIn : when using a dredge on a GLMM, 空模型是否包含随机效应?

algorithm - 生成带有熵参数的伪随机流