在 this在 Sebastian Thrum 的视频中,他说监督学习适用于“标记”数据,无监督学习适用于“未标记”数据。他这话是什么意思?谷歌搜索“标记数据与未标记数据”会返回一堆关于该主题的学术论文。我只想知道基本的区别。
最佳答案
通常,未标记数据由自然或人类创造的文物样本组成,您可以相对轻松地从世界上获得这些样本。未标记数据的一些示例可能包括照片、录音、视频、新闻文章、推文、X 射线(如果您正在开发医疗应用程序)等。每条未标记数据都没有“解释”——它仅包含数据,没有其他内容。
标记数据通常采用一组未标记数据,并使用某种有意义的“标签”、“标签”或“类”来增强每部分未标记数据,这些“标记”、“标签”或“类”在某种程度上具有信息性或所需性知道。例如,上述类型的未标记数据的标签可能是这张照片是否包含一匹马或一头牛、这段录音中说出了哪些单词、这段视频中正在执行什么类型的 Action 、这篇新闻文章的主题是什么就是,这条推文的整体情绪是什么,这张 X 射线中的点是否是肿瘤,等等。
数据标签通常是通过要求人类对给定的未标记数据做出判断来获得的(例如,“这张照片包含一匹马还是一头牛?”),并且获取成本比原始未标记数据要昂贵得多.
获得标记数据集后,可以将机器学习模型应用于该数据,以便可以将新的未标记数据呈现给模型,并且可以猜测或预测该未标记数据的可能标签。
机器学习中有许多活跃的研究领域,旨在整合未标记和标记的数据,以构建更好、更准确的世界模型。半监督学习尝试将未标记和标记数据(或者更一般地说,仅某些数据点具有标签的未标记数据集)组合成集成模型。深度神经网络和特征学习是尝试单独构建未标记数据模型的研究领域,然后将标签中的信息应用到模型中有趣的部分。
关于machine-learning - 标记数据和未标记数据有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19170603/