algorithm - 机器学习算法是否复制它从中学习的数据?

标签 algorithm machine-learning neural-network artificial-intelligence deep-learning

我不是程序员,而是法学院的学生,但我目前正在研究一个涉及人工智能和版权法的项目。我目前正在研究如果算法使用 protected 作品,机器学习算法的学习过程是否可能侵犯版权。然而,这取决于算法是否复制工作或做其他事情。

谁能告诉我机器学习算法是否通常会复制它们正在分析的数据(图片/文本/视频/等)(即使只是简单地),或者它们是否能够通过其他方法从数据中获取所需的信息不需要复制(类似于人类看到 parking 标志并将其识别为 parking 标志而无需复制图像)。

为我缺乏知识而道歉,如果我的任何解释与任何已建立的机器学习知识相悖,我深表歉意。正如我所说,我只是一个卑微的法学院学生。

提前致谢!

最佳答案

一些机器学习算法实际上保留了训练集的副本,例如 k 最近邻算法。参见 https://en.wikipedia.org/wiki/Instance-based_learning .并非所有人都这样做;事实上,它通常被视为一个缺点,因为训练集可能很大。

此外,计算机还围绕着许多不同大小和速度的不同数据存储而构建。他们通常在处理数据时将正在处理的数据复制到小型快速存储中,因为较大的存储需要更长的时间来读取和写入。许多可能的例子之一是法律争论的主题,我对此知之甚少 - 参见例如https://law.stackexchange.com/questions/2223/why-does-browser-cache-not-count-as-copyright-infringement和其他浏览器缓存版权。如果一台计算机添加了两个数字,它肯定会将它们存储在其内部存储器中。它很可能至少将其中一个存储在所谓的内部寄存器中——非常小、非常快的内存,用于存储要处理的数字。

如果计算机(或任何其他电子设备)已被用于处理 secret 数据,通常从那时起将其视为 secret 数据,最坏的情况是假设它可能保留了任何数据的副本它已被用来处理的数据,即使从中检索数据实际上需要大量专业知识和专用设备。

关于algorithm - 机器学习算法是否复制它从中学习的数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41797569/

相关文章:

machine-learning - Torch CrossEntropyCriterion 错误

python - 简单的非面向对象神经网络的成本 "jumping"

python - 神经网络训练验证损失的解释

java - min n-m 以便对整个数组进行排序

machine-learning - 我的 sklearn 管道是否也会缩放我的因变量 y?

c++ - 为什么 string::find_first_of() 返回意外结果?

python - 函数逼近 : How is tile coding different from highly discretized state space?

python - 如何使用 Scikit Learn 调整随机森林中的参数?

algorithm - 大小算法

javascript - 词集中词的最大交集算法