我有一组向量。我正在研究将 n 维向量减少为一元值 (1-d) 的方法,例如
(x1,x2,....,xn) ------> y
这个单一值需要是向量的特征值。每个唯一的向量都会产生一个唯一的输出值。以下哪种方法是合适的:
1- 向量的范数 - 测量距原点的欧几里得距离的平方和的平方根
2- 计算 F 的哈希值,使用一些哈希技术避免冲突
3- 使用线性回归来计算,y = w1*x1 + w2*x2 + ... + wn*xn - 如果输入值对输出没有良好的依赖性,则不太可能很好
4- 像 PCA 这样的特征提取技术,根据以下条件为每个 x1,x2,..xn 分配权重 输入向量集
最佳答案
从该方法中不清楚您需要此转换具有哪些属性,因此我猜测您不需要转换来保留除唯一性和可能的可逆性之外的任何属性。
您建议的技术通常都无法避免冲突:
范数 - 指向相反方向的两个向量具有相同的范数。
哈希 - 如果输入未知 - 哈希函数通常意味着有限的图像,并且您有无限数量的可能向量 - 不好。
很容易找到对任何线性回归结果给出相同结果的向量(想一想)。
PCA 是一种特定类型的线性变换 - 因此与线性回归存在相同的问题。
所以 - 如果您只是在寻找唯一性,您可以“字符串化”您的向量。一种方法是将它们写为文本字符串,不同的坐标由特殊字符(例如下划线)分隔。然后将此字符串的二进制值作为您的表示形式。
如果空间很重要并且您需要更有效的表示,您可以考虑更有效的位编码:集合 0,1,...,9,'.','' 中的每个字符都可以由 4 位表示 - 十六进制数字(将“.”映射到 A,将“”映射到 B)。现在将此字符串编码为十六进制数,节省一半的空间。
关于math - 如何降低向量的维数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16019633/