我成功使用 this 转换文档TensorFlow hub 上提供了模块。
每个文档的输出是一个 512 维向量,但这对于我的应用程序来说太大了,我想降低维度,而模块本身不提供维度。
我可以看到一些选项:
- 使用另一个具有较低维度输出的包。
- 使用 PCA 或 tSNE 等方法来减少维度。
使用 PCA 或 tSNE 的问题是,这需要适合许多示例向量的数据 - 这意味着当新文档到达并已转换为 512 维向量时,我需要继续拟合另一个向量模型,然后更新旧的文档向量 - 这将是我的应用程序中的一个大问题。
还有其他可以在单个数据点上运行的降维技术吗?
最佳答案
“UMAP 支持通过标准 sklearn 变换方法向现有嵌入添加新点。” UMAP在各个方面、速度、准确性和理论基础上都是降维的赢家。
关于python - 通用句子编码器,降低向量维度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58182606/