我正在尝试找出一种将 Facebook 用户表示为向量的方法。我决定将用户的不同属性/参数堆叠到一个大向量中(即年龄是一个大小为 100 的向量,其中 100 是你可以拥有的最大年龄,如果你是 50,则前 50 个值向量将为 1,就像温度计一样)。我只是想不出一种方法来将 Facebook 兴趣表示为向量,它们是单词的集合,并且表示所有单词的空间很大,我不能选择像一袋单词或相似的东西。有谁知道我应该如何进行?我对此还很陌生,任何引用都将不胜感激。
如果想要否决这个问题,请让我知道它有什么问题,以便我可以改进措辞和上下文。
谢谢
最佳答案
“正确”的方法取决于您的学习算法是什么以及决策问题是什么。
不过,将年龄表示为单个数字特征而不是 100 个指示特征通常会更好。这样,学习算法就不必学习这 100 个特征之间的关系(它是内置的),并且问题的维度减少了 99 个,这将使一切变得更好。
要对兴趣进行建模,您可能需要从极高维的词袋模型开始,然后使用各种选项之一来降低维度:
- 通用降维技术,如 PCA或更智能的非线性,包括 Kernel PCA或各种非线性方法:参见wikipedia's overview of dimensionality reduction和 specifically nonlinear techniques
- 通过topic model传递它并使用学习到的主题权重作为你的特征;示例包括 LSA , LDA , HDP还有更多
关于machine-learning - 机器学习如何利用用户的 Facebook 兴趣来做出决定,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10249942/