machine-learning - 机器学习如何利用用户的 Facebook 兴趣来做出决定

标签 machine-learning

我正在尝试找出一种将 Facebook 用户表示为向量的方法。我决定将用户的不同属性/参数堆叠到一个大向量中(即年龄是一个大小为 100 的向量，其中 100 是你可以拥有的最大年龄，如果你是 50，则前 50 个值向量将为 1，就像温度计一样)。我只是想不出一种方法来将 Facebook 兴趣表示为向量，它们是单词的集合，并且表示所有单词的空间很大，我不能选择像一袋单词或相似的东西。有谁知道我应该如何进行？我对此还很陌生，任何引用都将不胜感激。

如果想要否决这个问题，请让我知道它有什么问题，以便我可以改进措辞和上下文。

谢谢

最佳答案

“正确”的方法取决于您的学习算法是什么以及决策问题是什么。

不过，将年龄表示为单个数字特征而不是 100 个指示特征通常会更好。这样，学习算法就不必学习这 100 个特征之间的关系(它是内置的)，并且问题的维度减少了 99 个，这将使一切变得更好。

要对兴趣进行建模，您可能需要从极高维的词袋模型开始，然后使用各种选项之一来降低维度:

通用降维技术，如 PCA或更智能的非线性，包括 Kernel PCA或各种非线性方法:参见wikipedia's overview of dimensionality reduction和 specifically nonlinear techniques
通过topic model传递它并使用学习到的主题权重作为你的特征；示例包括 LSA , LDA , HDP还有更多

关于machine-learning - 机器学习如何利用用户的 Facebook 兴趣来做出决定，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10249942/

上一篇：machine-learning - Weka java库: how to get string representation of classified instance?

下一篇：machine-learning - Weka机器学习:how to interprete Naive Bayes classifier?

相关文章：

python - Keras Conv1D 步骤参数

python - 是否可以安装 sklearn 管道的单独部分？

python - 值错误: multiclass format is not supported

machine-learning - grid.py 运行需要多长时间？

machine-learning - 根据自变量和因变量之间的关系模式对数据进行聚类

r - Predict() 函数的奇怪行为

machine-learning - weka SMO分类器如何实现多类分类？

matlab - Octave:高斯分布的 3D 曲面图

python - 如何使用Python在Spark中对线性回归进行一次热编码？

algorithm - 哪种分类算法可用于文档分类？