machine-learning - 从给定数据中学习并将其应用于新数据

标签 machine-learning scikit-learn

我是机器学习scikit-learn的初学者,所以这可能是一个愚蠢的问题..

我正在尝试做这样的事情:

features = [['adam'], ['james'], ['amy']]
labels = ['hello adam', 'hello james', 'hello amy']

clf = clf.fit(features, labels)

print clf.predict(['john'])
# This should give out 'hello john'

使用 scikit-learn 可以实现这一点吗?

提前致谢!

最佳答案

解决这个问题的原则方法是进行序列到序列的学习,这是一个更复杂的过程,超出了 scikit-learn 的范围。

通过足够的特征工程和正确的问题表述,您仍然可以帮助更简单的算法(例如 scikit learn 中的算法)完成此任务。有两个主要困难需要解决:

  • 如何将特征和标签转换为数字表示形式(one-hot、嵌入等)
  • 如何将可变长度序列编码为固定长度向量,该向量可以输入到 scikit-learn 算法(词袋、均值池、rnn)。

关于machine-learning - 从给定数据中学习并将其应用于新数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42819491/

相关文章:

python - Python 中文本分类的特征选择

python - 多标签分类器中的拟合概率

python - 使用 TSNE 在 Python 中可视化集群

python - 如何在python中返回通过sklearn的函数KernelDensity估计的分布的平均值(或期望值)?

tensorflow - 精度较低的 CNN 模型

python - Azure 应用服务已启动并正在运行,但显示默认的 Microsoft 页面

machine-learning - 解释自组织映射

machine-learning - Theano 梯度不适用于 .sum(),仅适用于 .mean()?

python - 如何调整比例 scikit-learn 逻辑回归系数以对非比例数据集进行评分?

python - 使用 Science-Kit 对文档(即文本)执行欧几里德距离测量