machine-learning - 从给定数据中学习并将其应用于新数据

我是机器学习和scikit-learn的初学者，所以这可能是一个愚蠢的问题..

我正在尝试做这样的事情:

features = [['adam'], ['james'], ['amy']]
labels = ['hello adam', 'hello james', 'hello amy']

clf = clf.fit(features, labels)

print clf.predict(['john'])
# This should give out 'hello john'

使用 scikit-learn 可以实现这一点吗？

提前致谢!

最佳答案

解决这个问题的原则方法是进行序列到序列的学习，这是一个更复杂的过程，超出了 scikit-learn 的范围。

通过足够的特征工程和正确的问题表述，您仍然可以帮助更简单的算法(例如 scikit learn 中的算法)完成此任务。有两个主要困难需要解决:

如何将特征和标签转换为数字表示形式(one-hot、嵌入等)
如何将可变长度序列编码为固定长度向量，该向量可以输入到 scikit-learn 算法(词袋、均值池、rnn)。

关于machine-learning - 从给定数据中学习并将其应用于新数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42819491/

上一篇：machine-learning - 如何解释 TensorFlow 中的预测，它们的形状似乎错误

下一篇：machine-learning - Tensorflow - 预测序列 : what is X and Y?

相关文章：

python - Python 中文本分类的特征选择

python - 多标签分类器中的拟合概率

python - 使用 TSNE 在 Python 中可视化集群

python - 如何在python中返回通过sklearn的函数KernelDensity估计的分布的平均值(或期望值)？

tensorflow - 精度较低的 CNN 模型

python - Azure 应用服务已启动并正在运行，但显示默认的 Microsoft 页面

machine-learning - 解释自组织映射

machine-learning - Theano 梯度不适用于 .sum()，仅适用于 .mean()？

python - 如何调整比例 scikit-learn 逻辑回归系数以对非比例数据集进行评分？

python - 使用 Science-Kit 对文档(即文本)执行欧几里德距离测量