我是机器学习
和scikit-learn
的初学者,所以这可能是一个愚蠢的问题..
我正在尝试做这样的事情:
features = [['adam'], ['james'], ['amy']]
labels = ['hello adam', 'hello james', 'hello amy']
clf = clf.fit(features, labels)
print clf.predict(['john'])
# This should give out 'hello john'
使用 scikit-learn 可以实现这一点吗?
提前致谢!
最佳答案
解决这个问题的原则方法是进行序列到序列的学习,这是一个更复杂的过程,超出了 scikit-learn 的范围。
通过足够的特征工程和正确的问题表述,您仍然可以帮助更简单的算法(例如 scikit learn 中的算法)完成此任务。有两个主要困难需要解决:
- 如何将特征和标签转换为数字表示形式(one-hot、嵌入等)
- 如何将可变长度序列编码为固定长度向量,该向量可以输入到 scikit-learn 算法(词袋、均值池、rnn)。
关于machine-learning - 从给定数据中学习并将其应用于新数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42819491/