我正在研究机器学习文档分类问题。有谁知道如何在 Azure ML 中进行 n-gram Tfidf 特征提取和 sublinear_tf 缩放。
过去,我使用 TfidfVectorizer 进行了 inSci-Kit 学习(请参见下面的示例),但问题是在 AzureML 中,我无法使用 python 模块显式定义自己的方法或类,并且宁愿不上传压缩代码。
我是一个 Python 爱好者,但如果有等效的 R 语言,我愿意使用 R。市场上有一个 R 示例,但它依赖于 unigram。
TfidfVectorizer(max_df=.67,min_df=.015,lowercase=False ,sublinear_tf=True,norm='l2',tokenizer=AbstractTokenizer())
最好, -阿里
最佳答案
欢迎使用 AzureML。
对于定义自己的方法的问题,AzureML 是一种用于 ML 建模的基于流程的可视化编程工具。它与在本地主机上编程不同。您可以为不同的数据集处理定义模块,并通过拖放两个模块之间的链接线来链接它们。 ML Stduio 上有现有模块列表,请引用 https://msdn.microsoft.com/en-us/library/azure/dn906033.aspx 。您只需将它们组合起来即可创建您自己的 ML 模型。
对于使用Python Module的问题,AzureML上的Python存在一些限制。无法定制Python安装,引用https://azure.microsoft.com/en-us/documentation/articles/machine-learning-execute-python-scripts/#limitations第4条.
但是,对于 R 语言,您可以导入 ML Studio 中尚未安装的包。请引用https://azure.microsoft.com/en-us/documentation/articles/machine-learning-extend-your-experiment-with-r/#importing-packages .
同时,您还可以在 AzureML 中编写自定义 R 模块。请引用https://azure.microsoft.com/en-us/documentation/articles/machine-learning-extend-your-experiment-with-r/#importing-packages .
所以我认为您可以通过在 API install.packages('<pkgs.zip>', ...)
安装依赖项“unigrams”来运行 R 示例。 .
最诚挚的问候。
关于python - 用于 Azure ML 中特征提取的 TfidfVectorizer 和 sublinear_tf 缩放,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32854507/