python - 用于 Azure ML 中特征提取的 TfidfVectorizer 和 sublinear_tf 缩放

标签 python r azure azure-machine-learning-service

我正在研究机器学习文档分类问题。有谁知道如何在 Azure ML 中进行 n-gram Tfidf 特征提取和 sublinear_tf 缩放。

过去,我使用 TfidfVectorizer 进行了 inSci-Kit 学习(请参见下面的示例),但问题是在 AzureML 中,我无法使用 python 模块显式定义自己的方法或类,并且宁愿不上传压缩代码。

我是一个 Python 爱好者,但如果有等效的 R 语言,我愿意使用 R。市场上有一个 R 示例,但它依赖于 unigram。

TfidfVectorizer(max_df=.67,min_df=.015,lowercase=False ,sublinear_tf=True,norm='l2',tokenizer=AbstractTokenizer())

最好, -阿里

最佳答案

欢迎使用 AzureML。

对于定义自己的方法的问题,AzureML 是一种用于 ML 建模的基于流程的可视化编程工具。它与在本地主机上编程不同。您可以为不同的数据集处理定义模块,并通过拖放两个模块之间的链接线来链接它们。 ML Stduio 上有现有模块列表,请引用 https://msdn.microsoft.com/en-us/library/azure/dn906033.aspx 。您只需将它们组合起来即可创建您自己的 ML 模型。

对于使用Python Module的问题,AzureML上的Python存在一些限制。无法定制Python安装,引用https://azure.microsoft.com/en-us/documentation/articles/machine-learning-execute-python-scripts/#limitations第4条.

但是,对于 R 语言,您可以导入 ML Studio 中尚未安装的包。请引用https://azure.microsoft.com/en-us/documentation/articles/machine-learning-extend-your-experiment-with-r/#importing-packages .

同时,您还可以在 AzureML 中编写自定义 R 模块。请引用https://azure.microsoft.com/en-us/documentation/articles/machine-learning-extend-your-experiment-with-r/#importing-packages .

所以我认为您可以通过在 API install.packages('<pkgs.zip>', ...) 安装依赖项“unigrams”来运行 R 示例。 .

最诚挚的问候。

关于python - 用于 Azure ML 中特征提取的 TfidfVectorizer 和 sublinear_tf 缩放,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32854507/

相关文章:

c# - HttpWebRequest GET 请求在处理时停止

node.js - 仅在 Azure AD 登录上使用 GCP 自定义域时,GCP 和 Azure : AADSTS700016:You may have sent your authentication request to the wrong tenant. 错误

python - Pandas read_html 生成带有元组列名称的空 df

python - 改变 dask.bag 内的对象

python - 使用现有字段作为 _id 使用 elasticsearch dsl python DocType

azure - 如何使用 MS Graph 编程 API 检查服务主体的登录列表

python - 使用并行 Python 时,有什么方法可以判断作业在哪台机器上运行?

r - 在 Unix 上创建 touch 文件

r - 查找具有相同观察值集的重复值

R - 使用 reshape() 将数据帧转换为两列矩阵