apache - Apache Mahout 中的矢量化

标签 apache hadoop classification vectorization mahout

我是 Mahout 的新手。我需要将文本文件转换为向量以供后期分类。

任何人都可以阐明以下这些问题吗?

  1. 如何在 mahout 中将文本文件转换为矢量? 文件格式如“用户名|关于项目的评论|评分”
  2. 数据将是几个 TB。那么我可以使用哪种算法来使用我想创建的向量进行分类?

谢谢, 阿伦

最佳答案

您可以查看这 2 个示例,它们在一定程度上也说明/解释了如何使用序列文件 API。 Herehere

你绝对应该阅读这篇 intro到文本分析

关于apache - Apache Mahout 中的矢量化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11932668/

相关文章:

hadoop - 在 Hadoop mapreduce 中,是否所有映射器都需要与所有缩减器进行通信?

python - 使用带有特征矩阵的 scikit_learn 的奇怪卡方结果

python - 调整 SVM OVO 和 OVA 中的超参数以进行多类分类

windows - 为什么 xdebug 在我尝试过的每个 XAMPP 安装上都会使 apache 崩溃?

java - mod_rewrite、RewriteMap、RewriteLock 和线程

php - 无法启动/重启 PHP 7.2 FPM 服务(CentOS 7、Apache)

php - PHP 的 URL 参数

optimization - 有哪些工具可以对Hadoop例程的Cascading进行基准测试?

hadoop - HDFS复制因子是如何决定的?

python - Python 中的 Flask 多进程工作池