artificial-intelligence - 多语言数据的特征选择和无监督学习+机器学习算法选择

标签 artificial-intelligence nlp machine-learning data-mining classification

问题

我想对一组数千个网站进行分类/分类/集群/分组。我们可以训练数据,因此我们可以进行监督学习,但这不是我们收集的数据,而且我们并不坚决使用它 - 所以我们也在考虑无监督学习。

  • 我可以在机器学习算法中使用哪些功能来处理多语言数据?请注意,其中一些语言可能尚未在自然语言处理领域中得到处理。

  • 如果我要使用无监督学习算法,我是否应该按语言对数据进行分区并以不同的方式处理每种语言?不同的语言可能有不同的相关类别(或没有,取决于您的心理语言学理论倾向),这可能会影响划分的决定。

  • 我正在考虑使用决策树,或者支持向量机 (SVM) 来允许更多功能(根据我对它们的理解)。 This post建议使用随机森林代替 SVM。有什么想法吗?

欢迎采取务实的方法! (也有理论的,但这些可能会被保存以供以后娱乐。)

一些背景

我们正在尝试对包含 3 到 5 种语言(可能最多 10 种,但我们不确定)的数千个网站的语料库进行分类。

我们拥有数百个已分类网站的训练数据。然而,我们可以选择使用或不使用该数据集——如果其他类别更有意义,我们愿意不使用我们拥有的训练数据,因为它不是我们首先收集的数据。我们正处于从网站抓取数据/文本的最后阶段。

现在我们必须就上述问题做出决定。我已经用 Brown Corpus 和 Brill tagger 做了一些工作,但是由于多语言问题,这不起作用。

我们打算使用 Orange机器学习包。

最佳答案

根据您提供的上下文,这是一个监督学习问题。 因此,您正在进行分类,而不是聚类。如果我误解了,请更新您的问题以说明这一点。

我将从最简单的功能开始,即对页面的 unicode 文本进行标记,并使用字典将每个新标记转换为数字,并简单地将标记的存在视为一种功能。

接下来,我会使用最简单的算法 - 我倾向于使用朴素贝叶斯,但如果您有一种简单的方法来运行 SVM,这也很好。

将您的结果与一些基线进行比较 - 比如说将最常见的类别分配给所有页面。

最简单的方法就足够了吗?如果没有,请开始迭代算法和功能。

关于artificial-intelligence - 多语言数据的特征选择和无监督学习+机器学习算法选择,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5410505/

相关文章:

java - 词类的在线(最好)查找 API

java - 如何使用 libsvm 计算多类预测的概率?

artificial-intelligence - 使用什么分类器来确定两个数据集是否描述同一个人?

击败机器人的算法可预测地走向奖品

language-agnostic - QLearning中的Alpha和Gamma参数

tensorflow - 在序列模型中使用填充时,Keras 验证准确性是否有效/可靠?

machine-learning - Liblinear 与 Pegasos

tree - MCTS 处理 N 个玩家游戏的对手 Action

java - 在斯坦福 CoreNLP Java 中的句子(字符串)上创建 TreeAnnotation 解析器

python - NLP - 当我的文本为 "lowering"时,有些单词会失去频率而不是添加更多单词