artificial-intelligence - 多语言数据的特征选择和无监督学习+机器学习算法选择

问题

我想对一组数千个网站进行分类/分类/集群/分组。我们可以训练数据，因此我们可以进行监督学习，但这不是我们收集的数据，而且我们并不坚决使用它 - 所以我们也在考虑无监督学习。

我可以在机器学习算法中使用哪些功能来处理多语言数据？请注意，其中一些语言可能尚未在自然语言处理领域中得到处理。
如果我要使用无监督学习算法，我是否应该按语言对数据进行分区并以不同的方式处理每种语言？不同的语言可能有不同的相关类别(或没有，取决于您的心理语言学理论倾向)，这可能会影响划分的决定。
我正在考虑使用决策树，或者支持向量机 (SVM) 来允许更多功能(根据我对它们的理解)。 This post建议使用随机森林代替 SVM。有什么想法吗？

欢迎采取务实的方法! (也有理论的，但这些可能会被保存以供以后娱乐。)

一些背景

我们正在尝试对包含 3 到 5 种语言(可能最多 10 种，但我们不确定)的数千个网站的语料库进行分类。

我们拥有数百个已分类网站的训练数据。然而，我们可以选择使用或不使用该数据集——如果其他类别更有意义，我们愿意不使用我们拥有的训练数据，因为它不是我们首先收集的数据。我们正处于从网站抓取数据/文本的最后阶段。

现在我们必须就上述问题做出决定。我已经用 Brown Corpus 和 Brill tagger 做了一些工作，但是由于多语言问题，这不起作用。

我们打算使用 Orange机器学习包。

最佳答案

根据您提供的上下文，这是一个监督学习问题。因此，您正在进行分类，而不是聚类。如果我误解了，请更新您的问题以说明这一点。

我将从最简单的功能开始，即对页面的 unicode 文本进行标记，并使用字典将每个新标记转换为数字，并简单地将标记的存在视为一种功能。

接下来，我会使用最简单的算法 - 我倾向于使用朴素贝叶斯，但如果您有一种简单的方法来运行 SVM，这也很好。

将您的结果与一些基线进行比较 - 比如说将最常见的类别分配给所有页面。

最简单的方法就足够了吗？如果没有，请开始迭代算法和功能。

关于artificial-intelligence - 多语言数据的特征选择和无监督学习+机器学习算法选择，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5410505/