machine-learning - 只考虑 a-zA-Z 和数字进行训练和测试有意义吗？

我正在为股票相关的新闻文章创建文本分类器。我使用文章中的整个文本进行训练和测试。

我看到了一种方法，人们对文本进行预处理，即“使用正则表达式仅考虑 a-zA-Z0-9 并用空格“”替换其余字符。

哪种方法是正确的？这种额外的预处理有意义吗？

最佳答案

这要看情况。在大多数示例中，它们会删除许多字符，并且在某些情况下(取决于您的数据)它可以减少维度(例如，具有 TF-IDF 的词袋模型)，从而为您提供更好的结果。但在其他地方，您必须考虑其他一些字符，例如标点符号。

例如你想检查一个句子是否是疑问句(带分类)，那么几乎必须考虑像“？”这样的标点符号。

最后，考虑您的数据，然后尝试使用不同的前置模型并将最终结果(例如分类的交叉验证)相互比较，并选择最佳模型。

关于machine-learning - 只考虑 a-zA-Z 和数字进行训练和测试有意义吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38739236/