machine-learning - 只考虑 a-zA-Z 和数字进行训练和测试有意义吗?

标签 machine-learning nlp classification svm data-mining

我正在为股票相关的新闻文章创建文本分类器。我使用文章中的整个文本进行训练和测试。

我看到了一种方法,人们对文本进行预处理,即“使用正则表达式仅考虑 a-zA-Z0-9 并用空格“”替换其余字符。

哪种方法是正确的?这种额外的预处理有意义吗?

最佳答案

这要看情况。在大多数示例中,它们会删除许多字符,并且在某些情况下(取决于您的数据)它可以减少维度(例如,具有 TF-IDF 的词袋模型),从而为您提供更好的结果。但在其他地方,您必须考虑其他一些字符,例如标点符号。

例如你想检查一个句子是否是疑问句(带分类),那么几乎必须考虑像“?”这样的标点符号。

最后,考虑您的数据,然后尝试使用不同的前置模型并将最终结果(例如分类的交叉验证)相互比较,并选择最佳模型。

关于machine-learning - 只考虑 a-zA-Z 和数字进行训练和测试有意义吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38739236/

相关文章:

machine-learning - 如何使用 sklearn 模型对新观察结果进行预测?

nlp - 确定一个句子是否是查询

matlab - 如何用对角线以下的点修复 ROC 曲线?

python - 对新出现的情况进行分类 - 多项式朴素贝叶斯

matlab - 个别类(class)准确率计算困惑

python - RandomizedSearchCv 导致属性错误

machine-learning - 机器学习中图像的特征是什么?

algorithm - 优化 K-means 算法

duplicates - 重复消除相似公司名称

python - 抽象和具体文本的自然语言处理?