我正在为股票相关的新闻文章创建文本分类器。我使用文章中的整个文本进行训练和测试。
我看到了一种方法,人们对文本进行预处理,即“使用正则表达式仅考虑 a-zA-Z0-9 并用空格“”替换其余字符。
哪种方法是正确的?这种额外的预处理有意义吗?
最佳答案
这要看情况。在大多数示例中,它们会删除许多字符,并且在某些情况下(取决于您的数据)它可以减少维度(例如,具有 TF-IDF 的词袋模型),从而为您提供更好的结果。但在其他地方,您必须考虑其他一些字符,例如标点符号。
例如你想检查一个句子是否是疑问句(带分类),那么几乎必须考虑像“?”这样的标点符号。
最后,考虑您的数据,然后尝试使用不同的前置模型并将最终结果(例如分类的交叉验证)相互比较,并选择最佳模型。
关于machine-learning - 只考虑 a-zA-Z 和数字进行训练和测试有意义吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38739236/