我有一个愚蠢的困惑,但它一直困扰着我。我必须为垃圾邮件检测制作一个 ANN。到目前为止,我已经开发了用于开发邮件的 tfidf vector 和分别计算该矩阵的 PCA 的模块。 问题是我的邮件是直接从收件箱中读取的。 对于培训,我希望使用我的垃圾邮件箱,然后使用用于开发未读邮件 vector 的相同类。如何将它们标记为垃圾邮件?
我应该开发这样的东西吗
HashMap<HashMap<String,Double>,Integer> trainingSet;
第一个参数是通过 PCA 降维的 mailVector,Integer 是标签 1-Spam 和 0 表示非垃圾邮件,然后将 vector 写入文件并从中读取? 或者我应该让我的代码更灵活,而不是现在直接从收件箱读取,它应该从已经存在的在线垃圾邮件集合中读取,然后将它们建模为邮件对象[我有一个 MailMessage 类,它定义了像 subject 这样的成员, body , mailvector 等用于邮件,然后用它来构建术语索引,最后是 vector ],形成 vector ,然后形成训练集,训练后我可以让他们阅读我的收件箱?
如有任何见解,我们将不胜感激!
最佳答案
我要跟你说实话。坦率地说,英语中没有那么多单词。如果您有非常大的输入 vector (比如数万个),您可能会获得最有效的性能。事实上,您甚至可以在没有隐藏层的情况下购买。
对于图像识别等,具有数千个点的输入 vector 并不少见。
关于java - 我应该如何为我的神经网络中的训练集建模?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13326545/