java - 我应该如何为我的神经网络中的训练集建模？

标签 java neural-network classification spam training-data

我有一个愚蠢的困惑，但它一直困扰着我。我必须为垃圾邮件检测制作一个 ANN。到目前为止，我已经开发了用于开发邮件的 tfidf vector 和分别计算该矩阵的 PCA 的模块。问题是我的邮件是直接从收件箱中读取的。对于培训，我希望使用我的垃圾邮件箱，然后使用用于开发未读邮件 vector 的相同类。如何将它们标记为垃圾邮件？

我应该开发这样的东西吗

   HashMap<HashMap<String,Double>,Integer> trainingSet;

第一个参数是通过 PCA 降维的 mailVector，Integer 是标签 1-Spam 和 0 表示非垃圾邮件，然后将 vector 写入文件并从中读取？或者我应该让我的代码更灵活，而不是现在直接从收件箱读取，它应该从已经存在的在线垃圾邮件集合中读取，然后将它们建模为邮件对象[我有一个 MailMessage 类，它定义了像 subject 这样的成员, body , mailvector 等用于邮件，然后用它来构建术语索引，最后是 vector ]，形成 vector ，然后形成训练集，训练后我可以让他们阅读我的收件箱？

如有任何见解，我们将不胜感激!

最佳答案

我要跟你说实话。坦率地说，英语中没有那么多单词。如果您有非常大的输入 vector (比如数万个)，您可能会获得最有效的性能。事实上，您甚至可以在没有隐藏层的情况下购买。

对于图像识别等，具有数千个点的输入 vector 并不少见。

关于java - 我应该如何为我的神经网络中的训练集建模？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13326545/

上一篇：java - spring mvc Controller 报错java.lang.IllegalStateException : No suitable resolver for argument [0]

下一篇：java - 很难找到具有很多功能的 Java mp3 播放器 (api)

相关文章：

matlab - Matlab 中用于分类的贝叶斯网络 (BNT)

java - 确认对话框不起作用

java - 禁用 Apache Flink 日志记录

java - 对于导致 "EXCEPTION_ACCESS_VIOLATION (0xc0000005)"的原因，是否有任何一般经验法则？

python - Sklearn 指标值与 Keras 值有很大不同

python - Keras 中 sigmoid 激活函数的使用

neural-network - 带有多标签图像的咖啡

java - 用于 Java 中基于配对的密码学的良好库

python-2.7 - 我正在尝试根据肝脏疾病数据集构建随机森林分类器。但 fit 方法返回错误，例如 :

python - 检查输入 : expected flatten_input to have 3 dimensions, 但获得形状为 (None, 100, 100, 1) 的数组时出错