machine-learning - 用于电子邮件垃圾邮件检测的神经网络

假设您有权访问一个电子邮件帐户，其中包含过去几年接收电子邮件的历史记录(约 10,000 封电子邮件)，分为 2 组

您将如何完成创建可用于垃圾邮件检测的神经网络解决方案的任务 - 基本上将任何电子邮件分类为垃圾邮件或非垃圾邮件？

假设电子邮件提取已经到位，我们只需关注分类部分。

我希望得到答复的要点是:

此外，我们非常欢迎任何资源建议或现有实现(最好是 C#)

谢谢

编辑

最佳答案

如果你坚持使用神经网络......我会为每封电子邮件计算一些特征

基于字符、基于单词和词汇的功能(据我统计，大约有 97 个):

您还可以根据格式添加更多功能:颜色、字体、大小……使用。

大多数这些措施都可以在网上、论文甚至维基百科中找到(它们都是简单的计算，可能基于其他功能)。

因此，对于大约 100 个特征，您需要 100 个输入、隐藏层中的一定数量的节点以及一个输出节点。

需要根据您当前的预分类语料库对输入进行标准化。

我将其分成两组，一组作为训练组，另一组作为测试组，从不混合它们。也许训练/测试组的比例为 50/50，具有相似的垃圾邮件/非垃圾邮件比率。

关于machine-learning - 用于电子邮件垃圾邮件检测的神经网络，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/770238/