email - 在 ElasticSearch 上提取电子邮件附件

标签 email elasticsearch logstash

我正在尝试使用 ELK 管道阅读电子邮件 (IMAP),提取通用附件(主要是 PDF,最终是 doc 或 ppt)并将它们放在 ElasticSearch 上。

这是我能做的:

  1. 使用 Logstash 从文件中直接加载一些 base64 数据到 ElasticSearch,使用 ElasticSearch 上的Ingest Attachment Processor 读取 base64 内容。
  2. 从 IMAP(交换电子邮件)加载数据 我可以在 ElasticSearch 上正确加载除附件(我需要的)之外的所有电子邮件信息。

第一个解决方案工作正常并且可以满足我的要求,只是它不直接从电子邮件中提取附件并且我在文件中硬编码了 base64 数据。 对于第二个解决方案,我在 Kibana 上有一个字段 x-ms-has-attach: yes,但附件本身没有任何地方。 imap 插件旨在仅加载没有附件的电子邮件内容?

我错过了什么?你能建议我一个管道来实现我正在寻找的东西吗?

这是我为第一个例子配置的logstash:

input {
  file {
    path => "/my/path/to/data/*"
    start_position => "beginning"
#    sincedb_path => "/my/path/to/sincedb"
    sincedb_path => "/dev/null"
    close_older => 0
    tags => ["attachment"]
   }
}

output {
  elasticsearch {
    index     => "email-attachment"
    hosts     => [ "localhost:9200" ]
  }
}

这是管道:

PUT _ingest/pipeline/email-attachment
{
  "description": "Pipeline to parse an email and its attachments",
  "processors": [
    {
      "attachment" : {
        "field" : "message"
      }
    },
    {
      "remove" : {
        "field" : "message"
      }
    },
    {
      "date_index_name" : {
        "field" : "@timestamp",
        "index_name_prefix" : "email-attachment-",
        "index_name_format": "yyyy-MM",
        "date_rounding" : "M"
      }
    }
  ]
}

这是我为第二个例子配置的logstash:

input {
  imap {
    host => "my.domain.it"
    password => "mypassword"
    user => "myuser"
    port => 12345
    type => "imap"
    secure => true
    strip_attachment => true
  }
}

output {
  elasticsearch {
    index     => "email-attachment"
    hosts     => [ "localhost:9200" ]
  }
}

更新

我正在使用版本 5.2.2

最佳答案

最后我定义了一个完全不同的管道。 我使用带有 mail 库的 Ruby 应用程序阅读电子邮件(您可以在 github 上找到它),从中提取附件非常容易。 然后,我使用 Ingest Attachment Processor 将这些附件的 base64 编码直接放在 ElasticSearch 上。

我过滤 content_type 只是为了确保只加载“真实”附件,因为多部分电子邮件将正文中的任何多媒体内容(即:图像)视为附件。

附言

使用 mail library ,你应该这样做:

Mail.defaults do
    retriever_method :imap, { :address =>                 address,
                              :port =>                    port,
                              :user_name =>               user_name,
                              :password =>                password,
                              :enable_ssl =>              enable_ssl,
                              :openssl_verify_mode =>     openssl_verify_mode }

new_messages = Mail.find(keys: ['NOT','SEEN']) 检索看不见的消息。

然后遍历 new_messages。之后,您可以简单地使用 encoded = Base64.strict_encode64(attachment.body.to_s) 对消息进行编码。请检查 new_messages 以检查要使用的确切字段名称。

关于email - 在 ElasticSearch 上提取电子邮件附件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45284517/

相关文章:

javascript - 从 JS 函数调用 NodeJS 函数

elasticsearch - ES 无法在 Win x64 Java SE 8 上启动 u 171/2

logstash - 如何更改索引中的 “message” 值

elasticsearch - Elasticsearch查找孙子总数

Elasticsearch 分层排序

elasticsearch - Logstash匹配多个值

elasticsearch - Logstash 和 Elastic 升级

email - 我可以为每个子域使用不同的邮件服务器吗?

html - 电子邮件中未显示 ALT 文本 (Outlook)

php - 使用 mamp 在本地测试电子邮件