我正在尝试使用 ELK 管道阅读电子邮件 (IMAP),提取通用附件(主要是 PDF,最终是 doc 或 ppt)并将它们放在 ElasticSearch 上。
这是我能做的:
- 使用 Logstash 从文件中直接加载一些 base64 数据到 ElasticSearch,使用 ElasticSearch 上的
Ingest Attachment Processor
读取 base64 内容。 - 从 IMAP(交换电子邮件)加载数据 我可以在 ElasticSearch 上正确加载除附件(我需要的)之外的所有电子邮件信息。
第一个解决方案工作正常并且可以满足我的要求,只是它不直接从电子邮件中提取附件并且我在文件中硬编码了 base64 数据。
对于第二个解决方案,我在 Kibana 上有一个字段 x-ms-has-attach: yes
,但附件本身没有任何地方。 imap
插件旨在仅加载没有附件的电子邮件内容?
我错过了什么?你能建议我一个管道来实现我正在寻找的东西吗?
这是我为第一个例子配置的logstash:
input {
file {
path => "/my/path/to/data/*"
start_position => "beginning"
# sincedb_path => "/my/path/to/sincedb"
sincedb_path => "/dev/null"
close_older => 0
tags => ["attachment"]
}
}
output {
elasticsearch {
index => "email-attachment"
hosts => [ "localhost:9200" ]
}
}
这是管道:
PUT _ingest/pipeline/email-attachment
{
"description": "Pipeline to parse an email and its attachments",
"processors": [
{
"attachment" : {
"field" : "message"
}
},
{
"remove" : {
"field" : "message"
}
},
{
"date_index_name" : {
"field" : "@timestamp",
"index_name_prefix" : "email-attachment-",
"index_name_format": "yyyy-MM",
"date_rounding" : "M"
}
}
]
}
这是我为第二个例子配置的logstash:
input {
imap {
host => "my.domain.it"
password => "mypassword"
user => "myuser"
port => 12345
type => "imap"
secure => true
strip_attachment => true
}
}
output {
elasticsearch {
index => "email-attachment"
hosts => [ "localhost:9200" ]
}
}
更新
我正在使用版本 5.2.2
最佳答案
最后我定义了一个完全不同的管道。
我使用带有 mail
库的 Ruby 应用程序阅读电子邮件(您可以在 github
上找到它),从中提取附件非常容易。
然后,我使用 Ingest Attachment Processor
将这些附件的 base64
编码直接放在 ElasticSearch
上。
我过滤 content_type
只是为了确保只加载“真实”附件,因为多部分电子邮件将正文中的任何多媒体内容(即:图像)视为附件。
附言
使用 mail library ,你应该这样做:
Mail.defaults do
retriever_method :imap, { :address => address,
:port => port,
:user_name => user_name,
:password => password,
:enable_ssl => enable_ssl,
:openssl_verify_mode => openssl_verify_mode }
和 new_messages = Mail.find(keys: ['NOT','SEEN'])
检索看不见的消息。
然后遍历 new_messages。之后,您可以简单地使用 encoded = Base64.strict_encode64(attachment.body.to_s)
对消息进行编码。请检查 new_messages
以检查要使用的确切字段名称。
关于email - 在 ElasticSearch 上提取电子邮件附件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45284517/