java - 使用 HttpClient/MultipartEntity 流式传输上传

标签 java servlets proxy tomcat7 apache-httpclient-4.x

我现在有一个 Tomcat 实例,它接受上传并对数据进行一些处理工作。

我想用符合类似 API 的新 servlet 替换它。首先,我希望这个新 servlet 将所有请求代理到旧的 servlet。它们在不同的 JVM 上运行,但在同一主机上。

我一直在尝试使用 HttpClient 来代理上传,但客户端似乎要等待流完成才能代理请求。对于大文件,这会导致 servlet 崩溃(我认为它正在缓冲内存中的所有内容)。

这是我当前使用的代码:

HttpPost httpPost = new HttpPost("http://localhost:8081/servlet");
String filePartName = request.getHeader("file_part_name");

_logger.info("Attaching file " + filePartName);

try {
    Part filePart = request.getPart(filePartName);

    MultipartEntity mpe = new MultipartEntity();
    mpe.addPart(
        filePartName,
        new InputStreamBody(filePart.getInputStream(), filePartName)
    );

    httpPost.setEntity(mpe);
} catch (ServletException | IOException e) {
    _logger.error("Caught exception trying to cross the streams, thanks Ghostbusters.", e);
    throw new IllegalStateException("Could not proxy the request", e);
}

HttpResponse postResponse;
try {
    postResponse = HTTP_CLIENT.execute(httpPost);
} catch (IOException e) {
    _logger.error("Caught exception trying to cross the streams, thanks Ghostbusters.", e);
    throw new IllegalStateException("Could not proxy the request", e);
}

我似乎无法弄清楚如何让 HttpClient/HttpPost 在数据传入时流式传输数据,而不是阻塞直到第一次上传完成。以前有人做过类似的事情吗?有更简单的解决方案吗?

谢谢!

最佳答案

问题在于 Mime/Multiplart 框架(用于处理 HTTPServletRequest 和访问文件部分的框架)处理您的请求的方式。

MIME/Multipart 请求的本质很简单(在高层),这些请求没有传统的 key=value 内容,而是具有更复杂的语法,允许它们携带任意的非结构化数据(要上传的文件)。 它基本上看起来像(取自维基百科):

Content-type: multipart/mixed; boundary="'''frontier'''"

This is a multi-part message in MIME format.
--'''frontier'''
Content-type: text/plain

This is the body of the message.

--'''frontier'''
Content-type: application/octet-stream
Content-Disposition: form-data; name="image1"
Content-transfer-encoding: base64

PGh0bWw+CiAgPGhlYWQ+CiAgPC9oZWFkPgogIDxib2R5PgogICAgPHA+VGhpcyBpcyB0aGUg
Ym9keSBvZiB0aGUgbWVzc2FnZS48L3A+CiAgPC9ib2R5Pgo8L2h0bWw+Cg==

--'''frontier'''--

需要注意的重要部分是,各个部分(此处由边界 '''frontier''' 分隔)具有“名称”(通过 Content Disposition header ),然后是内容。一个这样的请求可以包含任意数量的部分。

当然,现在实现此类请求解析的最简单、直接的方法是处理它直到最后,检测边界,并创建一个临时文件(或内存缓存)来保存按名称标识的每个部分。

由于框架无法知道您首先需要哪一部分(在第一个部分之前,您可能需要 servlet 调用中的第二部分),它会解析整个流,然后将控制权交还给您。

因此您的调用在此线路被阻止

Part filePart = request.getPart(filePartName);

在这里,框架必须等待解析整个 MIME 部分,然后才能使用结果(即使是经过重新设计的、 super 优化的解析器也无法既延迟解析流,又允许您随机访问消息的任何部分,您必须在两个选项之间进行选择)。

所以你无能为力......

除非,不使用 Multipart 解析器。如果您不熟悉 MIME(和/或 MIME 库,例如 Apache James),也不确信自己能够控制请求的结构,我不会推荐这样做。

但如果是的话,那么您可以绕过框架处理,并访问请求的原始流。您将手动解析 MIME 结构,并在到达请求正文的开头时停止,并在此时开始构建 HTTP Post,并小心地实际处理 MIME 级别的技术细节(de-base64 ? de-gzip ?,...)。

或者,如果您认为服务器因内存不足而崩溃,则很可能您的框架配置为在内存中缓存 multipart 的内容。但如果有办法将其配置为缓存到磁盘,那么这是一个可能的解决方法。

关于java - 使用 HttpClient/MultipartEntity 流式传输上传,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29042163/

相关文章:

java - 如何通过正则表达式删除 URL 的某些部分?

java - Java程序帮助(Swing+数据库)

java - 从 Servlet 转发到 JSP 页面时如何在 URL 中显示 .jsp 扩展名

bash netcat 代理结合 awk

用于 XML 验证的 Eclipse 代理设置

ssl - 带有 nginx ssl 的 Keycloak docker HTTPS-REQUIRED

java - Bean 引用为空

Java jackson : serialize a class with two field instead of all class

servlets - java.lang.IllegalArgumentException : Invalid <url-pattern> MyServlet in servlet mapping

java - servlet 发生异常时如何重定向到错误页面?