c# - 比较互联网上的两个文件是否相同

标签 c# file http-headers youtube-api windows-store-apps

这是我的场景 - 我有一个 Windows 应用商店应用程序。我有一个本地文件和一个指向 Internet 上文件的链接。有没有一种方法可以检查这两个文件是否相同,无需从链接下载文件?

获取文件的代码是这样的:

private static async void SetImage(PlaylistItem song, string source, string imageName)
{

    HttpClient client = new HttpClient();

    HttpResponseMessage message = await client.GetAsync(source);

    StorageFolder myfolder = Windows.Storage.ApplicationData.Current.LocalFolder;
    StorageFile sampleFile = await myfolder.CreateFileAsync(imageName, CreationCollisionOption.ReplaceExisting);
    byte[] byteArrayFile = await message.Content.ReadAsByteArrayAsync();

    await FileIO.WriteBytesAsync(sampleFile, byteArrayFile);

    song.Image = new BitmapImage(new Uri(sampleFile.Path));

}

最佳答案

通常的解决方案是将云文件的哈希值保存在某处,通常是在文件的元数据中,并将其与本地文件的哈希值进行比较。校验和不适合此操作,因为它们很可能发生冲突(即具有相同校验和的不同文件)。

大多数存储服务(Azure Blob 存储、Amazon S3、CloudFiles)实际上使用文件的 MD5 或 SHA 哈希作为其 ETag,该值用于检测文件的更改以实现缓存和并发目的。通常,对文件的 HEAD 操作将返回其 header 和 ETag 值。

如果您可以选择自己的算法,请选择 SHA256 或更高版本,因为这些算法经过高度优化,而且它们的大块大小意味着计算大文件的哈希值要快得多。 SHA256 实际上比旧的 MD5 算法快得多。

您使用的是什么存储服务?

编辑

如果只想检查文件,避免再次下载,可以直接使用ETag。 ETag 正是为此目的而创建的。第一次下载时,只需将它与文件一起存储即可。这就是代理和缓存知道向您发送图片的缓存版本而不是到达目标服务器的方式。

事实上,您可以只对带有 ETag/If-None-Match header 的文件执行 GET。如果目标文件未更改,中间代理和最终 Web 服务器将返回 304 状态代码。这将使下载列表中所有图像所需的请求数量减半。

另一种方法是存储文件的 Last-Modified header 值并在 GET 中使用 If-Modified-Since header

编辑 2

您提到 ETag header 为空,但您的代码并未显示如何检索它。

HttpResponseMessage 有多个 Headers 属性,都是 on the message itself及其 Content .您需要使用适当的属性来检索 ETag 值。

您还可以使用 Fiddler 检查以确保服务器确实返回了 ETag。

编辑 3

终于找到了从 Youtube 获取 ETag 的方法!答案来自“How to get thumbnail of YouTube video link using YouTube API?

对来自 ytimg.com 的 YouTube 缩略图执行 HEAD 或 GET 操作不会返回 ETag 或 Last-Modified header 。

另一方面,使用 YouTube 的数据 API 并在 gdata.youtube.com 上执行 GET,返回有关视频的大量信息。包含一个 ETag 值,尽管我怀疑它会随着视频的变化而变化。不过,如果您只想在视频更改时下载图像,或者不想再次下载图像,这可能没问题。

我使用的代码是:

var url = "http://gdata.youtube.com/feeds/api/videos/npvJ9FTgZbM?v=2&prettyprint=true&alt=json";

using(var  client = new HttpClient())
{
    var response = await client.GetAsync(url);
    var etag1 = response.Headers.ETag;
    var content = await response.Content.ReadAsStringAsync();
    ...
}

关于c# - 比较互联网上的两个文件是否相同,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18124719/

相关文章:

c# - 从 WCF 服务查看 HTTP header

c# - 在 ApiController 中返回 BsonDocument

c# - 指定多个泛型类型来实现

c# - 我得到 "missing a using directive or assembly reference"并且不知道出了什么问题

c# - 在 DataGridView 中的选定行的表单之间传递数据

c - 将文本文件加载到 C 程序中

Java NIO FileChannel 与 FileOutputstream 性能/实用性

Java通过Socket发送文件

c# - 如何发送缓存控制 : no-cache in HTTP Response header?

Java 过滤器无法设置响应 header