Java 通过读取前几个字节读取实际文件类型(取证)

标签 java computer-forensics

你好,我需要一种方法来使用 Java 读取任何文件的前四个字节。 为什么是前四个字节?因为它是实际文件类型的取证指纹(文件扩展名不可靠,因为它可以被伪造)

http://en.wikipedia.org/wiki/File_carving

现在,以这种方式(下面,Java 代码)读取文件将读取文件“内容”,我认为它会跳过文件头信息...?我无法获得魔数(Magic Number)(前四个字节),因此无法识别/确认给定样本的真实文件类型。

byte[] buffer = new byte[4];
InputStream is = new FileInputStream("somwhere.in.the.dark");
if (is.read(buffer) != buffer.length) { 
    // do something 
}
is.close();

Read First 4 Bytes of File

有什么建议吗?

最佳答案

正如 Blank 所建议的,https://tika.apache.org

这是代码 - 在这个例子中,“test3_iamexe.txt” 是一个exe可执行文件,文件扩展名重命名为“txt”由攻击者。

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.mime.MediaType;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.parser.AbstractParser;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.sax.XHTMLContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.Collections;
import java.util.Set;
import org.apache.tika.metadata.Property;

public class TestTika {

    public static void main(String[] args) {
        File file = null;
    InputStream stream = null;
        String contentType = null;

        try
        {
            file = new File("C:\\tmp\\test3_iamexe.txt");
            stream = new FileInputStream(file);

            AutoDetectParser parser = new AutoDetectParser();
            BodyContentHandler handler = new BodyContentHandler();
            Metadata metadata = new Metadata();

            try {
                // This step here is a little expensive
                parser.parse(stream, handler, metadata);
            } finally {
                stream.close();
            }

            // metadata is a HashMap, you can loop over it see what you need. Alternatively, I think Content-Type is what you need
            contentType = metadata.get("Content-Type");

        } catch(...)
        {
            // handle it
        }

        return;
    }
}

关于Java 通过读取前几个字节读取实际文件类型(取证),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29964918/

相关文章:

java - 如何在 java 中读取 Doc 或 Docx 文件?

java - Spring Batch 内存泄漏 - 使用 JpaItemWriter 将 CSV 写入数据库

java - 如何通过 DIIOP 获取 SSL Domino session

java - HandlerInterceptorAdapter 不起作用

Java 无效的流 header : 7371007E

android - Android 12 keystore 用户 0 丢失文件夹

mysql - 在InnoDB MySQL中刷新到磁盘之前,脏的数据库页面通常在内存中保留多长时间?

python - 查找修改后的图像 - 图像取证

http - 如何分析 HTTP 转储?