c# - 如何压缩由DNA序列组成的字母表

标签 c# compression huffman-code lossless-compression

我想使用压缩技术而不是霍夫曼和自适应霍夫曼算法来压缩 DNA 序列,我使用的是 c# 作为编程语言。 任何人都可以引导我找到算法。 注:我要的是无损压缩

最佳答案

对于 DNA 序列,你有 4 种可能的状态,即

  • 鸟嘌呤(G,00)
  • 胞嘧啶(C,01)
  • 腺嘌呤(A,10)
  • 胸腺嘧啶(T,11)

您可以使用两位来存储这四种可能的状态以及括号中的值。 使用这种简单的方法,您将能够在一个字节中存储四个不同的值。


更新
正如@kol 提到的那样,您可以使用几乎任何压缩算法来进一步缩小数据。 目前 .NET 附带两种压缩方法 ( Deflate and GZip ),更多内容可以在 SharpZipLib 中找到开源库

关于c# - 如何压缩由DNA序列组成的字母表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8565538/

相关文章:

file - 如何在 Go 中用 gzipped 版本替换文件变量?

java - 哈夫曼编码,如何对字节进行压缩?

c# - 在iis上部署后Windows身份验证不起作用

c# - 用户可见的 protected 成员

encryption - AES(128 或 256)加密是否会扩展数据?如果是这样,幅度是多少?

java - 哈夫曼树字符串表示

c - 使用霍夫曼码解码

c# - 如何将来自外部项目的 Controller 和 View 包含到 MVC6 中?

c# - 读取解决方案数据文件 ASP.Net Core

node.js - 如何在不解压的情况下检查压缩类型?