我想使用压缩技术而不是霍夫曼和自适应霍夫曼算法来压缩 DNA 序列,我使用的是 c# 作为编程语言。 任何人都可以引导我找到算法。 注:我要的是无损压缩
最佳答案
对于 DNA 序列,你有 4 种可能的状态,即
- 鸟嘌呤(G,00)
- 胞嘧啶(C,01)
- 腺嘌呤(A,10)
- 胸腺嘧啶(T,11)
您可以使用两位来存储这四种可能的状态以及括号中的值。 使用这种简单的方法,您将能够在一个字节中存储四个不同的值。
更新
正如@kol 提到的那样,您可以使用几乎任何压缩算法来进一步缩小数据。
目前 .NET 附带两种压缩方法 ( Deflate and GZip ),更多内容可以在 SharpZipLib 中找到开源库
关于c# - 如何压缩由DNA序列组成的字母表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8565538/