bioinformatics - fastq 文件中的簇位置单位

标签 bioinformatics

我有一个 fastq 文件,其 header 包含与 wikipedia example 格式相同的位置。对于fastq:

@HWUSI-EAS100R:6:73:941:1973#0/1

我知道 x=941y=1973,但是单位是什么?微米?一些照明距离?

如果在 x=931y=1973 处存在另一个簇,它们之间的距离是否为 10 微米?

谢谢

编辑: 联系了 Illumina 支持人员,他们说我需要的信息(例如平铺查看区域的尺寸或显微镜的变焦)“被认为是专有的”,这令人沮丧。

最佳答案

作为短期解决方案,我使用 here 提供的最佳簇密度来估计 1 像素(以微米为单位)的大小。

我绘制了给定图 block 中簇的 (x,y) 位置,以获得如下图: tile_positions

步骤:

  1. 根据存在的簇数量估计观察窗口的面积
  2. 从 mm^2 转换为 um^2
  3. 将 um^2 转换为窗口半径(以 um 为单位)
  4. 计算窗口沿 x 维度的半径(以像素为单位)
  5. 将两者相除即可得到每微米的像素数

代码:

print 'For {} clusters, assuming optimal is {}'.format(num_clusters, num_optimal)
for perc in perc_optimal:
    mm_sqr = num_clusters/(perc*num_optimal)
    um_sqr = mm_sqr*1e6
    um_radius = np.sqrt(um_sqr/np.pi)

    px_radius = (pos['x'].max()-pos['x'].min())/2
    px_to_um = px_radius/um_radius

    out = ('At {}% optimal, tile r is {} um, pixel r is {} px,'
           'so {} px is 1 um'.format(perc*100,um_radius,px_radius,px_to_um))

    print out

输出:

For 531143 clusters, assuming optimal is 900000
At 10.0% optimal, tile r is 1370.59625256 um, pixel r is 13997 px,so 10.2123436963 px is 1 um
At 20.0% optimal, tile r is 969.157904453 um, pixel r is 13997 px,so 14.4424349589 px is 1 um
At 30.0% optimal, tile r is 791.314115365 um, pixel r is 13997 px,so 17.6882981464 px is 1 um
At 40.0% optimal, tile r is 685.298126279 um, pixel r is 13997 px,so 20.4246873926 px is 1 um
At 50.0% optimal, tile r is 612.949278085 um, pixel r is 13997 px,so 22.8354947145 px is 1 um
At 60.0% optimal, tile r is 559.543577023 um, pixel r is 13997 px,so 25.0150311339 px is 1 um
At 70.0% optimal, tile r is 518.036690306 um, pixel r is 13997 px,so 27.0193217236 px is 1 um
At 80.0% optimal, tile r is 484.578952226 um, pixel r is 13997 px,so 28.8848699179 px is 1 um
At 90.0% optimal, tile r is 456.865417519 um, pixel r is 13997 px,so 30.6370310889 px is 1 um
At 100.0% optimal, tile r is 433.420591057 um, pixel r is 13997 px,so 32.2942663288 px is 1 um

这一切都非常粗糙,我希望有一个不同的答案,但这也许对某人有帮助

关于bioinformatics - fastq 文件中的簇位置单位,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49182629/

相关文章:

python - 从具有定义的起点和终点的字符串中提取子字符串

python - Pandas - 多列上的 idxmin 保持所有关系

python - 通过序列输出进行解析 - Python

c - 两个位置之间的人口计数

python - 使用 "Biopython"- 我怎样才能改进我的代码

python - 匹配 2 个字符串并允许 5% 的不匹配率

linux - 如何通过基因 ID 从 Fasta 文件中检索序列

perl - 生成具有取代率的合成 DNA 序列

perl - 仅从 fasta 文件中提取第一个序列

python - 通过Python进行密码子比对?