fasta和fastq文件格式详解-飞
发布时间: 2023-07-06
1. fasta格式

fasta格式是一种非常简单的储存序列的格式(主要是把序列储存到数据库中的一种形式),可以储存核酸序列(RNA/DNA)和氨基酸序列(AA),主要包括2个部分。
1)以‘>’开始的一行主要储存“序列的描述信息”
2)序列信息(这里储存的是氨基酸序列信息)

举例人类血红蛋白α亚基的氨基酸序列:

>sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1 MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR

举例人类血红蛋白a亚基对应的mRNA序列:

>gi|13650073|gb|AF349571.1| Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cdsCCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGACGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTCTGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTTGG

这条序列来自于NCBI的RefSeq数据库,所有来自于NCBI的序列都有一个gi号,是具有唯一性的数据库流水号,gb|AF349571.1是genebank编号的信息,后面是序列信息的详细描述(Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds
RefSeq(reference sequence database)基因参考序列数据库:是美国国家医学图书管下属国家生物技术信息中心开发的基因参考序列数据库,为多种生物提供序列的数据信息及相关资料,用于医学、基因功能和基因功能比较研究。

2. fastq格式

下面是illumina平台的一条read信息:

@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133 1:N:18:ATCACGTTGCAAAAAATTTCTCTCATTCTGTAGGTTGCCTGTTCACTCTGATGATAGTTTGTTTTGG+FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,,# ST-E00126: 仪器编号# 128 : 运行编号# HJFLHCCXX:flowcell ID# 2 : flowcell的lane编号(通道编号)# 1101:lane的第1101块位置(tile编号)#  7405: tile有不同的分区,测序反应簇在tile内的x坐标#  1133: tile有不同的分区,测序反应簇在tile内的y坐标#  1 : 双端测序的read1  (分 1 和 2)#  N: 不是过滤的read (分 N 和 Y)# 18:控制数字# ATCACG:index序列信息
序列的坐标信息指引第一行:记录测序时,序列的坐标信息第二行:测序得到的序列信息(分ATCGN5种情况,N代表不确定碱基类型)第三行:以“+”开始,可以储存一些附加信息第四行:以ASCII码形式储存碱基的质量信息(与第二行的碱基序列一一对应)

如何理解第四行的碱基质量信息?
测序仪在碱基读取过程中,荧光信号转化为碱基类型时,会不可避免得存在一定程度误判,因此每一个base calling都会伴随一个测序错误率P产生,用来判断该base的可信程度。为了fastq文件中,碱基质量值能和第二行的碱基序列信息一一对应,P必须以一个字符的形式存储。所以有了以下3步转换:

    P转换为Q
    Q=-10*log10(P)(P以10为底取对数,再乘以-10)
    当P=0.001时,Q=30(代表该碱基测序错误的机率为千分之一)Q转换为Phred值
    Phred=Q+C(C同测序仪和版本有关)
    例如:
illumina (1.3+) C=64illumina (1.5+) C=64illumina (1.8+) C=33
    最后获得Phred值对应的ASCII字符
    ASCII码对照表链接:https://tool.oschina.net/commons?type=4
    就是我们看到的第四行 FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,,(C=33时,?对应Q=30)

attention⚠️:
不过 NovaSeq将碱基质量分数做了进一步的简化(因为测序通量高,需要节约内存和存储资源),将碱基质量分数划分为几个区间(不同版本的仪器划分的区间不同,这里以3个为例):
没有对应碱基:2
低质量read: 12(Q<15)
中质(0和1是什么梗?0和1是分别指男同性恋中受的一方和攻的一方。攻受出自日本的原始定义中,“攻(seme)”属于主动方,“受(uke)”属于被动方。如今对BL(男同性恋的爱情)系作品中“攻受”关系比较普遍的说法是:“攻”为1,“受”为0。随着BL文化的深入推广,也有人会将这一概念用到现实中的BL关系中。)量read: 23(16<Q<29)
高质量read: 37(Q>30)
以上4种不同的质量情况对应ASCII码:# ,; F



扫码加微信详细咨询太和智慧养老产品和平台服务!

微信