vcf format?

博卫 39 0

pos文件什么意思

POS连读,音"pous"

POS (Point of sales)的中文意思是“销售点”,是一种配有条码)或OCR码(Optical character recognition 光字符码)终端阅读器,有现金或易货额度出纳功能。品种有有线和无线两种或有、无线兼用。POS机与广告易货交易平台的结算系统相联,其主要任务是对商品与媒体交易提供数据服务和管理功能,并进行非现金结算。

什么是POS结算

通过POS系统结算时应通过下列步骤:

(1)地方易货代理或特约客户的易货出纳系统,将买方会员的购买或消费金额输入到POS终端;

(2)读卡器(POS机)读取广告易货卡上磁条的认证数据、买方会员号码(密码);

(3)结算系统将所输入的数据送往中心的监管账户;

(4)广告易货出纳系统对处理的结算数据确认后,由买方会员签字。买卖会员及易货代理或特约商户各留一份收据存根,易货代理或特约商户将其收据存根邮寄到易货公司;

(5)易货公司确认买方已收到商品或媒体服务后,结算中心划拨易换额度。完成结算过程。

什么是VCF?

什么是VCF文件:全称“The variant call format”,变体调用格式,是一种用于存储DNA多态性数据如snp、插入、删除和结构变体和丰富注释的通用格式。

什么是VCFtools:VCFtools是一个软件套件,它实现了处理VCF文件的各种工具,包括验证、合并、比较,还提供了一个通用的Perl API。

VCF格式:由标题部分(header)和数据部分(Body)组成。标头包含任意数量的元信息行,每一行都以字符' ## '开头,用TAB键分隔开的字段定义行(field definition line)以单个' # '字符开头。元信息头行提供了数据部分中使用的标记和注释的标准化描述。

字段定义行(field definition line)强制有八个列,相应的数据列代表

染色体 chromosome (CHROM);

基于1的位置开始的变体 a 1-based position of the start of the variant (POS);

变体的惟一标识符 unique identifiers of the variant (ID);

参考等位基因 the reference allele(REF);

替代非引用等位基因的逗号分隔列表  a comma separated list of alternate non-reference alleles(ALT);

phred-scaled质量分数  a phred-scaled quality score(QUAL);

网站过滤信息site filtering information (FILTER);

一个额外的分号分隔的列表和用户可扩展的注释 a semicolon separated list of additional, user extensible annotation (INFO)。

GT,genotype,基因型,将等位基因编码为数字:0表示参考等位基因,1表示ALT列中列出的第一个等位基因,2表示ALT列中列出的第二个等位基因,以此类推。等位基因的数量表明样本的倍性,而分隔符表明相对于其他数据线,等位基因是阶段性的(' | ')还是非阶段性的(' / ')。

PS, phase set,表明具有相同PS值的基因型等位基因排列顺序相同。

DP,读取深度。

GL,genotype likelihoods,给定REF和ALT字段中定义的等位基因集,所有可能的基因型的基因型可能性。

GQ, genotype quality,在位点变异的情况下,基因型调用错误的概率。

VCF文件参数解读

    VCF文件的开头是整体注释信息,通常以##作为起始,其后一般接以FILTER,INFO,FORMAT等字样。

    例如:以##FILTER开头的行,表示注释VCF文件当中第7列中缩写词的说明;##INFO开头的行注释VCF第8列中的缩写字母说明,比如AF代表Allele Frequency也就是等位基因频率;##FORMAT开头的行注释VCF第9列中的缩写字母说明;另外还有其他的一些信息,文件版本"fileformat=VCFv4.0"等等。还能看到一些历史命令,通过这些命令可以知道这个vcf文件是如何得到的。

    各列之间用tab空白隔开;前面9列为固定列,第10列开始为样品信息列,可以无限多个;图示样品信息列有130个

    CHROM    POS    ID    REF    ALT    QUAL    FILTER    INFO    FORMAT

    后面的列都为样品基因型信息列

     1.CHROM     记录染色体编号

     2.POS    记录变异位点在参考基因组中的位置。如果是SNP的话,POS即SNP的位置;如果是INDEL的话,位置是INDEL的第一个碱基位置。

     3.ID     SNP/INDEL的ID, 如在dbSNP中有该SNP的id,则会在此行给出;若没有,则用’.'表示其为一个novel variant 新变异,dbSNP编号通常以rs开头,一般只有人类基因组才有dbSNP编号

     INDEL 指的是在基因组的某个位置上所发生的small deletion,small inverion小片段序列的插入或者删除,其长度通常在50bp以下

     4.REF     参考基因组该位置碱基类型,必须是A,C,G,T,N    N表示不确定碱基,SNP应该一个位点就是一个碱基

     5.ALT     与参考序列比较,发生突变的变异碱基类型,必须是A,C,G,T,N,.    多个用逗号分割。"." 表示这个地方没有reads覆盖为缺失。

     6.QUAL      变异位点检测质量值,越高越可靠。表示在该位点存在variant的可能性,该值越高,则variant的可能性越大 

        等于-10*log10(该变异位点检测错误的概率)。 用 . 表示,是质量值没有输出,不代表质量值为0

           log0.1表示10的多少次方等于0.1,即为-1;10的-1次方为十分之一,10的-2次方为一百分之一

     7.FILTER     如果该位点通过过滤标准那么我们可以在该列标记为"PASS",说明该列质量值高。

     8.  INFO为variant的详细信息     字段的意思可以在header里搜索去看

     上面vcf 中INFO全为“.”了,是因为用 vcftools 某步过滤SNP输出文件时用了 --recode ,这样就不输出info信息,以 . 代替了,想输出info,可以--recode-INFO xx(如MQ)  或者 --recode-INFO-all (所有info全部输出)

    #DP-read depth:样本在这个位置的reads覆盖度。是一些reads被过滤掉后的覆盖度。DP4:高质量测序碱基,位于REF或者ALT前后

    #QD:通过深度来评估一个变异的可信度。Variant call confidence normalized by depth of sample reads supporting a variant       

    #MQ:表示覆盖序列质量的均方值RMS Mapping Quality

    #FQ:phred值关于所有样本相似的可能性

     #AC,AF 和 AN:AC(Allele Count) 表示该Allele的数目;AF(Allele Frequency) 表示Allele的频率; AN(Allele Number) 表示Allele的总数目。

     对于1个diploid sample(双倍体)而言:则基因型 0/1 表示sample为杂合子,Allele数为1 (双倍体的sample在该位点只有1个等位基因发生了突变),Allele的频率为0.5 (双倍体的sample在该位点只有50%的等位基因发生了突变),总的Allele为2;                                                                    基因型 1/1 则表示sample为纯合的,Allele数为2,Allele的频率为1,总的Allele为2。

    #MLEAC:Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed

    #MLEAF:Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT allele, in the same order as listed

    #BaseQRankSum  比较支持变异的碱基和支持参考基因组的碱基的质量,负值表示支持变异的碱基质量值不及支持参考基因组的,

     正值则相反,支持变异的质量值好于参考基因组的。0表示两者无明显差异。

    #FS  使用F检验来检验测序是否存在链偏好性。链偏好性可能会导致变异等位基因检测出现错误。输出值Phred-scaled p-value,值越大越可能出现链偏好性。

    #InbreedingCoeff    使用似然法检验样本间的近交系数(又或者称为近亲关系)。值越高越可能是近亲繁殖。

    #MQRankSum  比较支持变异的序列和支持参考基因组的序列的质量,负值表示支持变异的碱基质量值不及支持参考基因组的,只针对杂合。

     正值则相反,支持变异的质量值好于参考基因组的。0表示两者无明显差异。实际应用中一般过滤掉较小的负值。

    #BaseCounts  所有样本在变异位点ATCG的数量

    #ClippingRankSum  同前面两个类似,负值表示支持变异的read有更的的hard-clip碱基,正值表示支持参考基因组的的read有更多的hard-clip。0最好,无论是正值还是负值都表示可能可能存在人为偏差。

    #ReadPosRankSum    检测变异位点是否有位置偏好性(是否存在于序列末端,此时往往容易出错)。最佳值为0,表示变异与其在序列上的位置无关。负值表示变异位点更容易在末端出现,正值表示参考基因组中的等位基因更容易在末端出现。

    #ExcessHet  检测这些样本的相关性,与InbreedingCoeff相似,值越大越可能是错误。

    #LikelihoodRankSum  评价支持变异和ref的序列与best hyplotype的匹配性,0为最佳值。负值表示支持变异的read匹配度不及支持ref的匹配度,正值则相反。值越大表示越可能是出现了错误。

    #HaplotypeScore    分数越高越可能出现错误。Higher scores are indicative of regions with bad alignments, typically leading to artifactual SNP and indel calls.

    #SOR:也是一个用来评估是否存在链偏向性的参数,相当于FS的升级版。The StrandOddsRatio annotation is one of several methods that aims to evaluate whether there is strand bias in the data. It is an updated form of the Fisher Strand Test that is better at taking into account large amounts of data in high coverage situations. It is used to determine if there is strand bias between forward and reverse strands for the reference or alternate allele. The reported value is ln-scaled.

    #IS:插入缺失或部分插入缺失的reads允许的最大数量

    #G3:ML 评估基因型出现的频率

    #HWE:chi^2基于HWE的测试p值和G3

    #CLR:在受到或者不受限制的情况下基因型出现可能性log值

    #UGT:最可能不受限制的三种基因型结构

    #CGT:最可能受限制三种基因型的结构

    #PV4:四种P值的误差,分别是(strand、baseQ、mapQ、tail distance bias)

    #INDEL:表示该位置的变异是插入缺失

    #PC2:非参考等位基因的phred(变异的可能性)值在两个分组中大小不同

    #PCHI2:后加权chi^2,根据p值来测试两组样本之间的联系

    #QCHI2:Phred scaled PCHI2

    #PR:置换产生的一个较小的PCHI2

    #QBD:Quality by Depth,测序深度对质量的影响

    #RPB:序列的误差位置(Read Position Bias)

    #MDV:样本中高质量非参考序列的最大数目

    #VDB:Variant Distance Bias,RNA序列中过滤人工拼接序列的变异误差范围

     9.FORMAT 为后面10列信息的说明列,通常以" :"隔开各个缩写词。

     10 列(包含)以后 为样品基因型列,各信息以":"分隔与FORMAT列一一对应;

(不确定 1/0与0/1 , 1/2与2/1 , 2/3与3/2 是否为一个意思,猜测可能是一个意思,没有去深究)

    在过滤后只剩SNP的vcf文件中,GT只会存在 0/0    0/1      1/1       0(参考基因组等位基因类型)和1(样品的一种变异等位基因类型)

     像下图,还存在除SNP外其他类型的变异,所以GT存在1/2,2/2等

     AD 和DP: AD(Allele Depth)为sample中在此位置支持每种碱基型的reads深度,用逗号分割,前者对应ref基因型,后者对应variant基因型; DP(Depth)为sample中该位点的覆盖度,为该变异位点的深度和,也就是AD两个数字的和。

     GQ : 基因型质量值        Phred值 = -10 * log (p)  p为基因型错误的概率  越高越可靠

     PL : 指定的三种基因型的似然值。这三种指定的基因型为(0/0,0/1,1/1),这三种基因型的概率总和为1。数值越小代表基因型越可靠,最小的数字对应的基因型判读为该样品的最可能的基因型。比如最后一列285,0,105,分别对应基因型0/0,0/1,1/1,说明0/1为可能的基因型。

     PGT   PID  也看了,没咋懂,不记录了

参考:

什么叫pos文件

pos格式是ProcessOn的一种基于Json的开放格式。pos文件格式使在ProcessOn绘制的流程图能够通过自己的程序读懂图的结构,pos格式文件目前仅支持炎黄盈动BPM平台,pos文件可以直接在炎黄盈动AWS平台中执行,其他软件暂不支持

基因数据格式

FASTQ是储存原始测序数据的一种文本文件格式,包含核酸序列以及对应的质量值。

每个read有四行:第一行记录测序所用仪器以及read测序时所在通道坐标信息;第二行是ATGC碱基序列,缺省时用N表示;第三行+号;第四行是对应碱基的质量值。

第四行这个质量值(Phred或者Q-score),是用一个整数表示碱基的错误率,P是错误率,

在序列中Q值用ASCII字符表示. ASCII字符与对应的整数转换如下:

SAM文件全程Sequence Alignment Map,是储存生物序列比对到参考基因组的一种数据格式。

samtools view -H命令可以浏览带有@的header的信息;不带-H直接是read alignment的信息。

vcf文件是一种储存DNA多态性(SNP、插入、缺失、结构变异)的一种数据格式。

跟SAM文件类似的存储结构,也是header+body。不同软件提供的vcf文件INFO大同小异,主体都是一样:

前八列是必须项,包括染色体CHROM, 变异在染色体上的位置信息POS, 变异的标识符ID, 参考等位基因REF, 逗号分割的其他非参考等位基因ALT, 质量值QUAL, 位点过滤信息FILTER以及变异注释信息INFO。

如果有样本信息,第九列则为FORMAT,从第十列开始则是每个样本的信息。

在FORMAT中的一些关键字,INFO里有时也会有。一般header里都会存储FORMAT出现的所有缩写的解释,但也有时拿到数据时header里没有找到对应的解释,可能是由于在数据过滤的过程中没有保留所有的header信息。

以上是遇到过的一些vcf出现的关键字,也有只含有GT基因型信息的, 它以数字编译等位基因,0是ref,1是alt, 2是第二个ALT... 等位基因的数量表示该生物样本的染色体倍数,分隔符表示等位基因是否分型过phased (‘|’)或者unphased (‘/’)。根据不同分析可能依赖侧重的信息不同,就不一一列举了,有文已经解释的比较清楚,可以按需查询。

Quality (Phred) scores

NGS数据格式02-SAM/BAM最详细解读 - 知乎

variant call format and VCFtools | Bioinformatics | Oxford Academic

vcf文件与vcftools(一) -

VCF (Variant Call Format) version 4.0 | 1000 Genomes

生物数据格式 - vcf/bcf

VCF是Variant Call Format的简称,该格式文件是专门用于存储基因序列突变信息的一种文本文件,包括单碱基突变SNV、单核苷酸多态性SNP、InDel、拷贝数变异CNV和结构变异SV等,文件可以采取editplus或pilotedit(建议)打开查看,其二进制存储格式是BCF。vcf文件后续可以用于多种分析,包括但不限于:进化树分析、群体结构分析、PCA分析、GWAS关联分析等。vcf文件格式如下:

VCF文件开头是整体的注释信息,以##作为起始,其后接FILTER、INFO、FORMAT等,其中##FILTER开头的行是vcf主体record中第七列缩写词的说明、##INFO开头的行注释vcf主体record中第8列的缩写字母、##FORMAT开头的行注释第九列的缩写字母。

在header之后,vcf主体的每一行是一条record,固定列有9列,以及在之后的第十列,它们分别是:

第一列:#CHROM,染色体号

第二列:POS,在染色体上的位置

第三列:ID,突变名称,一般只有人类才有dbSNP编号,以rs开头

第四列:REF,参考基因组碱基类型,必须大写

第五列:ALT,变异碱基类型,大写,多个以逗号分隔,‘.'表示缺失

第六列:QUAL,变异检测质量值,越高越可靠

第七列:FILTER,标记过滤结果的列:通过质控过滤标准的标记为‘PASS’,后续可用其他工具进行挑选过滤

第八列:INFO,附加信息列,附加信息的注释在header的##INFO中

第九列:FORMAT,后面信息的说明列

第十列开始为样品信息:GT=genotype、AD=碱基支持数量、DP=测序深度总和、PL=归一化后基因型的可能性、GQ=PL判读的基因型的质量值,其中当第二小的值小于99时,有必要怀疑基因型的可靠性。

vcf文件基本由bam文件生成,当得到排序并建立索引的bam文件后,可以使用多种工具例如bcftools、gatk、freebayes、lumpy、delly、varscan2等处理得到。

处理vcf格式文件的软件有许多种,包括:bcftools、vcftools、gatk、python_pyvcf、plink等。

———以上属个人理解与记录

对于vcf文件的pos是什么和vcf format的总结分享本篇到此就结束了,不知你从中学到你需要的知识点没 ?如果还想了解更多这方面的内容,记得收藏关注本站后续更新。

标签: 基因

抱歉,评论功能暂时关闭!