beat365官方网站-必发365一些奖金-365最快比分网

生信笔记8

生信笔记8

1、简介

注释文件就是基因组的说明书。告诉我们哪些序列是编码蛋白的基因,哪些是非编码基因,外显子、内含子、UTR等的位置等等。注释文件在以下三个提供参考基因组的网站中都有提供,比如Ensemble、NCBI 、UCSC。

基因组注释(genomic features)通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件格式表示,用UCSC Genome Browser进行可视化比较。

Bed文件和GFF文件最基本的信息就是染色体或Contig的ID或编号,然后就是DNA的正负链信息,接着就是在染色体上的起始和终止位置数值。

两种文件的区别在于,BED文件中起始坐标为0,结束坐标至少是1,; GFF中起始坐标是1而结束坐标至少是1。

处理Bed格式和GFF格式的工具主要有 BedTools和Tophat 。

2、bed文件

BED文件每行至少包括chrom,chromStart,chromEnd三列(必选);另外还可以添加额外的9列(可选),这些列的顺序是固定的。

必选的三列:

chrom:染色体的名称(例如chr3,chrY,chr2_random)或支架(例如scaffold10671)。

chromStart:染色体或支架中特征的起始位置。染色体中的第一个碱基编号为0。

chromEnd:染色体或支架中特征的结束位置。染色体的末端位置没有包含到显示信息里面。例如,首先得100个碱基的染色体定义为chromStart =0 . chromEnd=100, 碱基的数目是0-99

9个可选的BED字段:

name: 定义BED行的名称。当轨道打开到完全显示模式时,此标签显示在Genome浏览器窗口中BED行的左侧,或者在打包模式下直接显示在项目的左侧。

score: 得分在0到1000之间。如果此注释数据集的轨迹线useScore属性设置为1,则得分值将确定显示此要素的灰度级别(较高的数字=较深的灰色)。此表显示 Genome Browser将BED分数值转换为灰色阴影:

strand:定义正负链。要么“.” (=无绞线)或“+”或“ - ”。

thickStart:绘制基因的起始位置(例如,基因显示中的起始密码子)。当没有厚部分时,thickStart和thickEnd通常设置为chromStart位置。

thickEnd:绘制特征的结束位置(例如基因显示中的终止密码子)。

itemRgb:R,G,B形式的RGB值(例如255,0,0)。如果轨道行 itemRgb属性设置为“On”,则此RBG值将确定此BED行中包含的数据的显示颜色。注意:建议使用此属性的简单颜色方案(八种颜色或更少颜色),以避免压倒Genome浏览器和Internet浏览器的颜色资源。

blockCount:- BED行中的块(外显子)数。

blockSizes:- 块大小的逗号分隔列表。此列表中的项目数应与blockCount相对应。

blockStarts:- 以逗号分隔的块开始列表。应该相对于chromStart计算所有 blockStart位置。此列表中的项目数应与blockCount相对应。

例如:

chr1 10279 10779 + 0 NA Intergenic -1345 NR_046018 100287102 Hs.618434 NR_046018 DDX11L1 DEAD/H,(Asp-Glu-Ala-Asp/His),box,helicase,11,like,1

chr1 13252 13752 + 0 NA TTS,(NR_024540) 1628 NR_046018 100287102 Hs.618434 NR_046018 DDX11L1 DEAD/H,(Asp-Glu-Ala-Asp/His),box,helicase,11,like,1

chr1 16019 16519 + 0 NA intron,(NR_024540,,intron,8,of,10) 1167 NR_107062 102465909 NA NR_107062 MIR6859-2 microRNA,6859-2

chr1 29026 29526 + 0 NA promoter-TSS,(NR_024540) 94 NR_024540 653635 Hs.446466 NR_024540 WASH7P WAS,protein,family,homolog,7,pseudogene

chr1 96364 96864 + 0 NA Intergenic 27523 NM_001005484 79501 Hs.554500 NM_001005484 OR4F5 olfactory,receptor,,family,4,,subfamily,F,,member,5

chr1 115440 115940 + 0 NA Intergenic 24876 NR_039983 729737 Hs.534942 NR_039983 LOC729737 uncharacterized,LOC729737

chr1 237535 238035 + 0 NA Intergenic -86107 NR_028325 100132062 Hs.722350 NR_028325 LOC100132062 uncharacterized,LOC100132062

chr1 240811 241311 + 0 NA Intergenic -82831 NR_028325 100132062 Hs.722350 NR_028325 LOC100132062 uncharacterized,LOC100132062

3、gtf/gff文件

GTF 为General Transfer Format缩写,跟 GFF2格式类似。相信大家做转录组分析时候经常会看到Cufflinks或者Stringtie软件对转录组进行定量与组装会时产生一个gtf文件,以人类基因组hg38为例,里面包含的信息如下:

1 havana gene 11869 14409 . + . gene_id "ENSG00000223972"; gene_version "5"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2";

1 havana transcript 11869 14409 . + . gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; tag "basic"; transcript_support_level "1";

1 havana exon 11869 12227 . + . gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "1"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00002234944"; exon_version "1"; tag "basic"; transcript_support_level "1";

1 havana exon 12613 12721 . + . gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "2"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00003582793"; exon_version "1"; tag "basic"; transcript_support_level "1";

1 havana exon 13221 14409 . + . gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "3"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00002312635"; exon_version "1"; tag "basic"; transcript_support_level "1";

每列信息的含义如下:

seqname:序列的ID,可以是染色体的ID也可以是Scaffold或者Contig的ID。

source:产生此文件的软件,如Stringtie产生的则为Stringtie,CUfflinks产生的则为Cufflinks,不知道的使用点 “.” 表示。

feature:可以是gene,exon,transcript,lncRNA,CDS等等特征。

start:上述feature的在序列上的起始位置。

end:上述feature的在序列上的终止位置。

score:一个浮点数值,也可以为点 “.” 。有值的时候代表上述feature的可靠性。因为无论是gene还是mRNA,都是基于预测生成的,因而必然会有一个值来衡量预测准确性。

strand:+ (forward)或者 - (reverse),代表上述feature是位于正链还是负链上。

frame:内含子相位,只能为'0', '1' or '2',或者为点 “.”。 '0' 代表feature起始碱基为三联体密码子的第一个碱基, '1' 代表三联体密码子的第2个碱基, 2代表第3个碱基。

attribute:备注列。主要备注该feature的一些信息,常见的是gene或者transcript等的ID信息以及FPKM值等,多个备注信息之间通常用分号分隔。

gff格式。为General Feature Format缩写,目前采用的是version 3,即我们常说的gff3文件。该文件常用来对基因组进行注释,表示基因,外显子,CDS,UTR等在基因组上的位置。众多基因预测软件如Glean,EVM,AUGUSTUS等会产生此格式文件。

与gtf文件不同之处只是在第9列。此列格式为“标签=值”(tag=value),标签与值之间用“=”,不同的标签之间用“;”隔开,一个标签可以有多个值,不同值用“,”分割。

参考

https://www.jianshu.com/p/9208c3b89e44

https://www.jianshu.com/p/3a8aa6ea5002

← 上一篇: 世界杯首场俄罗斯对沙特赛前赛后解析及战术亮点分析
下一篇: 买什么珠子好? →

相关推荐

4家成功的面包店,它们的特色经营模式

4家成功的面包店,它们的特色经营模式

2025-06-29 12:33:14 阅读: 5149
​穹的意思是什么,穹的读音是什么?

​穹的意思是什么,穹的读音是什么?

2025-08-10 06:49:41 阅读: 5879
中国移动手机卡在线办理入口指南

中国移动手机卡在线办理入口指南

2025-08-22 12:40:41 阅读: 6687
坏的苹果5s回收多少钱

坏的苹果5s回收多少钱

2025-08-07 09:50:04 阅读: 8508
在家就能办宽带?线上申请流程详解

在家就能办宽带?线上申请流程详解

2025-08-11 14:24:12 阅读: 6775