| 项目编号 | demo |
|---|---|
| 项目名称 | 植物叶绿体基因组组装 |
| 参考基因组 | Species name |
| 物种名称 | Species name |
叶绿体基因组的进化速率相对适中,遗传方式相对稳定,进化路线相对独立,遗传信息大多都保留了下来。叶绿体基因组的基因重组现象较少,受基因重叠、缺失以及假基因的影响较小。 高等植物的叶绿体基因组在结构、大小和基因组成等方面都具有高度保守性。叶绿体基因组一般为高度保守的双链环状 DNA 分子结构,仅有一小部分属于线性结构或者相互独立的多环状结构。大多数的高等植物为典型的四分体结构,包括一个大单拷贝区(Large single copy region,LSC),小单拷贝区(Small single copy region,SSC)和两个反向重复区域(Inverted repeat region,IR:IRa和IRb)。
(1)叶绿体基因组的组装方法:我们使用 Illumina / BGI 的二代测序数据组装叶绿体基因组。使用 GetOrganelle 软件对二代DNA测序数据进行植物叶绿体组装,得到植物叶绿体基因组。
(2)叶绿体基因组的注释方法:叶绿体基因组的蛋白质编码基因选取拟南芥 (Arabidopsisthaliana,NC_037304) 作为参考基因组,使用 CPGAVAS2 软件对叶绿体基因组的基因组进行注释。叶绿体基因组的 tRNA 和 rRNA 均在该软件被注释注释。每一个叶绿体基因组的注释错误都使用 CPGView 软件手动修改纠错。
| Species name | Contigs | Type | Length | GC content |
|---|---|---|---|---|
| Arabidopsis thaliana | Chromosome | circular | 154478 bp | 36.29 % |
| Arabidopsis thaliana | 1-84170 | LSC | 84170 bp | 34.03 % |
| Arabidopsis thaliana | 84171-110434 | IRb | 26264 bp | 42.28 % |
| Arabidopsis thaliana | 110435-128214 | SSC | 17780 bp | 29.35 % |
| Arabidopsis thaliana | 128215-154478 | IRa | 26264 bp | 42.28 % |


| Groups of genes | Name of genes |
|---|---|
| ATP synthase | atpA, atpB, atpE, atpF, atpH, atpI |
| photosystem II | psbA, psbB, psbC, psbD, psbE, psbF, psbH,psbI, psbJ, psbK, psbL, psbM, psbN, psbT, psbZ, ycf3 |
| NADH-dehydrogenase | ndhA, ndhB (2), ndhC, ndhD, ndhE, ndhF, ndhG, ndhH, ndhI, ndhJ, ndhK |
| cytochrome b/f complex | petA, petB, petD, petG, petL, petN |
| photosystem I | psaA, psaB, psaC, psaI, psaJ |
| rubisco | rbcL |
| Large subunit of ribosome | rpl14, rpl16, rpl2 (2), rpl20, rpl22, rpl23 (2), rpl32, rpl33, rpl36 |
| DNA dependent RNA polymerase | rpoA, rpoB, rpoC1, rpoC2 |
| Small subunit ofribosome | rps11, rps12 (2), rps14, rps15, rps16, rps18, rps19, rps2, rps3, rps4, rps7 (2), rps8 |
| Subunit of Acetyl-CoA-carboxylase | accD |
| c-type cytochrom synthesis gene | ccsA |
| Envelop membrane protein | cemA |
| EProtease | clpP |
| Maturase | matK |
| Unkown Conserved open reading frames | ycf1 (2), ycf15 (2), ycf2 (2), ycf4 |
| Ribosome RNA | rrn16S (2), rrn23S (2), rrn4.5S (2), rrn5S (2) |
| Transfer RNA | trnA-UGC (2),trnC-GCA, trnD-GUC, trnE-UUC (3), trnF-GAA, trnG-GCC, trnH-GUG, trnK-UUU, trnL-CAA (2), trnL-UAA, trnL-UAG, trnM-CAU (4), trnN-GUU (2), trnP-UGG, trnQ-UUG, trnR-ACG (2), trnR-UCU, trnS-GCU, trnS-GGA, trnS-UGA, trnT-CGU, trnT-GGU, trnT-UGU, trnV-GAC (2), trnV-UAC, trnW-CCA, trnY-GUA |
该物种叶绿体基因组总长度为 154478 bp,GC 含量为 36.29 %。对其的叶绿体基因组进行注释,共注释到 110个 unique 蛋白质编码基因,27 个 tRNA 基因(其中 7 个 tRNA 为多拷贝), 4 个 rRNA 基因。包括 6 个 ATP合酶基因(atpA, atpB, atpE, atpF, atpH, atpI);16 个光系统II基因(psbA, psbB, psbC, psbD, psbE, psbF, psbH,psbI, psbJ, psbK, psbL, psbM, psbN, psbT, psbZ, ycf3); 11 个NADH 脱氢酶基因(ndhA, ndhB, ndhC, ndhD, ndhE, ndhF, ndhG, ndhH, ndhI, ndhJ, ndhK),6 个细胞色素b/f复合体基因(petA, petB, petD, petG, petL, petN),5 个光系统I基因(psaA, psaB, psaC, psaI, psaJ), 1 个二磷酸核酮糖羧化酶大亚基基因(rbcL),9 个核糖体蛋白大亚基基因(rpl14, rpl16, rpl2, rpl20, rpl22, rpl23 (2), rpl32, rpl33, rpl36),4 个RNA聚合酶基因(rpoA, rpoB, rpoC1, rpoC2),12 个核糖体蛋白小亚基(rps11, rps12, rps14, rps15, rps16, rps18, rps19, rps2, rps3, rps4, rps7 (2), rps8), 1 个乙酰辅酶羧化酶基因(accD),1 个细胞色素c合成酶基因(ccsA),1 个包膜蛋白基因(cemA),1 个蛋白酶基因(clpP),1 个成熟酶基因(matR),4 个未知功能基因(ycf1, ycf15, ycf2, ycf4),4 个核糖体RNA基因(rrn16S, rrn23S, rrn4.5S, rrn5S), 27 个转运RNA基因(trnA-UGC,trnC-GCA, trnD-GUC, trnE-UUC, trnF-GAA, trnG-GCC, trnH-GUG, trnK-UUU, trnL-CAA, trnL-UAA, trnL-UAG, trnM-CAU, trnN-GUU, trnP-UGG, trnQ-UUG, trnR-ACG, trnR-UCU, trnS-GCU, trnS-GGA, trnS-UGA, trnT-CGU, trnT-GGU, trnT-UGU, trnV-GAC, trnV-UAC, trnW-CCA, trnY-GUA)
真核生物基因组存在 64 个密码子,这 64 个密码子编码 20 种不同的氨基酸和 3 个终止密码子,除蛋氨酸和色氨酸外的所有氨基酸均由多个密码子编码。不同物种、不同生物体的基因组密码子使用率存在着较大的差 异。这种偏好性被认为是在长期的演化选择中,细胞内逐渐形成相对平衡的结果。因此,在基因组分析中通常对密码子偏好性进行分析(Relative Synonymous Codon Usage, RSCU )
使用 python 脚本提取基因组的蛋白质编码序列。使用 python脚本对叶绿体基因组的蛋白质编码基因 (筛选长度大于300bp且为3的倍数的PCG) 进行密码子偏好性分析,并计算 RSCU 值。

对该物种叶绿体的 79 个 unique PCGs 进行密码子偏好性分析,各个氨基酸对密码子的使用情况见表 3-1。相对同义密码子使用度(RSCU)大于 1 的密码子被认为是被氨基酸偏好性使用的。如图 3-1 所示,除甲硫 氨酸(Met-ATG)和色氨酸(Trp-TGG)的 RSCU 值均为 1 之外,其他叶绿体的 PCGs 均存在普遍的密码子使用偏好。
| Amino | Codon 1 RSCU | Codon 2 RSCU | Codon 3 RSCU | Codon 4 RSCU | Codon 5 RSCU | Codon 6 RSCU |
|---|---|---|---|---|---|---|
| Ala | GCA 1.10 | GCC 0.61 | GCG 0.42 | GCT 1.88 | ||
| Arg | AGA 1.72 | AGG 0.57 | CGA 1.39 | CGC 0.50 | CGG 0.44 | CGT 1.38 |
| Asn | AAC 0.47 | AAT 1.53 | ||||
| Asp | GAC 0.38 | GAT 1.62 | ||||
| Cys | TGC 0.51 | TGT 1.49 | ||||
| Gln | CAA 1.58 | CAG 0.42 | ||||
| Glu | GAA 1.55 | GAG 0.45 | ||||
| Gly | GGA 1.62 | GGC 0.39 | GGG 0.63 | GGT 1.36 | ||
| His | CAC 0.49 | CAT 1.51 | ||||
| Ile | ATA 0.95 | ATC 0.52 | ATT 1.53 | |||
| Leu | CTA 0.79 | CTC 0.36 | CTG 0.34 | CTT 1.26 | TTA 2.17 | TTG 1.09 |
| Lys | AAA 1.59 | AAG 0.41 | ||||
| Met | ATG 1.00 | |||||
| Phe | TTC 0.60 | TTT 1.40 | ||||
| Pro | CCA 1.10 | CCC 0.74 | CCG 0.53 | CCT 1.63 | ||
| Ser | AGC 0.33 | AGT 1.28 | TCA 1.16 | TCC 1.89 | TCG 0.60 | TCT 1.75 |
| Thr | ACA 1.27 | ACC 0.72 | ACG 0.40 | ACT 1.60 | ||
| Trp | TGG 1.00 | |||||
| Tyr | TAC 0.35 | TAT 1.65 | ||||
| Val | GTA 1.45 | GTC 0.46 | GTG 0.56 | GTT 1.53 |
生物细胞中的 DNA 序列里面包含许多重复序列(Repeated sequence),主要可分为两大类,分别是串联重复序列(也叫串接重复序列,Tandem repeat)与散在重复序列(Dispersedrepeat)。串联重复和散在重 复的区别在于重复的部分是否相邻分布,相邻就是串联重复,不相邻就是散在重复。在串联重复中,微卫星重复序列(Simple Sequence Repeat,SSR)是一种特殊的串接重复序列,一般不超过 6 bp。由于 SSR 具有显 性遗传等特点,经常被用于分子标记开发。
分别用 MISA 软件、TRF 软件和 REPuter 软件识别了包括微卫星序列重复、串联重复和散在重复的重复序列。使用 R 软件对结果进行了可视化。

横坐标表示不同类型SSR,纵坐标表示重复片段数量,Monomeric表示单体 SSRs,Dimeric表示二聚体 SSRs ,Trimeric表示三聚体 SSRs ,Tetrameric表示四聚体 SSRs,Pentameric表示五聚体 SSRs ,Hexameric表示六聚体 SSRs 。


横坐标表示不同类型的TR和DR,纵坐标表示重复片段数量, 串联重复:Tandem repeats,回文重复:Palindromic repeats, 正向重复:Forward repeats,反向重复:Reverse repeats,互补重复:Complementary repeats


对叶绿体基因组分别进行重复序列分析,最里面的圆圈上的彩色线条连接了分散重复的两个重复序列,绿色线条代表回文重复(Palindromic repeats),黄色线条代表正向重复(Forward repeats),蓝色线条代表反 向重复(Reverse repeats),红色线条代表互补重复(Complementary repeats)。第二个圆圈上的深蓝色线段代表串联重复序列,最外侧的圆环上的浅蓝色线段代表微卫星重复序列。
在叶绿体基因组中共发现 19 个 SSRs,单体和二聚体形式的 SSRs 占总 SSRs 的 78.95 %,未发现四聚体、五聚体以及六聚体 SSRs。串联重复序列,又称卫星 DNA,是指 7~ 200 个碱基左右的核心重复单元,以串联 方式重复多次。它们广泛存在于真核生物基因组和原核生物中。叶绿体基因组中共有 5 个匹配度大于 75 %,长度在 15~37 bp 之间的串联重复序列。对散在重复序列进行了检测。结果共观察到长度大于或等于 30 的重复 序列 50 对,其中回文重复(Palindromic repeats)26 对,正向重复(Forward repeats)24 对,没有检测到互补重复(Complementary repeats)和反向重复(Reverse repeats)。最长的回文重复为 6590 bp,最长 的正向重复为 4193 bp。
在“1.1 植物叶绿体基因组的结构简介”部分,我们介绍了叶绿体基因组可能的构象,例如环形,线性和多分支。以环形为例,某植物叶绿体基因组主要构象为单一环形,由于叶绿体基因组有大量的重排和重组的现 象,因此它的结构可能不仅仅是单一的环形结构,还存在其他的亚结构。
使用 GetOrganelle 软件组装图形化叶绿体基因组,使用的参数为默认参数。

我们使用 Bandage 软件可视化该叶绿体基因组草图,最终结果如图 4-1 所示。
| Contigs | Type | Path |
|---|---|---|
| 1 | circular | LSC-IR-SSC-IR |
在叶绿体进化的过程中,部分叶绿体片段会迁移到叶绿体基因组中,迁移片段的长度和序列相似性在不同物种之间不同。
使用 GetOrganelle 软件对叶绿体基因组进行组装,使用 CPGAVAS2 软件对叶绿体基因组进行注释,然后使用 Apollo 软件对叶绿体基因组的注释结果进行矫正。通过使用 blast 软件对同源片段进行分析,使用 circos 软件对结果进行了可视化。


根据序列相似性分析,一共有 17 个片段为叶绿体基因组和叶绿体基因组的同源片段,总长度为 7139 bp,占叶绿体基因组总长的 4.62 %。其中 MTPT1和2 最长,为 1407 bp。
植物叶绿体基因组由于受自然选择、突变压力等因素的影响,在进化过程中其边界可能会发生扩张或收缩。大部分植物的叶绿体基因组具有典型的四分体结构,即由LSC、SSC以及两个IR区域构成,IR和SSC区域的收缩与扩张是常见的进化事件。 IR 区域的收缩、扩张或丢失往往导致了叶绿体基因组长度的差异。
根据亲缘关系,选择近缘物种并下载它们的叶绿体基因组及Genbank文件(根据该项目物种选择),利用CPJSdraw工具的CPJSdraw.pl脚本进行分析。


(仅描述信息,无实际意义)
观察IR区边界的基因所在位置及其长度,分析是否发生长度的改变 对IR区边界分析结果进行描述.......
植物叶绿体基因组的结构变异。
根据亲缘关系,选择近缘物种并下载它们的叶绿体基因组及Genbank文件(根据该项目物种选择),利用python脚本提取信息,并在mVISTA在线网站分析。


(仅描述信息,无实际意义)
分析近缘物种与组装基因组的序列比对结果,观察变异结构及其发生的位置 对mVISTA 多序列比对结果进行描述.......
植物叶绿体基因组在进化过程中可能会存在基因丢失的情况。
根据亲缘关系,选择近缘物种并下载它们的叶绿体基因组及Genbank文件(根据该项目物种选择),利用shell脚本进行统计,R 软件进行可视化。


(仅描述信息,无实际意义)
比较近缘物种的基因存在情况,分析是否发生基因丢失现象 对基因统计分析结果进行描述.......
叶绿体基因组核酸多态性(Pi)分析
利用python脚本提取基因区域以及基因间区域,随后对叶绿体基因组核酸多态性(Pi)进行分析,用 R 软件进行可视化。
分别提取基因区域以及基因间隔区域序列进行分析,结果如下所示




对不同区域的Pi值进行分析
利用植物叶绿体 DNA 分子(通常为保守的叶绿体蛋白质基因的编码序列)数据重建系统发育树推断系统发育过程,分析物种之间的进化关系。通常用系统发育树表示。
根据亲缘关系,选择近缘物种并下载它们的叶绿体基因组(根据该项目物种选择),然后使用python脚本提取共有基因,使用mafft软件进行多重序列比对分析,然后使用iqtree软件进行系统发育分析, 使用 R 软件对系统发育分析的结果可视化。


(仅描述信息,无实际意义)
基于 XXX 个保守的叶绿体蛋白质编码基因(Protein Coding Genes, PCGs)的 DNA 序列,对被子植物 XX 个目下的 XXX 个物种进行了系统发育树的构建,具体植物物种叶绿体基因组序列见附件 1。共有蛋白质编码基 因分别为 atp4,atp6,ccmB,ccmC,ccmFC,cob,cox1,cox2,cox3,nad1,nad2,nad4,nad5,nad6,nad7,rpl16,rps3,rps4,rps7,rps12,rps13,sdh4。XXX 目的 2 个叶绿体基因组被设置为外类 群。基于叶绿体 DNA 的系统发育的拓扑结构与 APG(Angiosperm Phylogeny Group)最新的分类相吻合。物种 XXX 属于 XXX 目 XXX 科,与XXX 的亲缘关系较近。
共线性研究的是同源基因或者序列的排布关系,比较常见的是组装基因组文章中,通过同源性比较来评估基因组的组装效果以及同源基因的保留和丢失的情况,用来研究材料的进化关系。
基于 JCVI 程序获得各个叶绿体基因组两两比较的结果绘制 Multiple Synteny Plot。
基于序列相似性,我们使用 circos 软件的源程序绘制了 XXX 与近缘物种的 Multiple Synteny Plot,结果如下


如图 11-1 所示,黄色线条区域表示同源性良好的区域。XXX 物种与XXX 物种检测到了大量同源的共线块。此外,还发现一些空白的区域,这些序列是该物种中独有的,与其余物种没有同源性。结果表明,XXX 目各个叶绿体基因组之间的共线块排列顺序不一致,XXX 叶绿体基因组与近缘物种之间经历了大量的基因组重排,共线块长度较短,表明 XXX 目这 XX 个物种的叶绿体基因组序列在排列顺序上极度不保守,经历了极其频繁的基因组重组。
选择压力是指外界施加给某物种生物进化过程中的压力,使得物种适应自然环境。在遗传学中,ω= Ka/Ks或者dN/dS表示的是非同义突变(Ka)和同义突变(Ks)之间的比率。一般认为,同义突变不受自然选择,而非同义突变则受到自然选择作用。通常认为,ω > 1表明有正选择(Positive Selection)效应,即有些有利突变正受到选择;ω = 1不受选择,即中性进化(Neutral Evolution);如果0 < ω < 1,则认为有纯化选择(Negative or Purifying Selection)作用,ω值越小,说明受到的负选择压越大,氨基酸序列越保守。
利用python脚本提取该物种与近缘物种共有的CDS序列,并将其转换为蛋白序列,利用ParaAT、KaKs_Calculator以及mafft进行分析得到Ka/Ks结果,利用 R 软件进行可视化。
共有基因的Ka/Ks结果如下




对结果进行描述......