上海科鉴生物科技有限公司
2013/4/16 9:08:11大规模测序技术已经广泛应用于人基因组变异图谱的检测。这篇文章利用高深度测序对18个健康的韩国人进行研究,通过18个基因组和17个转录组构建了全基因组及转录组的常见和稀有变异图谱,共发现9.56M基因组变异,其中23.2%为新发现,发现4414个未被注释的转录本。同时还发现了1809个转录修饰位点和580个等位基因特异性表达位点。全基因组和转录组测序联合分析是理解基因组变异功能和多样性的有力工具 。
1、研究背景
人类遗传学研究的目标就是解开基因组变异与表型特征的关系。遗传变异包括SNP,CNV, SV等。已经发现的人类变异形成了两个数据库:dbSNP 131(20.1M SNPs)和DGV (89427 SVs)。目前,对同一个体的全基因组范围内DNA-RNA联合分析变异与功能关系的研究还非常少见。基于这样的背景展开本次探索研究。
2、研究策略
样本:DNA样本为静脉血;RNA样本为永生淋巴样干细胞系;
实验方法:10个人全基因组测序26.1X;8 个人外显子组测序63.9X,SureSelect Human All Exon Kit,测序平台是Illumina Genome Analyzer IIx (其中一个个体AK2采用SOLiD)。
3、研究结果
全基因组测序寻找SNP和short indel:
对10个个体进行全基因组测序,通过软件GSNAP 和 Bioscope ,将reads与hg18比对,发现3.4M SNP;并参考数据库 dbSNP131进行过滤,每个个体都发现了3.45~3.73M SNPs(见表1)。
验证手段:Illumina 610K genotyping array,PCR-Sanger。
表1. 全基因组测序结果统计
由于reads读长提高和比对质量的提高,以及PE reads比率高,发现的indel(<=30bp)数量是以前在人基因组中所发现indel的2倍,随机选择35个杂合indel进行PCR-Sanger验证,100%均得到验证。32.5% indel没有在dbSNP131找到,可见人群体中仍有大量的indel尚未发现。
在所有8.37M SNP中,2.3M属于非同义突变(nsSNP),每个个体约含8431个nsSNP,分布在4700个基因中。也就是说在大约2万个基因产生的转录本中,25% mRNA编码的蛋白在不同人中功能不同。
外显子组测序:
为了更深入研究人类基因突变,研究者对另外8个个体中采用外显子测序,捕获了17133个基因。测序深度63.9X, 发现 35740 SNP,15697 indel,其中49%的SNP为nsSNP。
进一步分析18个人中基因突变对编码蛋白的影响,将来自10个人全基因组测序和8个人外显子测序的nsSNP合并得到28179个突变,与dbSNP131相比,28.6%是新发现的。与HapMap中欧洲人和西非人群相比,有一部分nsSNP在韩国人群中显示了高等位基因频率,尤其是与表型相关的SNP位点。构建了一个高度富集的nsSNP,称之为Super nsSNP gene集合,共86个Super nsSNP genes,与感觉、免疫等功能相关,如嗅觉受体,HLA相关基因等。值得注意的是,这些基因与DGV中84%的CNV区域和人类参考基因组中37%的区域重叠(见表2)。
表2. 全基因组测序数据中前20个super nsSNP基因
稀有及群体特异性突变:
10个全基因组重测序个体的SNP合并成非冗余的8.37M SNPs,跟db SNP131数据库相比,发现有21.9%(1.83M SNPs)是新发现的。在1.83M SNPs中,73.9%(1.36M)是单独分别在10个个体中的,说明有一大部分变异是罕见的。剩余26.1%的SNP被认为在韩国人群体中广泛存在(等位基因频率≧10%),但以前的基因组研究并未发现,说明这些SNP可能是群体特异性变异。
韩国人基因组的深度测序,使我们能评估常见韩国人nsSNPs(等位基因频率≧10%)和以前已知SNPs之间的关系。53.4%新发现且常见的韩国人nsSNPs与目前已知SNPs在20kb以内没有明显的连锁不平衡LD(r2 <0.8)。这个发现提示,当前基于其他群体(例如欧洲人)里常见tagging SNPs的GWAS研究,对于在其他群体里寻找常见nsSNPs可能作用有限(见图1、2)。
图1. 常染色体上SNP的等位基因频率
图2. 新发现的常见nsSNP与目前已知nsSNP的连锁不平衡程度
大的deletion和断裂点:
从进行全基因组测序的8个人中鉴定到5496个大于1kb的deletion,大小范围是从1kb到46kb,通过高精度全基因组杂交芯片(CGH array)证实了deletion的存在。根据50%overlap的比对标准,其中1171个片段在DGV中没有发现。平均每个个体中含有约690个大的deletion,重叠约200个基因。
结合read-depth, stretched-reads, split-reads等分析策略鉴定deletion的断裂点,除了已知数据库中存在的,76.7%不与任何已鉴定出的断裂点重叠,可能属于群体*的断裂点。造成这些断裂点的分子机制中,18%的deletion属于重复序列数量变化(VNTR),13%属于非等位基因同源重组,大部分是非同源位点连接(NHEJ)导致的(见图3)。
图3. 检测大的deletion(a. 通过分析来自高通量测序的read-depth, stretched-reads和split-reads 检测;b. 检测出的大deletion断裂点与BreakSeq和千人基因组计划的比较;c. 鉴定出CNV的产生机制及比例。)
转录组分析:
从17个人的淋巴母细胞系(由外周血单核细胞经EBV病毒转化产生的细胞系)提取total RNA,进行转录组测序(见图4)。为避免剪接导致错误率增加,将short reads比对到从RefSeq,UCSC,Ensembl数据库中mRNA序列产生的一系列cDNA。比对不上cDNA的reads经RefSeq, UCSC, Ensembl 和 GenBank databases数据库过滤,通过进一步分析共发现4414个新转录本,在人类基因组上的大小为2.74Mb。这些新转录本的平均长度为360bp。PCR成功验证了随机选择的4个新转录本。通过BLASTX将它们与不同物种的所有已知蛋白序列进行比较,发现19.5% (862) 的转录本与已知蛋白序列有同源性 (与超过20个氨基酸有80%相似性)。
图4. 转录组分析(a. 转录组分析流程,跨过不同外显子的juntion reads以红色标注;b. 转录本数量和大小分布)
接着检测了X-印记区DNA表达情况,发现23个基因女性表达高于男性,5个基因逃逸出印记抑制。由于群体数据的限制不能深入分析跟性别有关的印记表达,这在以后的工作中需要深入研究(见图5)。
图5. 逃逸X抑制的代表性基因(以前未报到过的5个被标记红色)
DNA和RNA序列比较:
研究转录过程的碱基变化,即RNA修饰,共发现1809个转录位点修饰(TBM)。对这些区域的cDNA和gDNA进行PCR-Sanger测序,在16个位点中验证了15个。平均一个个体的细胞系中发现500个TBM位点。在1809个位点中,74.1%发生碱基转换(transition),大部分是编码链上A-G或者C-T转换,这可以用A-I和C-U的RNA编辑机制解释。90%的TBM位于非翻译区域,表明可能具有调节mRNA稳定性的作用。188个位点位于编码区,可能对蛋白结构和功能造成影响。
等位基因特异性表达(ASE),共发现580个nsSNP存在等位基因偏向表达,例如编码ERAP2中赖氨酸的野生型rs2549782 (G allele),在淋巴细胞系中优先转录。580个nsSNP中,18个SNP发出翻译终止信号。等位基因特异性表达可能是人类基因表达变异中广泛在,并且可能具有重要功能(见图6)。
图6. 基因组和转录组序列的比较(a TBM每种模式的相对贡献;b 具有等位基因特异表达的基因)
de novo组装的新序列:
用de novo assembler Abyss组装了无法比对到人基因组的180M pair-end reads,产生了超过12M的contigs。将这些contig比对到HuRef genome 和human reference genome build 37.1,zui终有947个contig无法比对,然后这些与大猩猩的基因组进行比对,19个contigs相似性99%。其中1个contig在转录组数据中得到证实。
发现3个contigs存在8个测了转录组的韩国人中,同时也在已经报道的7个人群中存在[(NA10851 (ref. 8) and NA12878 (ref. 19) with European ancestry, NA18507 (ref. 1), NA19240 (ref. 19), ABT (ref. 12) and KB1 (ref. 12) with African ancestry and YH2 with Asian ancestry and Palaeo-Eskimo for ancient human10) ],这说明有些contigs 可能在不同的人群中广泛存在。
4、结论
• 理解人基因组变异与疾病易感性的关系,需要关注以下几点:人群中稀有变异和常见变异相对丰度;不同民族之间基因组差异;个体基因组中常见变异和罕见变异的LD程度;发现能够影响表型和复杂疾病的功能性突变。通过对韩国人基因组测序研究体现了这些特点。
• 在我们的发现中,很多韩国人常见功能性变异与芯片上的tagging SNP衔接情况不好。这说明,很多关联研究有很大限制,特别对于那些在人类基因组上没有进行过LD 评定的群体。
• 此外,测序读长和测序深度对短indel的发现至关重要。尽管读长很长,低深度测序仍然会错过一些较短的indels,特别是杂合indels。
• 由于全基因组测序识别结构变异的灵敏度还不够,发现的结构变异大多数是较大的deletion(>1 kb),位于相对容易鉴定的区域。更高覆盖度和更长读长的个人基因组研究,将使结构变异鉴定变得更准确,例如smaller deletion(50-500bp), copy number gain, DNA insertions and inversions。
• 转录组测序鉴定出的活跃转录区域,目前还不能被注释成基因。这需要对不同类型的人类细胞进行大规模转录组测序,以全面理解这些未知转录本的功能。
• 转录位点修饰能影响复杂疾病的易感性,因为它们可能改变mRNA稳定性和蛋白质序列的氨基酸。但目前发现的转录位点修饰只能通过A-I和C-U等RNA 编辑机制进行解释。其他碱基转换例如G-A和T-G还没有被深入研究过。需要对更多个体的不同组织进行测序深度更高的全基因组测序和转录组测序来评估转录位点修饰的功能影响。
参考文献
Extensive genomic and transcriptional diversity identified through massively parallel DNA and RNA sequencing of eighteen Korean individuals. Nature. Genetics ,2011.