四大因素，从源头解析Dup-技术文章-翌圣生物科技（上海）股份有限公司手机版

四大因素，从源头解析Dup

时间：2020-06-12 阅读：2707

四大因素，从源头解析Duplication

导语：

测序技术面世至今发生了诸多的技术革新，经历了sanger测序为代表的第—代测序、高通量为代表的第二代测序和单分子实时测序为代表的第三代测序。迄今为止，高通量测序（ next generation sequencing NGS）技术日趋成熟，正式进入临床疾病诊疗阶段，与我们生活息息相关。

Dup背景解读

高通量测序检验流程可分为“实验室操作”（又称为“湿实验”）和“生物信息学分析”（又称“干实验”）两部分。对应的实验操作部分，可点击高通量建库了解。生物信息学主要是测序完成之后的数据分析和解读，包括数据的拆分、比对和汇总，其中数据的有效性，也就是报告中常见的duplication rate 这一名词，是生信分析的一个重要指标，它让我们对测序得出的数据进行一个大致的了解。

所谓Dup，即重复序列Duplicate reads（涉及相关概念可点击此处），这些重复序列在总测序序列中占比简称为Dup rate。由于这些重复序列不能带来额外信息，相反会影响变异检测结果准确性，因此下游生信分析中这些重复序列是需要去除的去掉，这也就意味着Dup rate越高，数据利用率越低，测序成本浪费的也就越多。因此在NGS生信分析中首要了解的就是dup rate的占比

常见测序对应Dup可能值

测序类型	Dup rate 值
全外显子测序（WES）	10%左右
全基因组测序（WGS）	10%左右
全基因组DNA甲基化测序（WGBS）	> 10%
转录组测序（RNA-seq）	30%~40%左右
多重PCR测序和捕获Panel测序	与测序的区域以及测序量有关

影响Duplication Rate的因素

高通量测序技术的不断革新，生物信息学的分析也不断进步与发展，就dup来源，根据其定义与现实的案列分析，客观来讲主要有以下几个方面：

1.样本本身所导致的dup值

2.建库过程中产生的dup值（片段化，接头连接，PCR扩增）

3. Cluster生成对dup的影响（主要指上机之后）

4. 光学分辨引起的dup

通常来讲，我们认为的dup都是些无效数据，且基本上都是从建库过程中产生的，但实际案列告诉我们，有些时候dup也是“好”的有用数据，上机过程导致的dup值可能要要比我们建库过程中产生的dup值要大的多。

影响因素解读：

1样本本身所导致的dup值

不同物种的基因含量不同，基因多样性不同，对应的基因表达情况也千差万别。在*相同操作的前提下，不同的样本对应的dup值也有所差别。比如

1）cfDNA和ctDNA：游离DNA断裂不是随机的而是有偏向性的，自然cfDNA的分子多样性可能会比人工cfDNA要差一些，且片段长度一般分布在165bp左右，较为集中的size分布比物理打断的size分布更不容易丢失片段，这样可能导致相比较常规的基因组样本cfDNA和ctDNA引起Duplication Rate会高一些。

2）基因组DNA ：以人类基因组为列，本身含有大量的基因组信息，不同细胞相同编号染色体在基因组片段化过程中是有可能产生一些起始位置和终止位置相同的分子片段的。此时对应的dup值就是样本本身的dup值。在后期分析中可以作为保留数据进行分析。

3）甲基化DNA：经过亚硫酸氢盐反转的DNA，碱基类型都少了一种，分子多样性不但下降，更是引入了尿嘧啶，外加一些建库方式有着明显的GC偏好性，导致后期对应的dup值会明显的变高。

4）RNA：一般我们所做的测序都是全外显子组，只占全基因组的2%不到，少了内含子以及非基因区域的参与，同时对应有高表达的基因和不表达的基因，分子多样性肯定就弱了很多。后期对应的dup值是目前测序中占比量较高的样本。

2.建库过程中产生的dup值

1）片段化对Duplication Rate的影响

无论是超声波打断、高压气体喷断，还是酶切切断，都要注意随机性和均一性，同时需要保证片段化之后获得适当的长度，片段长度越小，导致扩增越容易，加剧了PCR bias，后引起PCR产物复杂度降低，dup rate升高。

2）链接效率对Duplication Rate的影响

对末端修复连接的效率的考量应该根据样本类型来考虑，比如ctDNA，单细胞样本，对应的连接效率就要很高，不然低频的目标片段就会消失。某种程度上，连接效率越高，分子多样性越好，dup rate也就越低。

3）PCR扩增对Duplication Rate的影响

首先我们了解一下PCR bias：

PCR扩增带有一定的偏好性和错配率，会影响终形成文库的覆盖度和测序准确性。

PCR本身对于不同GC含量的样本的扩增效率是不同的，中等GC含量扩增效率///高，高GC含量扩增慢，也就是说PCR循环越多，扩增困难和扩增容易的片段之间相差就会越大，对应的分子多样性就会越低，dup就会增大。

另外PCR本身在扩增的过程中可能会产生一些碱基的错配，错误的扩增可能会到出现与现有相同基因的结果，导致dup值升高。

另外我们解释一下，为什么我们PCR扩增要控制在较小的循环数内。

我们知道PCR过程中，每一次循环，对应生成的产物都是一样的，PCR放大成百上千倍，为什么NGS的Dup rate只有十位数甚至是个位数呢？（对应的数学解释可参考对应的参考文献1）

举例如下：

有编号1~1,000,000,000的1亿个小球不同的DNA///片段），通过某种方法复制了一下（PCR扩增），然后每个编号的小球都变成了10个。现在，你要从里边挑选出1万个小球出来（测序数据量），挑选两个一样的概率会有多大呢？也就是说虽然PCR将待测分子放大了成百上千倍，但是相对于数量远远多于纳米孔/点数的Unique分子来说，能在茫茫人海中被1个孔随机选中已是万万幸，更何况是再次随机选中同一个Unique分子簇中的Copy形成Dup呢？

因此对于PCR过程中的dup值，我们可以人为的增加投入样本的量（增加样本DNA的多样性），同时降低PCR的循环数，选择均一性和保真性较好的扩增酶，就可以将这一过程中产生的dup，控制在合理的范围内。

3. Cluster生成对dup的影响

Cluster在flowcell上的生成也是一个PCR过程。这个PCR比较容易被人遗忘。如果cluster变少，影响dup rate。原因是比例少的分子可能不能产生cluster，唯—性分子数减少，进而影响dup rate。适当的cluster生成密度，不仅能够获得///佳的数据产量，也能够获得较低的dup rate。目前的平台中，我们都希望cluster是单克隆(monoclonal)的，多克隆(Polyclonal)的cluster会出现空间距离过近而导致图像识别时相互overlap的cluster被测序识别程序过滤掉，造成的直接影响就是cluster密度过高，数据产量降低，整张芯片的cluster多样性降低，造成dup rate升高。

4. 光学分辨引起的dup

目前的测序平台主要包括两种扩增方式illumina和life的线性分子扩增，和ICG的滚环扩增，形成的DNA Nanoball都是靠流体来保证芯片表面利用率的，芯片利用率是数据高产出的基础，相反待测分子与芯片的结合的同时，可能导致反应不充分的信号点因为信号强度显著弱于反应充分的“邻居”，从而被映射成两个孔表达出一样的信号，也就是一种光学上的Dup。

总结：

综合考虑分析，影响dup的主要因素就是DNA的多样性，其中样本本身所产生或者增加的dup值，这种情况占比量较小，我们一般可以忽略；PCR产生的dup值，我们在选择均一性和保真性较好的扩增酶的同时，人为的降到底拷贝数也是可行的（一般控制在6-10 cycle）；至于Cluster和光学分辨引起的dup，主要是和测序平台相关，不同测序平台还是有一定的差异的，主要原因是cluster与光学分辨过程中导致的DNA多样性的改变和信号收集的误差，目前来说可能是产生dup的主要来源。

【1】Eric Vallabh Minikel. How PCR duplicates arise in next-generation sequencing[Z].2012,12.

【2】illumina. Effects of Patterned and Nonpatterned Flow Cells [Z].

【3】 Sayols S, Scherzinger D, Klein H. dupRadar: a Bioconductor package for the assessment of PCR artifacts in RNA-Seq data. BMC Bioinformatics. 2016 Oct 21;17(1):428

【4】Natarajan KN, Miao Z, Jiang M，et al. Comparative analysis of sequencing technologies for single-cell transcriptomics. Genome Biology. 2019 Apr 9;20(1):70.