聯(lián)系電話
- 聯(lián)系人:
- 曹女士
- 電話:
- 400-6111-883
- 手機(jī):
- 售后:
- 4006-111-883
- 傳真:
- 86-21-34615995
- 地址:
- 上海市浦東新區(qū)天雄路166弄1號(hào)3樓
- 網(wǎng)址:
- www.yeasen.com
掃一掃訪問(wèn)手機(jī)商鋪
四大因素,,從源頭解析Duplication
導(dǎo)語(yǔ):
測(cè)序技術(shù)面世至今發(fā)生了諸多的技術(shù)革新,,經(jīng)歷了sanger測(cè)序?yàn)榇淼牡?mdash;代測(cè)序,、高通量為代表的第二代測(cè)序和單分子實(shí)時(shí)測(cè)序?yàn)榇淼牡谌鷾y(cè)序,。迄今為止,高通量測(cè)序( next generation sequencing NGS)技術(shù)日趨成熟,,正式進(jìn)入臨床疾病診療階段,,與我們生活息息相關(guān)。
Dup背景解讀
高通量測(cè)序檢驗(yàn)流程可分為“實(shí)驗(yàn)室操作”(又稱(chēng)為“濕實(shí)驗(yàn)”)和“生物信息學(xué)分析”(又稱(chēng)“干實(shí)驗(yàn)”)兩部分,。對(duì)應(yīng)的實(shí)驗(yàn)操作部分,,可點(diǎn)擊高通量建庫(kù)了解。生物信息學(xué)主要是測(cè)序完成之后的數(shù)據(jù)分析和解讀,,包括數(shù)據(jù)的拆分,、比對(duì)和匯總,其中數(shù)據(jù)的有效性,,也就是報(bào)告中常見(jiàn)的duplication rate 這一名詞,,是生信分析的一個(gè)重要指標(biāo),它讓我們對(duì)測(cè)序得出的數(shù)據(jù)進(jìn)行一個(gè)大致的了解,。
所謂Dup,,即重復(fù)序列Duplicate reads(涉及相關(guān)概念可點(diǎn)擊此處),,這些重復(fù)序列在總測(cè)序序列中占比簡(jiǎn)稱(chēng)為Dup rate。由于這些重復(fù)序列不能帶來(lái)額外信息,,相反會(huì)影響變異檢測(cè)結(jié)果準(zhǔn)確性,,因此下游生信分析中這些重復(fù)序列是需要去除的去掉,這也就意味著Dup rate越高,,數(shù)據(jù)利用率越低,測(cè)序成本浪費(fèi)的也就越多,。因此在NGS生信分析中首要了解的就是dup rate的占比
常見(jiàn)測(cè)序?qū)?yīng)Dup可能值
測(cè)序類(lèi)型 | Dup rate 值 |
全外顯子測(cè)序(WES) | 10%左右 |
全基因組測(cè)序(WGS) | 10%左右 |
全基因組DNA甲基化測(cè)序(WGBS) | > 10% |
轉(zhuǎn)錄組測(cè)序(RNA-seq) | 30%~40%左右 |
多重PCR測(cè)序和捕獲Panel測(cè)序 | 與測(cè)序的區(qū)域以及測(cè)序量有關(guān) |
影響Duplication Rate的因素
高通量測(cè)序技術(shù)的不斷革新,,生物信息學(xué)的分析也不斷進(jìn)步與發(fā)展,就dup來(lái)源,,根據(jù)其定義與現(xiàn)實(shí)的案列分析,,客觀來(lái)講主要有以下幾個(gè)方面:
1.樣本本身所導(dǎo)致的dup值
2.建庫(kù)過(guò)程中產(chǎn)生的dup值(片段化,接頭連接,,PCR擴(kuò)增)
3. Cluster生成對(duì)dup的影響(主要指上機(jī)之后)
4. 光學(xué)分辨引起的dup
通常來(lái)講,,我們認(rèn)為的dup都是些無(wú)效數(shù)據(jù),且基本上都是從建庫(kù)過(guò)程中產(chǎn)生的,,但實(shí)際案列告訴我們,,有些時(shí)候dup也是“好”的有用數(shù)據(jù),上機(jī)過(guò)程導(dǎo)致的dup值可能要要比我們建庫(kù)過(guò)程中產(chǎn)生的dup值要大的多,。
影響因素解讀:
1樣本本身所導(dǎo)致的dup值
不同物種的基因含量不同,,基因多樣性不同,對(duì)應(yīng)的基因表達(dá)情況也千差萬(wàn)別,。在*相同操作的前提下,,不同的樣本對(duì)應(yīng)的dup值也有所差別。比如
1)cfDNA和ctDNA:游離DNA斷裂不是隨機(jī)的而是有偏向性的,,自然cfDNA的分子多樣性可能會(huì)比人工cfDNA要差一些,,且片段長(zhǎng)度一般分布在165bp左右,較為集中的size分布比物理打斷的size分布更不容易丟失片段,,這樣可能導(dǎo)致相比較常規(guī)的基因組樣本cfDNA和ctDNA引起Duplication Rate會(huì)高一些,。
2)基因組DNA :以人類(lèi)基因組為列,本身含有大量的基因組信息,,不同細(xì)胞相同編號(hào)染色體在基因組片段化過(guò)程中是有可能產(chǎn)生一些起始位置和終止位置相同的分子片段的,。此時(shí)對(duì)應(yīng)的dup值就是樣本本身的dup值。在后期分析中可以作為保留數(shù)據(jù)進(jìn)行分析,。
3)甲基化DNA:經(jīng)過(guò)亞硫酸氫鹽反轉(zhuǎn)的DNA,,堿基類(lèi)型都少了一種,分子多樣性不但下降,,更是引入了尿嘧啶,,外加一些建庫(kù)方式有著明顯的GC偏好性,,導(dǎo)致后期對(duì)應(yīng)的dup值會(huì)明顯的變高。
4)RNA:一般我們所做的測(cè)序都是全外顯子組,,只占全基因組的2%不到,,少了內(nèi)含子以及非基因區(qū)域的參與,同時(shí)對(duì)應(yīng)有高表達(dá)的基因和不表達(dá)的基因,,分子多樣性肯定就弱了很多,。后期對(duì)應(yīng)的dup值是目前測(cè)序中占比量較高的樣本。
2.建庫(kù)過(guò)程中產(chǎn)生的dup值
1)片段化對(duì)Duplication Rate的影響
無(wú)論是超聲波打斷,、高壓氣體噴斷,,還是酶切切斷,都要注意隨機(jī)性和均一性,,同時(shí)需要保證片段化之后獲得適當(dāng)?shù)拈L(zhǎng)度,,片段長(zhǎng)度越小,導(dǎo)致擴(kuò)增越容易,,加劇了PCR bias,,后引起PCR產(chǎn)物復(fù)雜度降低,dup rate升高,。
2)鏈接效率對(duì)Duplication Rate的影響
對(duì)末端修復(fù)連接的效率的考量應(yīng)該根據(jù)樣本類(lèi)型來(lái)考慮,,比如ctDNA,單細(xì)胞樣本,,對(duì)應(yīng)的連接效率就要很高,,不然低頻的目標(biāo)片段就會(huì)消失。某種程度上,,連接效率越高,,分子多樣性越好,dup rate也就越低,。
3)PCR擴(kuò)增對(duì)Duplication Rate的影響
首先我們了解一下PCR bias:
PCR擴(kuò)增帶有一定的偏好性和錯(cuò)配率,,會(huì)影響終形成文庫(kù)的覆蓋度和測(cè)序準(zhǔn)確性。
PCR本身對(duì)于不同GC含量的樣本的擴(kuò)增效率是不同的,,中等GC含量擴(kuò)增效率///高,,高GC含量擴(kuò)增慢,也就是說(shuō)PCR循環(huán)越多,,擴(kuò)增困難和擴(kuò)增容易的片段之間相差就會(huì)越大,,對(duì)應(yīng)的分子多樣性就會(huì)越低,dup就會(huì)增大,。
另外PCR本身在擴(kuò)增的過(guò)程中可能會(huì)產(chǎn)生一些堿基的錯(cuò)配,,錯(cuò)誤的擴(kuò)增可能會(huì)到出現(xiàn)與現(xiàn)有相同基因的結(jié)果,導(dǎo)致dup值升高,。
另外我們解釋一下,,為什么我們PCR擴(kuò)增要控制在較小的循環(huán)數(shù)內(nèi),。
我們知道PCR過(guò)程中,每一次循環(huán),,對(duì)應(yīng)生成的產(chǎn)物都是一樣的,,PCR放大成百上千倍,為什么NGS的Dup rate只有十位數(shù)甚至是個(gè)位數(shù)呢,?(對(duì)應(yīng)的數(shù)學(xué)解釋可參考對(duì)應(yīng)的參考文獻(xiàn)1)
舉例如下:
有編號(hào)1~1,000,000,000的1億個(gè)小球不同的DNA///片段),,通過(guò)某種方法復(fù)制了一下(PCR擴(kuò)增),然后每個(gè)編號(hào)的小球都變成了10個(gè)?,F(xiàn)在,,你要從里邊挑選出1萬(wàn)個(gè)小球出來(lái)(測(cè)序數(shù)據(jù)量),挑選兩個(gè)一樣的概率會(huì)有多大呢,?也就是說(shuō)雖然PCR將待測(cè)分子放大了成百上千倍,但是相對(duì)于數(shù)量遠(yuǎn)遠(yuǎn)多于納米孔/點(diǎn)數(shù)的Unique分子來(lái)說(shuō),,能在茫茫人海中被1個(gè)孔隨機(jī)選中已是萬(wàn)萬(wàn)幸,,更何況是再次隨機(jī)選中同一個(gè)Unique分子簇中的Copy形成Dup呢?
因此對(duì)于PCR過(guò)程中的dup值,,我們可以人為的增加投入樣本的量(增加樣本DNA的多樣性),,同時(shí)降低PCR的循環(huán)數(shù),選擇均一性和保真性較好的擴(kuò)增酶,,就可以將這一過(guò)程中產(chǎn)生的dup,,控制在合理的范圍內(nèi)。
3. Cluster生成對(duì)dup的影響
Cluster在flowcell上的生成也是一個(gè)PCR過(guò)程,。這個(gè)PCR比較容易被人遺忘,。如果cluster變少,影響dup rate,。原因是比例少的分子可能不能產(chǎn)生cluster,,唯—性分子數(shù)減少,進(jìn)而影響dup rate,。適當(dāng)?shù)腸luster生成密度,,不僅能夠獲得///佳的數(shù)據(jù)產(chǎn)量,也能夠獲得較低的dup rate,。目前的平臺(tái)中,,我們都希望cluster是單克隆(monoclonal)的,多克隆(Polyclonal)的cluster會(huì)出現(xiàn)空間距離過(guò)近而導(dǎo)致圖像識(shí)別時(shí)相互overlap的cluster被測(cè)序識(shí)別程序過(guò)濾掉,,造成的直接影響就是cluster密度過(guò)高,,數(shù)據(jù)產(chǎn)量降低,整張芯片的cluster多樣性降低,,造成dup rate升高,。
4. 光學(xué)分辨引起的dup
目前的測(cè)序平臺(tái)主要包括兩種擴(kuò)增方式illumina和life的線性分子擴(kuò)增,,和ICG的滾環(huán)擴(kuò)增,形成的DNA Nanoball都是靠流體來(lái)保證芯片表面利用率的,,芯片利用率是數(shù)據(jù)高產(chǎn)出的基礎(chǔ),,相反待測(cè)分子與芯片的結(jié)合的同時(shí),可能導(dǎo)致反應(yīng)不充分的信號(hào)點(diǎn)因?yàn)樾盘?hào)強(qiáng)度顯著弱于反應(yīng)充分的“鄰居”,,從而被映射成兩個(gè)孔表達(dá)出一樣的信號(hào),,也就是一種光學(xué)上的Dup。
總結(jié):
綜合考慮分析,,影響dup的主要因素就是DNA的多樣性,,其中樣本本身所產(chǎn)生或者增加的dup值,這種情況占比量較小,,我們一般可以忽略,;PCR產(chǎn)生的dup值,我們?cè)谶x擇均一性和保真性較好的擴(kuò)增酶的同時(shí),,人為的降到底拷貝數(shù)也是可行的(一般控制在6-10 cycle),;至于Cluster和光學(xué)分辨引起的dup,主要是和測(cè)序平臺(tái)相關(guān),,不同測(cè)序平臺(tái)還是有一定的差異的,,主要原因是cluster與光學(xué)分辨過(guò)程中導(dǎo)致的DNA多樣性的改變和信號(hào)收集的誤差,目前來(lái)說(shuō)可能是產(chǎn)生dup的主要來(lái)源,。
【1】Eric Vallabh Minikel. How PCR duplicates arise in next-generation sequencing[Z].2012,12.
【2】illumina. Effects of Patterned and Nonpatterned Flow Cells [Z].
【3】 Sayols S, Scherzinger D, Klein H. dupRadar: a Bioconductor package for the assessment of PCR artifacts in RNA-Seq data. BMC Bioinformatics. 2016 Oct 21;17(1):428
【4】Natarajan KN, Miao Z, Jiang M,,et al. Comparative analysis of sequencing technologies for single-cell transcriptomics. Genome Biology. 2019 Apr 9;20(1):70.