新一代測序的出現(xiàn),讓科學(xué)家們能夠更快地實(shí)現(xiàn)基因組測序,,且成本比Sanger測序要低得多,。但是,這是以犧牲讀長為代價的,,平均讀長從Sanger測序時的800-900 bp降低如今的100 bp左右,。短的讀長讓基因組組裝更加困難,因?yàn)樾枰疃雀采w才能產(chǎn)生相當(dāng)?shù)慕M裝,。為了解決這一問題,,Worley及其同事近轉(zhuǎn)向了Pacific Biosciences公司的PacBio RS平臺。
然而,,有些問題是更深度覆蓋也無法彌補(bǔ)的,。對于de novo組裝,長度超過讀長的重復(fù)序列會產(chǎn)生缺口,,導(dǎo)致近年來更多片段化的組裝,。因此,我們很難檢測重復(fù)區(qū)域的變異,,而這些對了解某些疾病可能很重要,。
對此,貝勒醫(yī)學(xué)院人類基因組測序中心的遺傳學(xué)家Kim Worley談道:“令人沮喪的事情是100 bp讀取中沒有太多的信息內(nèi)容,。”她指出,,在恒河猴的基因組草圖中,,高達(dá)20%的基因模型都含有缺口。
Worley表示:“我們已經(jīng)完成了人類基因組和小鼠基因組,,而其他一切都仍未完成,。即使是已經(jīng)完成的基因組,也有并不*連續(xù)和正確的區(qū)域,,而用戶對那些區(qū)域的數(shù)據(jù)總是不滿意,。”
為了解決這一問題,Worley及其同事近轉(zhuǎn)向了Pacific Biosciences公司的PacBio RS平臺,。這是一種第三代測序技術(shù),,能夠?qū)崟r開展單分子測序反應(yīng)。該系統(tǒng)的平均讀長在幾kb,,而某些情況下的大讀長能達(dá)到30 kb,。
這些長的序列讀取簡化了基因組組裝,因?yàn)樗鼈兡軌蚩缭街貜?fù)區(qū)域,,而且不需要DNA的擴(kuò)增,,從而減少了某些測序假象和基因組覆蓋偏向,。因此,,PacBio RS平臺產(chǎn)生的長讀取無GC偏向或系統(tǒng)誤差,適用于基因組組裝的升級,。
正如去年在《PLoS ONE》上介紹的,,Worley及其同事開發(fā)出一種自動的軟件工具,名為PBJelly,。1 它能夠?qū)?/span>PacBio長讀取與組裝草圖比對,,關(guān)閉或改善缺口,同時保留注釋,。研究人員將這種方法應(yīng)用在四個基因組上,,解決了63%-99%的缺口,能關(guān)閉32%-69%并改善12%-63%,。
PacBio的科學(xué)官Jonas Korlach表示:“我們正在經(jīng)歷一場復(fù)興,,一場已完成基因組的復(fù)興。在Sanger測序的年代,,這是慣例,,但是當(dāng)新一代技術(shù)到來時,它幾乎被拋棄,,因?yàn)閹缀醪豢赡芡ㄟ^Sanger測序來結(jié)束那些基因組,。”
從原理上說,PBJelly適用于任何平臺所產(chǎn)生的長序列讀取,。不久之后,,當(dāng)新一代測序公司趕上PacBio的讀長時,,這一特征就顯得尤為重要。
正在朝這一方向努力的是Illumina公司,。不久前,,它收購了Moleculo公司,該公司開發(fā)的技術(shù)讓大的DNA片段可在Illumina標(biāo)準(zhǔn)測序系統(tǒng)上進(jìn)行測序,,隨后組裝成合成的長讀取,。來自每個分子的短序列讀取分別組裝,終結(jié)果是所有片段的完整序列,。從本質(zhì)上講,,短讀取數(shù)據(jù)重建成長讀取。
在1月份召開的動植物基因組大會上,,一組科學(xué)家報告稱,,Moleculo技術(shù)可利用Illumina HiSeq2000平臺,產(chǎn)生長度跨越1.5-15 kb的準(zhǔn)確DNA測序讀取,。
另一個長讀取技術(shù)的范例是454的GS FLX+系統(tǒng),,它帶來了長度達(dá)1000 bp的讀取。眼下,,一個研究協(xié)作組正在利用這種測序技術(shù)來分析和組裝RP11人類參考基因組,,試圖關(guān)閉缺口并發(fā)現(xiàn)基因組序列中的新基因。
454生命科學(xué)研發(fā)部門的副總裁Todd Arnold表示:“454一直以高質(zhì)量,、長讀取而著稱,。”隨著讀長和通量逐步上升,“我們在增加讀長時也力爭保留我們的質(zhì)量值,,因?yàn)檫@對我們的客戶非常重要,。”
但根據(jù)Korlach的說法,現(xiàn)有的其他技術(shù)都無法與PacBio抗衡,。他表示,,目前存在根本的技術(shù)差異和限制,使得其他技術(shù)無法提供PacBio的連續(xù)讀長,。
不過,,PacBio長讀取技術(shù)也有缺點(diǎn),那就是錯誤率高,。盡管通過環(huán)化測序可實(shí)現(xiàn)高度準(zhǔn)確的測序結(jié)果,,但PacBio RS儀器產(chǎn)生的單向讀取,平均準(zhǔn)確性只有87-89%,。該公司負(fù)責(zé)產(chǎn)品管理的總監(jiān)Edwin Hauw表示:“我們正在努力改善這一點(diǎn),,但準(zhǔn)確性仍將在很長一段時間內(nèi)低于其他現(xiàn)有技術(shù),因?yàn)槲覀兊募夹g(shù)是基于單分子的實(shí)時檢測。”
東京大學(xué)的計算生物學(xué)家Michiaki Hamada對那些錯誤率不以為然,。“在我看來,,這些高錯誤率不會帶來嚴(yán)重的問題,因?yàn)榇蟛糠皱e誤可通過低錯誤率的短讀取來校正,,比如Illumina測序儀所產(chǎn)生的那些,。”
在近的一項(xiàng)研究中,Hamada及他的團(tuán)隊(duì)開發(fā)出一種名為PBSIM的讀取模擬器,,它捕獲了PacBio讀取的主要特征,。Hamada表示,他們的長期目標(biāo)是開發(fā)出適用于長讀取的de novo組裝程序,,但目前還沒有模擬器能針對PacBio文庫的生成,。
Hamada及其同事利用PBSIM來分析13個PacBio數(shù)據(jù)集,結(jié)果發(fā)表在《Bioinformatics》上,。2 在開展PacBio讀取的混合糾錯和組裝檢測之后,,他們發(fā)現(xiàn),通過覆蓋深度少為15的連續(xù)長讀取,,再加上覆蓋深度少為30的循環(huán)測序,,可獲得大量的組裝結(jié)果。Hamada表示:“PBSIM不僅可用于組裝程序的評估,,可能用于測序的實(shí)驗(yàn)設(shè)計,。”
由于參考基因組中的缺口可能包含了與疾病相關(guān)的基因,故長讀取技術(shù)的利用對臨床領(lǐng)域有重大影響,。例如,,Arnold及其同事鑒定出一個可能參與癌癥發(fā)展的區(qū)域。“有證據(jù)表明該基因來自早期的RNA序列數(shù)據(jù),,但它并未出現(xiàn)在參考基因組中,因此開展重測序研究的人員看不到,。參考文庫越完整,,你以積極方式使用這些數(shù)據(jù)的能力就越強(qiáng)。”
立即詢價
您提交后,,專屬客服將第一時間為您服務(wù)