註:本篇閱讀對象-相關專業人士
真核生物內廣泛存在著mRNA剪切(splicing)現象。同一個基因通過不同的剪切方式可以生成多達幾十種甚至幾百種的mRNA,翻譯成不同的蛋白質,從而在有限的基因數量之下極大地豐富蛋白質組。據保守估計,至少30%的人類基因、50-60%的植物基因存在著剪切變體(splice variants),每年都有不少人類基因被發現有新的剪切變體。因此,鑑定剪切變體中的剪切位點就成了定序分析中一個永恆的需求,而人類蛋白質組計畫的核心任務之一也是鑑定所有可變剪切的蛋白質產物。
定序公司可能會以「充話費送分析」的方式給你一大堆你可能不知所云的剪切變體分析結果,但千萬別以為這些結果有多可靠。事實上,如果你有經常參加有關定序和生物訊息學的國際會議,你就會注意到從二代定序數據中對剪切變體進行全面精確的定性和定量分析一直是一個懸而未決的熱點問題。雖然你可能已經聽過諸如TopHat, MapSplice, HISAT等專門鑑定剪切點的算法,但你可能不知道,這些傳統算法鑑定剪切點的準頭實在有點感人。據Nucleic Acids Research上的一篇文章評測(doi:10.1093/nar/gkr1248),市場佔有率最高的TopHat算法,其準確度高達……65.36%。
冷靜,冷靜…… 其實吧,看看TopHat團隊的前作Bowtie系列算法更為感人的驗證率,你會覺得三分 之 一 的 錯 誤 率 還 不 是 最 糟 糕 的 。 看 看 這 個 實 驗 驗 證 Bowtie2 的 基 因 鑑 定 的 結果(doi:10.1371/journal.pone.0094250),順著號來驗證11個基因,更是沒一個驗證出來的:
看到這裡,無數小夥伴的心裡是崩潰的……
不能忍啊,有木有!
不能忍的,還有暨南大學張弓教授的團隊。於是他們先後開發了超高精度的mapping算法FANSe系列,精度秒殺了Bowtie, BWA等所有主流算法。但是,它有一個缺點,沒法鑑定剪切變體……
於是,本著「順手」的原則,張弓教授的團隊於2013年開始將極為精確的FANSe系列算法的原理擴展到剪切變體的鑑定上,開發剪切鑑定專用的FANSe2splice,秒掉TopHat等傳統算法。本以為是個順手的差事,結果發現難度不小,主要開發者麥志標更是從本科實習生一直做到博士生,才算是解決了問題。
不看廣告看療效
甭管你用的是Illumina定序儀還是ion torrent定序儀,FANSe2splice都能從容應對,對比4種主流剪切變體mapping算法,FANSe2splice都鑑定到了最多的已知剪切變體。眾所周知,已知的剪切變體都是人們經過長期的研究確定下來的,可信度較高,所以已知剪切變體鑑定得多,意味著算法比較靠譜。
註:這一評測標準是2012年NucleicAcids Research上的一篇文章(doi:10.1093/nar/gkr1248)
確立的。
不服跑個分!阿不,不服驗個證!
開發算法的大抵都挺怕驗證的,像上面TopHat和Bowtie2的驗證率…… 而FANSe算法核心的高精確度,使得FANSe2splice天然具備了很高的實驗可驗證性,因此才能喊出口號:「不服驗個證!」——Sanger定序驗證是金標準。
測試是這麼做的:比較FANSe2splice和其他幾種競品,都能鑑定到的剪切點認為是真實的,不需要驗證;只有一方能鑑定到的剪切點就需要拿來驗證了。廢話少說,直接上結論:
對已知剪切點,FANSe2splice單獨鑑定到的剪切點的驗證率幾乎全面高達100%(除一個以外),而其餘幾個算法驗證率參差不齊,平均還不到一半。
對數據庫裡面沒有的新剪切點,FANSe2splice單獨鑑定到的新剪切點,驗證率平均能達到80%。
而其餘幾個算法的驗證率能有四分之一就不錯了,而且有不少的張冠李戴:他們把已知的剪切點當成未知剪切點來報告,這不是矇人嗎?
於是,FANSe2splice將剪切點鑑定的準確度提升到了一個新的高度。
對了,TopHat團隊的最新作HISAT2再次創下了假陰性率三分之一的記錄……(上圖中HBE細胞的比較)所以真的不能跟風啊。
有圖有真相!不服驗個證!上面所有幾十個Sanger定序驗證的引物列表和膠圖都在文章中有詳細列出。這裡就舉個例子好了,不然大家該找我要流量費了。
還不夠過癮?覺得跑膠可能有非特異性不能說明問題?那就只好祭出Sanger定序的峰圖了!
怎麼樣?特異性足夠吧!剪切點鑑定準確吧!而且,哪怕有點突變、定序儀偶爾有個錯誤,也沒關係,照樣給你準確鑑定出來(見上圖junc40和junc46中標紅色的鹼基,是與參考基因組有錯配的鹼基)。
更厲害的是,只要有一條read被FANSe2splice鑑定為剪切點,它就基本上能被驗證出來。這真是「所見即所得」啊!有圖有真相:
所以,你以前在其他定序公司「充話費送的」剪切變體鑑定結果很可能是假的,不想拼人品的話,還是用FANSe2splice更保險。
為啥傳統算法不那麼靠譜呢?
(不懂生資的可以略過本節)
1. 大部分傳統的spliced mapping算法對pair-end reads支持相對較好,而很多RNA-seq數據只有單端。目前除Illumina的定序儀以外,其他所有二代和三代定序儀都無法進行pair-end定序。
2. 傳統算法首先將reads向參考基因組做無剪切的普通mapping,然後將剩下的reads統統認為是有可能的含剪切的reads,並將其拆成兩半進行spliced mapping。但傳統算法(尤其是BWT類算法,如Bowtie, BWA等)本身精度不高,容易漏掉相當一部分reads,那麼這部分reads就會進入spliced mapping階段,從而被強行拆成兩半進行mapping,這必然同時造成假陽性和假陰性。
3. 傳統算法首先將reads向參考基因組做無剪切的普通mapping,依據堆reads的狀況來大致猜測剪切的邊界,從而達到縮小搜索範圍、提高精度和速度的目的。但對於表達豐度較低的mRNA,很難堆起足夠多的unspliced mapped reads,所以就喪失了「邊界提示」,算法被迫用無提示的從頭搜索方法,這時很容易進入「精度與速度不可得兼」的兩難選擇。而FANSe2splice由於其與生俱來的精確性,對每一條reads單獨處理,不依賴其他任何reads的訊息提示,就能保證低豐度剪切點也能得到同等的鑑定;並依靠著大量的計算工程上的優化措施來保證速度。
FANSe2splice文章出處:
Mai Z, Xiao C, Jin J, Zhang G. (2017) Low-cost, Low-bias and Low-input RNA-seq with HighExperimental Verifiability based on Semiconductor Sequencing. Scientific Reports 7(1):1053.
長弓生化科技是目前台灣基因定序行業中唯一一家從底層算法到高級應用所有環節全部自主研發的創新型公司,目前正處於快速發展階段。長弓生化擁有自主研發的世界上最高精度的分析算法FANSe,佔領行業優勢,已經擁有多項完全自主研發的軟件著作權及專利。我們致力於為科研和醫療領域的單位客戶或個人客戶提供方便快捷、準確詳盡、價格低廉、高度定製化的大規模精確定序與專業的訊息分析服務,力求用最專業的服務、和最頂尖的科技造福科研工作者。目前已將超高精度FANSe算法部署雲平台,面向科研工作者開放了多個功能分析模塊,可實現大規模定序數據的一鍵式分析,自動生成可視化的結果報告,結果清晰易讀。並已與多家醫院和大學建立了合作關係,歡迎大家與我們諮詢交流。