再次刷新世界紀錄! 長弓生化科技的姐妹公司深圳承啟生物首次實現純CPU「1小時人類全基因組分析」
2018年伊始,長弓生化科技的姐妹公司深圳承啟生物云計算平台搭載完全自主研發的大規模定序基礎算法FANSe3,首次實現單節點1小時內完成一個人的全基因組定序分析,再次大幅刷新幾個星期前騰訊云的2.8小時的世界記錄。
不同於騰訊云使用專用芯片的FPGA技術,深圳承啟生物科技有限公司使用純CPU方案,沒有使用任何硬件加速特性,因此在成本、靈活性和通用性方面優勢更為明顯,不僅能運行於公司的私有云平台,也能輕鬆地利用國家耗費巨資建立的大科學設施。承啟生物已和天河二號超算達成戰略合作,其分析能力是目前地球上所有定序儀定序能力總和的一萬倍以上。這意味著在可見的將來,再多的基因組大數據都能在承啟生物的云平台上不費吹灰之力地進行分析,這將全面引爆基因定序數據分析在科研/臨床方面的精準應用。
為何承啟生物的純CPU方案居然能大幅超越專用的FPGA?核心在於完全自主研發的大規模定序基礎算法FANSe3算法。FANSe3算法是FANSe系列算法的第三代,是承啟生物專為云計算平台所開的,不僅速度快,而且其準確率極高,是目前世界上唯一的準確率有數學證明的同類算法,錯誤率已可穩定在十億分之一以下。
大量實驗驗證表明,FANSe系列算法在基因組突變分析、轉錄組表達分析等應用上,準確度幾乎為100%,秒殺國外基於BWA、Bowtie等算法的方案,並在醫學科研和臨床應用中分析了超過50萬例樣本。在臨床實踐中,云平台分析定序數據找罕見感染疾病病因、為晚期癌症病人找到合適的靶向藥,結果都是立等可取,已挽救了許多人的生命。正是有著這樣的能力, FANSe系列算法的開發者張弓教授被邀請做TED演講。
此外, FANSe系列算法的優異性能也擊敗國際上其他的算法,2014年成為國際人類蛋白質組計劃核心支柱的首選分析算法,為全面解析人類蛋白質組做出了關鍵貢獻。在2017年9月於愛爾蘭召開的國際人類蛋白質組計劃世界大會上,以張弓教授等為代表的廣東科學家團隊發佈突破性成果,利用FANSe系列算法,發現數千個以往被認為不可能存在的人類「新蛋白質」,可能成為攻克癌症的關鍵。
事實上,2017年11月,承啟生物就已經在國際核酸科研領域的頂級期刊、英國《核酸研究》期刊上發表論文,使用FANSe3算法,在公司自己構建的私有云上成功實現了人類全轉錄組的秒級分析,即在平均1秒多的時間內分析完成一個人類全轉錄組定序數據,並向全世界科研人員免費開放,創下了定序分析的新世界紀錄。
現在,他們繼續成功實現了單節點1小時人類全基因組分析,樹立了業界的標竿,也預示著將來大規模定序的分析將不再是瓶頸,精準醫學將在不遠的將來以極低的成本惠及萬家。
原文轉載自基因谷