中國科學(xué)家創(chuàng)新DNA存儲(chǔ)算法 讓敦煌壁畫再“活”兩萬年
科幻大片《侏羅紀(jì)公園》里講述了這樣一個(gè)故事:科學(xué)家找到一塊有史前蚊子的琥珀,從蚊子血中獲得了恐龍的基因,從而讓已滅絕了6000多萬年的恐龍復(fù)活。
恐龍的生物信息存儲(chǔ)在DNA中,若干年后被提取并還原出來。這聽上去似乎有些道理,卻也讓人倒吸一口涼氣。
最近,天津大學(xué)一項(xiàng)研究成果讓人們離想象又近了一些。該校合成生物學(xué)團(tuán)隊(duì)將10幅精選敦煌壁畫存入DNA中,并通過加速老化等實(shí)驗(yàn),發(fā)現(xiàn)這些壁畫信息在常溫下可保存千年,在9.4℃下可保存兩萬年。
“如果在合適的溫度等條件下,保存千萬年也是可以的?!敝袊茖W(xué)院院士、天津大學(xué)副校長元英進(jìn)說。
小小的DNA卻擁有驚人的存儲(chǔ)容量
人類文明進(jìn)化史,也是一部信息存儲(chǔ)技術(shù)發(fā)展史。
從結(jié)繩記事、倉頡造字到磁帶、硬盤等現(xiàn)代磁光電存儲(chǔ)技術(shù),數(shù)據(jù)存儲(chǔ)幫助人類延續(xù)了思想,記錄下燦爛文明。造紙與印刷術(shù)的發(fā)明,讓人類能夠存儲(chǔ)的數(shù)據(jù)量在幾百年內(nèi)獲得了大約5個(gè)數(shù)量級(jí)的提升。到了計(jì)算機(jī)時(shí)代,人類產(chǎn)生的數(shù)據(jù)呈爆發(fā)式增長。
“全世界都在建數(shù)據(jù)中心,而數(shù)據(jù)中心的能耗是驚人的?!痹⑦M(jìn)說。人們一直在不斷尋找更海量、更穩(wěn)定、更安全的存儲(chǔ)方式。
大自然鬼斧神工的絕妙之處就在于此——最好的存儲(chǔ)器或許就藏身于生命體之中。
自地球上出現(xiàn)生命以來,大自然一直用DNA來存儲(chǔ)信息,至今已有30多億年。人類的五官在臉上如何擺放,體內(nèi)的蛋白怎樣合成,眼睛是什么顏色……諸如此類紛繁復(fù)雜的人類基因組信息,都記錄在比細(xì)胞還小得多的DNA上,一代代沿用至今。
不同于各種人造存儲(chǔ)設(shè)備,DNA極其精巧卻又如此經(jīng)久耐用,它存儲(chǔ)了億萬年來無數(shù)生物的遺傳信息,造就生命繁衍、進(jìn)化演化及生物多樣性。
那么,假如把海量的信息,像存入U(xiǎn)盤、硬盤一樣,“寫”到小小的DNA上,豈不是一舉多得?事實(shí)上,當(dāng)人類發(fā)現(xiàn)DNA的雙螺旋結(jié)構(gòu)后,美俄科學(xué)家就先后提出了用DNA存儲(chǔ)數(shù)字信息的概念。
元英進(jìn)解釋說,DNA存儲(chǔ)相較于磁、光、電等常規(guī)的信息存儲(chǔ)介質(zhì)有3個(gè)最顯著的優(yōu)勢(shì)。其中最大的優(yōu)勢(shì)在于存儲(chǔ)密度高。目前,天津大學(xué)研究團(tuán)隊(duì)將部分經(jīng)典視頻片段存儲(chǔ)在DNA中,已實(shí)現(xiàn)了體積存儲(chǔ)密度比普通硬盤高出6個(gè)數(shù)量級(jí)。
與此同時(shí),存儲(chǔ)的信息可用時(shí)間非常長。此次研究者將10幅敦煌壁畫信息存儲(chǔ)在DNA中,結(jié)合創(chuàng)新的算法,可以實(shí)現(xiàn)DNA分子在室溫下保存超過千年,在9.4℃條件下保存兩萬年。
這樣的長期保存需要的能耗卻很低。元英進(jìn)認(rèn)為,DNA存儲(chǔ)被視為一種極具潛力的存儲(chǔ)技術(shù),已經(jīng)成為應(yīng)對(duì)數(shù)據(jù)存儲(chǔ)增長挑戰(zhàn)的新機(jī)遇。
壁畫“變身”DNA需要幾步
DNA信息存儲(chǔ)的原理共分兩步——信息寫入和信息讀取。
這個(gè)過程實(shí)際上跨越了極難逾越的鴻溝:它打破了有機(jī)與無機(jī)的界限,連起生命和信息兩大系統(tǒng)。
DNA是脫氧核糖核酸的縮寫,含有“A”“T”“C”“G”四種堿基。如果用數(shù)字中的0、1、2、3分別代表一個(gè)堿基,就組成了一個(gè)四進(jìn)制的存儲(chǔ)方式,類似于計(jì)算機(jī)采用的0和1二進(jìn)制代碼。
通過編碼轉(zhuǎn)化,“堿基四進(jìn)制”和“計(jì)算機(jī)二進(jìn)制”就可以實(shí)現(xiàn)“對(duì)話”。天津大學(xué)合成生物學(xué)前沿科學(xué)中心博士生韓明哲解釋說,壁畫的數(shù)字圖像本質(zhì)上就是二進(jìn)制的比特串,“我們通過編碼將這些二進(jìn)制的比特串,轉(zhuǎn)化為四進(jìn)制的ATGC堿基序列,再通過DNA合成技術(shù)將堿基序列寫入DNA中,壁畫的數(shù)據(jù)圖像就‘變’為DNA了。”
此前,該團(tuán)隊(duì)成功在釀酒酵母中合成了一條額外的人工染色體,并在上面存儲(chǔ)了兩張圖片及一段視頻信息,將其稱之為“酵母CD”。隨著酵母的不斷繁殖擴(kuò)增,數(shù)字信息也隨之廉價(jià)且穩(wěn)定地復(fù)制。
“我們傳代培養(yǎng)酵母到100代,依然可以完美地恢復(fù)出原始數(shù)據(jù)?!痹⑦M(jìn)說,假如腦洞更大一點(diǎn),將信息存儲(chǔ)到一棵樹中,隨著樹生長千百年,人類的子孫后代都可以隨時(shí)從這棵樹中讀取到千百年前存儲(chǔ)的信息。
這一次,這支年輕團(tuán)隊(duì)的創(chuàng)新之處在于,能實(shí)現(xiàn)更惡劣條件下可靠讀取信息。韓明哲說,存了壁畫信息的DNA,本質(zhì)上其實(shí)跟天然的DNA沒有什么不同,同樣也存在長時(shí)間存放而產(chǎn)生的斷裂和降解等問題,影響信息存儲(chǔ)的長期可靠性,這也成為亟待解決的關(guān)鍵科學(xué)問題。
于是,他們?cè)O(shè)計(jì)了基于德布萊英圖理論的序列重建算法來解決DNA斷裂等問題,可以從嚴(yán)重降解的DNA樣本中,恢復(fù)原始的信息。
為了驗(yàn)證數(shù)據(jù)的長期可靠性,團(tuán)隊(duì)制備了一個(gè)沒有任何特殊保護(hù)的DNA水溶液樣本,隨后在70℃的溫度下加速樣本斷裂、降解長達(dá)十周。韓明哲說:“這個(gè)過程使得DNA片段80%以上都發(fā)生了斷裂錯(cuò)誤,模擬了DNA在自然環(huán)境下千年萬年的降解情形?!?/p>
隨后,團(tuán)隊(duì)依靠設(shè)計(jì)的序列重建算法,依然可以準(zhǔn)確組裝并解碼96.4%以上的片段,再通過一種編碼方式解決了少量片段丟失的問題,使原始的敦煌壁畫圖片能夠完美恢復(fù)。
DNA存儲(chǔ)走向?qū)嵱没€有多遠(yuǎn)
盡管DNA存儲(chǔ)還不被大眾所熟知,但它正在努力走出實(shí)驗(yàn)室,“距離實(shí)用化并不遙遠(yuǎn)?!痹⑦M(jìn)說,驚人的數(shù)據(jù)存儲(chǔ)需求是新技術(shù)走向市場(chǎng)的最大推動(dòng)力。
據(jù)國際數(shù)據(jù)公司估計(jì),到2025年全球數(shù)據(jù)總量將達(dá)到175ZB(1ZB為十萬億億字節(jié))。到2024年,全球?qū)⒂?0%的數(shù)字業(yè)務(wù)進(jìn)行DNA存儲(chǔ)試驗(yàn)。然而從目前來看,DNA存儲(chǔ)想要大規(guī)模應(yīng)用,尤其是在中國實(shí)用化還需要突破幾個(gè)關(guān)鍵瓶頸。
團(tuán)隊(duì)分析了當(dāng)前DNA信息存儲(chǔ)面臨的主要挑戰(zhàn)。信息存儲(chǔ)成本高、信息讀寫速度慢,以及無法高效對(duì)接現(xiàn)有信息系統(tǒng)是三大主要限制因素。
根據(jù)測(cè)算,目前DNA存儲(chǔ)寫入成本相當(dāng)于20世紀(jì)80年代內(nèi)存的存儲(chǔ)成本,而要達(dá)到當(dāng)前數(shù)據(jù)存儲(chǔ)成本還需要降低7-8個(gè)數(shù)量級(jí)。
“DNA信息存儲(chǔ)成本在未來有很大下降的潛力?!表n明哲認(rèn)為,今后可以從優(yōu)化合成反應(yīng)、改良芯片結(jié)構(gòu)、替換廉價(jià)耗材、優(yōu)化試劑分配量等方面著手,大幅降低合成成本。
與此同時(shí),由于信息存儲(chǔ)領(lǐng)域市場(chǎng)規(guī)模巨大,隨著半導(dǎo)體器件、微納加工在DNA信息存儲(chǔ)領(lǐng)域的應(yīng)用,該領(lǐng)域的巨大投入將對(duì)DNA合成技術(shù)產(chǎn)生重大影響,DNA合成技術(shù)與裝備快速迭代升級(jí),也有望使成本快速下降。
DNA信息存儲(chǔ)的讀取依賴測(cè)序技術(shù),與磁、光、電等存儲(chǔ)相比,讀取速度較慢。目前DNA測(cè)序儀的讀取速度與硬盤相比,還存在3-4個(gè)數(shù)量級(jí)的差距——現(xiàn)有電、磁存儲(chǔ)技術(shù)通常每秒可讀取幾十到幾百兆字節(jié)數(shù)據(jù)。此外,DNA存儲(chǔ)的標(biāo)準(zhǔn)尚待建立,面臨與現(xiàn)有數(shù)字存儲(chǔ)系統(tǒng)兼容的問題。
“DNA信息存儲(chǔ)是一個(gè)新興的、多學(xué)科深度交叉融合的研究方向?!痹⑦M(jìn)認(rèn)為,DNA存儲(chǔ)在未來極有可能成為龐大冷數(shù)據(jù)存儲(chǔ)的主要存儲(chǔ)介質(zhì)。
所謂冷數(shù)據(jù),就如同檔案館的歷史資料,需要把海量信息保存好,但平時(shí)又很少去使用。因?yàn)檫@些數(shù)據(jù)需要長期存儲(chǔ)、耗能又大,而電子存儲(chǔ)設(shè)備的壽命往往只有十年到幾十年,并需要不斷更新迭代,難以滿足冷數(shù)據(jù)存儲(chǔ)的需要。
DNA存儲(chǔ)走向?qū)嵱没悦媾R很多挑戰(zhàn)。元英進(jìn)認(rèn)為,眼下的突破可能還只是冰山一角,“技術(shù)進(jìn)步需要十年磨一劍的耐心,還需要一點(diǎn)運(yùn)氣。”
中青報(bào)·中青網(wǎng)記者 胡春艷 通訊員 趙暉 來源:中國青年報(bào)
版權(quán)聲明:凡注明“來源:中國西藏網(wǎng)”或“中國西藏網(wǎng)文”的所有作品,版權(quán)歸高原(北京)文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用,須注明來源中國西藏網(wǎng)和署著作者名,否則將追究相關(guān)法律責(zé)任。
- 呼和浩特本輪感染者逾2800例 新疆每日外溢感染人數(shù)仍處高位
- 安徽蚌埠市新增6名無癥狀感染者 詳情公布
- “2022年首屆企業(yè)合規(guī)知識(shí)大賽”上線開賽
- 新版職業(yè)教育專業(yè)目錄調(diào)整幅度超60% 學(xué)生成長通道更明確
- 中國氣象服務(wù)協(xié)會(huì)會(huì)長:氣象是防災(zāi)減災(zāi)中的“發(fā)令槍”
- 上海成中國內(nèi)地跨國公司地區(qū)總部最集中的城市
- 醫(yī)者路生梅:用一生 護(hù)一城
- 新疆烏魯木齊市新增無癥狀感染者168例
- 深圳市鹽田區(qū)國際氫能產(chǎn)業(yè)園揭牌
- 菲爾茲獎(jiǎng)首位華人得主、清華大學(xué)求真書院院長丘成桐:培養(yǎng)本土人才 閃耀中國天空