来源:生物打印与再生工程
DNA数据存储是一种很有前途的信息存储技术,它将信息编码到碱基分子中,并且能够在特定的存储环境中长久保存。DNA合成、测序可以将信息编码到碱基序列并进行读取,使DNA存储成为一种有潜力的数据存储方案。然而,如何构建易于刻录、检索和读取的DNA数据仍然是一个挑战。
清华大学机械系生物制造中心课题组开发了一种新型的DNA存储单元——“引物盘”(Primer Disk),并建立了一套集追加写入、随机访问、多次读取、信息索引于一体的DNA信息存储系统,为DNA存储走向实际应用提供了新的解决方案。该研究成果以“Primer-Disk-enabled DNA Data Storage System with Index and Record-Many-Read-Many Features”(基于引物盘的信息索引、追加写入、多次读取功能的DNA数据存储系统)为题,在线发表于《Advanced Science》(《先进科学》)。
清华大学机械系欧阳礼亮副教授、熊卓教授,清华大学深圳国际研究生院弥胜利教授为论文的通讯作者,2021级硕士生马嘉翔为第一作者。
全球数据的年度规模持续增长,预计到 2025 年将达到 175 ZB。然而,传统存储介质如光盘和硬盘在信息密度方面已接近物理极限。利用分子存储信息能够突破这一限制,自然界利用 DNA碱基序列编码和存储了复杂的遗传信息,从头合成 DNA 技术的发展使得将任意信息存储在DNA分子中成为可能,因此,以 DNA作为信息存储的分子载体是最有前景的解决方案之一。总体而言,由于 DNA 数据存储在存储容量、长期保存和低维护成本等方面的优势,其近年来获得了极大关注。
DNA存储领域在编码/解码、DNA合成/读取、随机访问、多次读取等多个领域都取得了重大的进展。目前的研究已经可以实现将信息以较高的存储密度编码为DNA碱基序列,通过从头合成的方式将信息存储到DNA分子中,并通过测序分析的方式进行读取和解码;基于DNA物理位置分离、PCR检索、外部标签的方法已经实现了存入DNA信息的随机读取;DNA固定、体内存储等方案也可以支持DNA信息的多次读取。
尽管取得了一定的进展,但DNA数据存储走向实际应用依然面临巨大挑战,其中瓶颈之一是DNA数据管理系统。例如,在传统的存储介质中,往往存有文件的索引信息,以供信息的随机访问;另外, 长期的数据存档往往需要对文件进行版本控制、追加写入等操作。不同于传统的存储介质,常规DNA存储系统在进行追加写入或重写等操作时操作麻烦,且难以随机检索,会造成大量的存储空间和时间的浪费。
在这一背景下, 清华大学机械系生物制造团队提出了一种创新的DNA数据存储文件管理系统,采用“引物盘”(Primer Disk)作为新型的DNA存储介质。该系统实现数据的写入、追加写入、保存、多次读取、索引等功能。
系统介绍
在本研究中,研究团队建立了一个具有索引和追加写入多次读取(record-many-read-many,RMRM)特征的引物盘DNA数据存储系统。该引物盘可以共价结合多种不同的寡核苷酸链并作为信息存储的载体。DNA数据写入是通过将所需的DNA分子与引物盘上特定的互补引物结合并延伸,形成DNA文件来实现的。DNA分子与引物盘的结合不需要对DNA进行额外的修饰,只需要常规的PCR。通过按需喷墨打印荧光分子和T4 DNA连接酶,将相应的索引编码存储到引物盘的QR码点阵列中(图a)。荧光分子可以通过T4 DNA连接酶容易地与相应的DNA分子末端结合。通过对不同的DNA分子和引物重复此过程,可以实现将不同的DNA文件和数据索引多次记录到单个引物盘中(图b)。在QR-code索引的指导下,通过原位固相PCR和随后的测序复制足够的DNA拷贝来实现DNA数据读取(图c)。当需要读取引物盘上的文件时,通过荧光扫描QR码点阵获得文件的索引信息,然后用相应的引物原位扩增DNA。对DNA进行测序并解码后,即可获得数据。这种阅读方法允许随机和多次访问所需的特定数据,而不会丢失信息。总之,使用该策略,DNA数据可以追加写入、多次读取和随机访问。
图1 基于引物盘的多次写入多次读取的DNA信息存储系统流程图
实验结果
DNA在引物盘上的多次固定
首先,研究团队设计了引物盘。引物盘是通过将特定的引物共价连接到玻片上而形成的。为此,用对苯二异硫氰酸酯处理氨基修饰的载玻片,以在表面修饰异硫氰酸酯基团。随后将特定的氨基修饰的引物固定在异硫氰酸酯修饰的载玻片上,形成引物盘,并对其结合引物的密度、特异性结合的能力做出探索。实验结果表明,DNA以2mM的浓度有效连接在盘片上,并具有极高的特异性(图2a-c)。
随后,团队在异硫氰酸酯载玻片和引物盘上多次固定DNA分子,模拟追加写入的过程。在盘片上固定DNA后,使用PCR原位复制DNA分子并进行qPCR分析DNA的量(图2d-e)。
qPCR数据显示,异硫氰酸酯玻片上不能实现DNA的多次固定,而在引物盘上,DNA分子可以被稳定多次固定,为后续DNA信息的多次写入奠定了基础。
图2 引物盘的构建及DNA在引物盘上的多次固定
荧光点阵作为索引信息的多次写入
研究团队采用喷墨打印的方式将T4 DNA连接酶和荧光DNA分子以液滴点阵的方式打印到引物盘上,形成二维码点阵作为索引。通过设计荧光DNA分子,团队实现了较高的连接效率(图3a),并将其浸泡入94℃的水中验证其热稳定性,以确保其在PCR过程中的稳定(图3b)。
为了充分证明其可行性,研究团队在单个引物盘上写入了4个文件,并在每次写入后以喷墨打印的方式打印不同荧光DNA分子,以写入索引信息,使用共聚焦显微镜拍摄并拆分不同荧光点阵。结果表明,经过4次写入后,二维码索引点阵仍可分辨。这些结果表明,荧光DNA可以通过喷墨打印的方式,经T4 DNA连接酶连接到引物盘上的DNA分子一端。
图3 荧光点阵的喷墨打印和索引信息的多次写入
追加写入、多次读取、随机读取
为了验证该存储方案实际的追加写入、多次读取、随机读取功能的可靠性,研究团队设计了标准的写入、读取方案并与存储在溶液中的DNA进行多次读取的比较。研究团队首先将4个文件依次写入到同一张引物盘中,并读取20次(图4a),并使用qPCR检测每次读取时提取的DNA的量(图4b)。经过12次的读取过后,引物盘上的DNA数据没有明显的损失(~1%),而溶液中DNA信息的损失率高达80%(图4c)。
图4 信息的追加写入、多次读取、随机读取
荧光点阵重新写入
另外,考虑到共聚焦显微镜使用光谱技术拆分不同的荧光信号,荧光点阵追加写入的数量将受限于荧光分子的种类。因此,研究团队通过设计荧光DNA分子,使其可以通过限制性内切酶对荧光分子进行切除,并通过喷墨打印T4 DNA连接酶和荧光DNA分子写入新的荧光点阵。实验结果表明,经过限制性内切酶的切除,平均荧光强度的变化具有极高的显著性差异,限制性内切酶可以切除引物盘上的荧光分子(图5a)。
随后,研究团队测试了5个文件的写入,每次DNA信息写入后,打印荧光点阵,使用限制性内切酶擦除点阵,并进行荧光点阵的拍摄。可以看出实际应用中,擦除的过程不会影响再一次的写入(图5c)。在5次写入过后,研究团队对DNA进行测序,并通过DNA覆盖率分析信息的损失,结果表明,经过选择的限制性内切酶不会对存入DNA的信息造成过大的影响(图5d)。
图5 荧光点阵的擦出与重新写入
总结与展望
本文设计并建立了一种基于引物盘的DNA数据存储系统,以解决DNA数据存储面向实际应用的所面临的挑战,特别是DNA数据的追加写入和多次索引读取。该方法使用引物盘实现了DNA信息的追加写入和多次读取,通过喷墨打印技术结合T4 DNA连接酶实现了DNA数据存储系统的随机索引功能。
此外,引物盘DNA数据存储系统涉及喷墨打印技术,并有可能在未来与原位合成步骤相结合,结合测序技术,该技术有望为端到端的DNA数据存储系统的实现提供技术支撑。
参考文献
J. Ma, Y. Yang, B. Pei, S. Mi, Z. Xiong, L. Ouyang, Primer-Disk-Enabled DNA Data Storage System with Index and Record-Many-Read-Many Features. Adv. Sci. 2025, e02367. https://doi.org/10.1002/advs.202502367
论文链接:
https://advanced.onlinelibrary.w ... 1002/advs.202502367
|