你好,游客 登录
背景:
阅读新闻

生命科学领域的“超存”挑战:数据如何存储100年?

[日期:2019-12-26] 来源:企业网D1Net  作者: [字体: ]

  

      大咖介绍:(从左往右)

  宋家雨,Dostor存储在线总编辑

  谢长生,华中科技大学武汉光电国家研究中心教授

  曾文君,深圳国家基因库生物信息数据库主任

  孙 斌,浪潮存储产品线副总经理

  正文:

  近日,在DOIT存储峰会上,浪潮存储产品线副总经理孙斌、华中科技大学武汉光电国家研究中心教授谢长生、深圳国家基因库生物信息数据库主任曾文君,共同就基因研究带来的数据存储挑战接受了媒体采访。

  基因库建设对于社会发展具有重要意义,而基因库的背后承载的是海量的数据存储。2019年是国家基因库建成的第3周年,现已具备88PB数据存储能力、691万亿次/秒计算能力。截至目前,国家基因库支持着国内外600多个项目,那么在技术上如何同时满足这些业务的需要?基因库数据有哪些不同的特征?基因数据在数据存储、数据保护和数据迁移上面临着哪些技术挑战?让我们听听大咖的解答。

  宋家雨:基因是一个特别热的话题,它使人类在消病延年的路上不断向前推进,在生命科学基因研究领域,有什么样的应用?对存储提出怎样的需求和挑战?

  深圳国际基因库生物信息数据库主任 曾文君

  曾文君:BT(生物技术)的发展拉着IT在走,在生命科学领域,有个词叫“超存”,因为对存储的要求非常巨大,远超对算力的要求。

  一个人的基因组,它的原始大小大概是3个GB左右,包含了30亿个碱基,由A、T、C、G四个碱基对组成的。在全基因测序过程中,为了保障基因数据的完整性,需要平行测序30次,当最终测序完成后,全基因组数据将达到大概100GB左右,只仅仅是一个单体,可想而知在广泛的人口中,这是一个非常庞大的数据量。

  整个基因分析研究,分为基因测序、基因数据分析和基因数据归档三个阶段。其一,基因测序的整个过程是不允许被中断的,这就要求支撑测序应用的存储系统,具备极致的稳定性和可靠性;另外,基因测序25微秒采集一幅高清晰图像,对性能要求也超过了现有闪存固态盘的颇高带宽,须采用更快的傲腾固态盘;其二,基因数据分析工作中,对存储系统的性能、小文件处理能力提出很高要求;其三,在数据归档阶段,需要将海量基因数据长期、完整、安全的保存起来,存储系统的采购成本、能耗,是一个很大的挑战。

  总的来说,BT(生物技术)的发展拉着IT在走,数据怎么存、怎么算、怎么长期保存,对IT来说,尤其存储来说,是个非常巨大的挑战。我们知道“超算”,它是对算力的要求,但是在生命科学领域,有个词叫“超存”,因为对存储的要求非常巨大,远超对算力的要求。

  宋家雨:生命科学基因研究背后,面临着海量数据存储和应用的挑战,学术界有哪些新的存储技术趋势?

  华中科技大学武汉光电国家研究中心教授 谢长生

  谢长生:“数据如何存储100年,是个具有挑战性的问题,特别是基因分析研究这种需要长期存储的应用。全息存储、玻璃存储、突破光学的超衍……这些技术,非常值得我们加快速度去研究。”

  计算机和数据专家提出如何避免数字黑暗时代的命题,是指随着IT硬件的失效和软件的过时,很多数字信息在未来可能因为机器和软件程序无法读取而丢失。“数据如何存储100年”,是个具有挑战性的问题。正如现在的基因数据,理论上说应该是永远保存下去的。

  针对这一命题,有三种主流的未来技术。

  首先,最接近产品化的是全息存储技术。用这种技术可以保存50年。全息存储解决了光盘介质容量小、密度低的问题,目前全息存储技术已经可以做到单张光盘存储1.5TB容量,再往后发展,目标是8TB,这样就解决了存储容量的问题。

  其次,玻璃盘技术。5微米可以记一层,2毫米可以记几百层,所以理论上它的容量可以做到很大,一张盘可以存300TB,而且玻璃是很稳定的介质,可以永久保存。

  再次,突破光学衍射极限的超分辨光存储技术。该技术用双光束的方法突破了光学衍射物理极限,将光点缩小到现在的1%。这个技术上已经实现了,比现在光盘面密度提高了100倍,它还可以多层,实现几个数量级的提高。

  这些技术,非常值得我们加快速度去研究,因为存储的需求在那里,特别是基因分析研究这种需要长期存储的应用,在测序时要求存储高性能、高可靠,长期保存时,要求存储大容量、高性价比,所以面对这些挑战,我们有技术正在应对,但是这需要时间的等待。

  宋家雨:面对生命科学领域的海量数据存储和应用需求,浪潮拥有完善的存储产品线,既有分布式存储也有集中式存储,客户到底该如何选择?

  浪潮存储产品线副总经理 孙斌

  孙斌:到底是使用分布式架构还是集中式架构,往往是由客户的应用类型、应用环境和所需要的存储性能、容量、成本、功耗等等这些因素决定的,我们会根据种种需求给出颇适合业务应用的解决方案。

  我们称2019年是新数据时代元年,在新数据时代,需要有与之对应的新存储之道,浪潮会针对不同行业、不同领域和不同客户应用梳理我们的存储解决方案。而生命科学领域,是浪潮非常看重的领域,目前我们的客户包括生命科学研究系统、芯片研究企业、高校等等。

  我们发现生命科学领域所使用的存储的架构,多数是分布式存储,但还有一部分是集中式存储架构。到底是使用分布式架构还是集中式架构,往往是由客户的应用类型、应用环境和所需要的存储性能、容量、成本、功耗等等这些因素决定的,我们会根据种种需求给出颇适合业务应用的解决方案。

  Dostor存储在线总编辑 宋家雨

 

  在新数据时代下,商业、技术、应用、需求等等都在发展和演变,是Scale-up还是Scale-out,没有一个标准答案存在,关键是在于我们要时刻地关注颇新的存储技术发展,然后结合颇新应用需要,把存储能力运用到很好,这就是新存储之道。

收藏 推荐 打印 | 录入:admin | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
热门评论