sangharsh-lohakare-Iy7QyzOs1bo-unsplash

针对于生命科学行业的数据智能存储模式

生命科学行业用户的基因数据文件历史归档存储管理

随着基因测序技术和测序市场的不断发展和成熟,基因测序对于普通百姓来讲也不再是一个完全陌生概念,应用领域从生育健康发展到遗传病诊断,再到肿瘤基因早筛和个人基因组测序。同时,测序市场规模近年来也呈现爆发式增长,据中商产业研究院推测,2022年中国基因测序行业市场规模将突破150亿元。

 

在基因检测领域,对于采集的基因样本进行数据分析和处理需要大量的计算资源。目前采用最多的二代测序NGS技术,极大的提高了测序的通量,大大降低了测序成本和周期。其中Illumina公司凭借超低的测序成本和可以接受的读长,成为了目前最主流的二代测序公司,其测序成本近五年来从几千元1G(1G即10亿碱基)降到了到今天的40元左右的1G数据量。从测序原理可以知道,整个基因测序过程简单地理解就是先将基因样本打碎,然后重新拼接还原的过程。这个过程中基因组De novo测序,转录组、小RNA、LncRNA、circRNA测序,DNA甲基化测序,高密度遗传图谱,大规模GWAS关联分析等等实验手段得到了广泛的推广应用。二代测序技术虽然通量很高,成本低廉,但是读长实在太短,主流的Illumina测序仪,常规模式只能测PE150的长度,靠着软件算法上的进步才得以可用。

 

由此,我们不难理解,基因测序工程动辄需要数万/数十万个基因测序及模型建立,需要多大的计算和存储资源;国内某机构每天产生的数据量达到了300TB至600TB。

 

生命科学客户数据需求

生命科学行业的上、中、下游链条较长,基本上没有一个厂家可以覆盖整个上下游,厂商之间需要合作,从原始样本、测序仪数据产生、数据分析、终端应用等需要在多个机构或组织中流转迁移,且经常需要GB/TB级大文件数据;其次,生命科学行业部分原始样本数据、部分结构数据、数据集需要长期保存。其所面临的最大痛点即在于:数据增长快,存储费用高,管理困难;长期保存可靠性难保障;元数据管理混乱,数据清理困难。

 

为此,璞素专门推出了针对性的生命科学类数据智能存储系统,架构如下:

此外,我们还可以借助璞素独有的磁带云归档平台,打造云归档生态,实现基因数据文件的统一归档管理。

与传统的企业自建冷数据归档管理系统相比,以“服务模式”提供的磁带云数据归档管理系统的优势体现在以下几个方面:

 

首先是运维优势,冷数据的长久存储管理由分散到集中,所有的设备、设施都可集中部署、集中管控,让企业用户可以实现冷数据长久存储的免维护。将复杂的数据管理、设备运维工作交由专业团队负责,让客户可更专注他们的应用和业务。部署后,企业冷数据的存储管理工作都可推给归档存储设备和软件来自行完成,客户方运维人员只需关注一下最终结果,而无需关心冷数据的归档过程。

 

其次是成本优势,因为是基于“云”并采用“服务模式”,因此企业冷数据归档存储所需的存储资源可按需申请,可充分满足客户冷数据存储相关业务的实时性需求。同时针对企业用户的冷数据存储需求,可采用按订阅付费,可让企业避免预先资金占用,按使用量付费。