云南天文台:基于分布式存储,为天文观测构建新数据底座

美通社 2023-02-24 14:14:11 金融创新

扫一扫分享微信

晴空万里、群星璀璨的丽江高美古,在纳西语中的释义是"天气好、星星多、离天最近的地方"。这里的年平均晴天超200天,视宁度达到世界优良台址的水平,大气洁净透明,抬头可见满天的繁星、清晰的银河,近年来逐步成为国内重要的天文观测站点,逐步成为国内外天文工作者的观测圣地。建设在高美古的中国科学院云南天文台丽江观测站(以下简称丽江观测站),拥有独特的地理环境优势,经过多年的建设,逐步建设完成了2.4米、1.

晴空万里、群星璀璨的丽江高美古,在纳西语中的释义是"天气好、星星多、离天最近的地方"。这里的年平均晴天超200天,视宁度达到世界优良台址的水平,大气洁净透明,抬头可见满天的繁星、清晰的银河,近年来逐步成为国内重要的天文观测站点,逐步成为国内外天文工作者的观测圣地。建设在高美古的中国科学院云南天文台丽江观测站(以下简称丽江观测站),拥有独特的地理环境优势,经过多年的建设,逐步建设完成了2.4米、1.8米、1.6米等多种口径规格光学望远镜和一批小口径的远程/自动望远镜、日冕仪、射电望远镜等科学观测装置,云南天文台的南方天文观测集群已经初具规模。

随着天文观测需求的不断提升,天文观测所产生的观测数据量也越来越大,这也对数据存储和处理提出了更高的要求。为此,丽江观测站采用浪潮分布式存储构建三级数据存储平台,为天文研究乃至今后的数字经济产业研究提供有利的硬件平台支撑。

云南天文台丽江观测站的2.4米光学望远镜
云南天文台丽江观测站的2.4米光学望远镜

天文观测仪器背后惊人的数据需求

丽江观测站拥有多种型号的天文望远镜,包括光学望远镜、日冕仪和射电望远镜,整个观测站的观测能力已经覆盖了从光学到射电的波段范围,每年能开展多项具有国际先进水平的天体物理观测和研究工作。天文领域的科研工作者借助观测仪器设备对星体进行观测,并采集数据以便进一步研究。

近些年随着新的天文观测技术快速发展,观测的广度和精度得到极大提升,让天文工作者更清晰地观测到天文目标,也更准确地验证已有物理模型。与此同时,新的天文观测仪器采集的数据量也有了量级的提升,如丽江观测站正在调试的云南大学1.6米多通道测光巡天望远镜,其中装置了3台大靶面的科学技术CCD相机,每个相机由4片9k*9k的芯片拼接而成,在观测过程中三台相机同时曝光,一次曝光就能产生近1GB的观测数据,一个观测夜的观测数据量近3TB,一年的原始观测数据接近1PB。如何有效地传输观测站众多望远镜观测采集的数据、支撑计算平台高效地分析和处理观测数据、安全存储原始数据和价值数据,给丽江天文观测站的观测数据管理提出了新的需求。

首先,数据性能需求。在数据采集过程中,天文望远镜观测产生的数据,需要通过数据采集程序,实时地完成数据采集、数据预处理、计算、数据存盘等多个任务。数据量根据观测设备数量及型号等因素会有不同,数据采集过程就对存储提出了数GB/s至数十GB/s的带宽需求,以保障数据稳定写入。数据计算过程,作为以数据为驱动的天文观测任务,科研计算平台需要存储集群平台提供数十GB/s聚合带宽的读写能力以保证计算任务并行的高效性。在实现用户数据共享的同时,还要针对不同的用户进行权限控制和配额限制,以实现存储数据的安全高效使用。

其次,数据的长期保存需求。天文观测的原始数据要通过合理的生命周期管理系统进行永久归档保留,数据的自动化迁移归档、数据的安全性、归档数据长期保存成本、存储的易扩展性是数据归档存储考虑的重要因素。

分层存储方案满足不同天文数据的需求

丽江观测站为了满足天文科研工作者对望远镜观测数据的存储和分析处理过程中高带宽存储资源需求,从而满足大量文件的频繁读写,采用了浪潮的计算节点和分布式存储搭建了三级分层的存储资源池,通过浪潮分布式存储高性能节点AS13000G5-H搭建高速存储层提供并行读写能力,满足前端多个计算节点同时在存储上进行数据读写的需求;采用浪潮分布式存储AS13000G5-M系列4U60高密节点提供2PB低速存储空间,用于存储前端回传的观测原始数据以及计算集群计算处理后的归档数据。

浪潮存储
浪潮存储

为天文观测任务提供性能保障

浪潮AS13000G5-H通过私有客户端,能够使接收到的数据并发写入每个数据节点,打破传统存储的单存储节点性能限制,通过RDMA协议,有效降低数据传输过程中的时延,进一步提升传输效率,单存储节点性能可达到GB/s读写带宽。通过并行文件系统可以添加更多的存储节点,性能和容量随节点数的增加而线性增长。

科研项目的阶段性增长可以按需满足、高效运维

为保障天文数据长期可靠保存、弹性扩展的需求,浪潮存储在架构和运维方面进行了创新。

扩展性方面,浪潮存储基于分布式存储架构支持灵活扩展,可随着天文科研项目需求横向扩展,运用独特的扩容算法,在扩容同时可保障业务性能无明显波动,性能与容量随着节点的扩展而线性增长,避免对现有接收业务和科研计算任务读写访问性能造成影响,存储空间可达到EB级别,满足了未来天文观测仪器设备提升的存储增长需求。

在可靠性方面,浪潮分布式存储采用纠删策略,允许多个节点损坏时业务不中断,保证观测任务以及计算任务7x24小时的连续业务访问,保障天文工作者科研项目顺利进行。同时还可搭配InView智能管理平台,对于天文观测海量数据中心的设备进行管理,提供容量、性能、故障等预测性分析等一系列智能化功能,帮助运维人员预防硬件潜在故障,同时降低存储的复杂性和维护成本。

占地260余亩丽江观测站园区里运行的光学望远镜每年都要执行数千次的观测任务,积累大量的原始观测数据,这些观测数据帮助科研工作者取得了大量研究成果,加速中国天文研究的发展。如借助2.4米望远镜光谱观测发现了数十个高红移类星体,不断刷新中国发现类星体的红移记录;通过系外行星的精确视向速度搜寻工作,已经发现若干颗系外行星候选源;擅长搜寻新的凌食系外行星系统的宽视场巡天望远镜(小口径望远镜),帮助科学家们发现了10多颗凌食系外行星候选体以及200多颗其它类型的变源。正在建设的云南大学1.6米多通道测光巡天望远镜,建成后将通过3台相机进行同时曝光的巡天观测,将直接提供星空的"彩色电影"。

未来云南天文台丽江观测站也将在此基础上,不断进行天文学高新技术创新,为天文学的科学应用研究服务提供高质量的观测数据,发挥南方天文观测集群的前沿作用,推动天文领域研究的快速发展,探索宇宙奥秘。

以上内容由品牌方授权数央网转载。2024年,数央网将陆续举办国际绿色零碳节、第十三届财经峰会、第五届国际科创节、第十四届公益节,合作垂询:010-56139250,或关注公众号:数央网。