中国科学院上海天文台团队利用人工智能在天文大数据应用研究领域取得突破性成果

发布时间：2024-05-15 | 【大中小】

发布时间：2024-05-15 | 【大中小】 | 【打印】【关闭】

近日，由中国科学院上海天文台葛健研究员带领的国际团队通过人工智能的深度学习方法对国际斯隆巡天三期释放的类星体光谱数据进行了微弱信号搜寻和数据分析，发现了极其稀少的107例宇宙早期星系内的冷气体云块成分的关键探针中性碳吸收体。研究团队分析发现，早在宇宙约30亿年的演化早期（目前宇宙的年龄已有约138亿年），这些携带了中性碳吸收体探针的早期星系已经过了快速物理和化学演化进入介于大麦哲伦矮星系和银河系之间的物理和化学演化状态。本次工作的研究方法与成果对探索星系如何形成和演化提供了新的研究方式，也充分显现了人工智能在天文海量数据中探寻微弱信号的广泛应用潜力和前景。相关研究成果于2024年5月15日发表在国际天文学顶级期刊《皇家天文学会月报》（MNRAS）上。

艺术家的想象图（Credit：月尘衣）：大量的早期宇宙的类星体发射的光被地面的斯隆巡天望远镜接受产生了大量的类星体光谱。受训过的人工智能深度神经网络在这些类星体光谱数据中搜寻首次发现破纪录的经过早期星系冷介质产生的关键性的微弱中性碳吸收线探针。

研究冷气体和尘埃对理解星系形成和演化至关重要。首先，冷气体主要由分子（H2）和原子（HI）形态的氢组成，是恒星形成的原料。通过观察这些冷气体成分，天文学家可以追踪恒星的“燃料”，并理解星系如何随时间积累物质。尽管尘埃在星系总质量中只占很小一部分，但它在星际介质（ISM）中却发挥着重要作用，通过吸收、散射和重新辐射恒星光，影响ISM的热平衡和化学性质。尘埃粒子还是分子氢和其他复杂分子形成的催化剂，进一步影响恒星形成率和恒星的初始质量函数。此外，通过观测和研究冷气体与尘埃的分布和运动性质，天文学家可以推断星系的动力学，包括气体流入和流出、气体与星系际介质（IGM）的相互作用，以及来自恒星与活动星系核的反馈机制。因此，研究冷气体和尘埃为天文学家们理解星系从“最初组装”到恒星形成时期的剧烈变化，再到演化后期的整个星系生命周期提供了关键手段。

而想要研究冷气体和尘埃，就需要探针。由于早期宇宙的星系离我们太遥远，我们无法将星系自身发的光作为探针来观测并研究冷气体和尘埃。然而，宇宙中比星系要亮百倍以上的类星体所发出的光在经过宇宙早期星系时会被其中的气体和尘埃吸收，产生类星体的吸收光谱。其中，中性碳的吸收光谱可以帮助天文学家准确跟踪冷气体云快，因此，中性碳吸收体成为研究星系形成和演化的重要探针。

由于中性碳原子基态的精细结构能级差别很小，在1986年美国天文学家David Meyer首次使用中性碳的吸收线作为宇宙温度计测量了早期宇宙微波辐射的温度，检验了宇宙学大爆炸理论的正确性。但由于这种中性碳吸收线非常微弱且极其稀少，在国际斯隆巡天于2009年释放大量类星体光谱数据前，天文学家很难发现中性碳吸收体，也因此很难借助它们来跟踪和研究早期星系的冷气体云的物理与化学特性和过程。一直到2015年，在欧洲由Cédric Ledoux研究团队首次在斯隆早期释放的数万个类星体的光谱数据中通过传统的相关性方法搜寻并发现了66个中性碳吸收体，是当时获得的最大样本数。

由于这些中性碳吸收线的信号微弱且极其稀少，需要在海量的类星体光谱数据中才能找到，这就如同大海捞针。使用传统的搜寻方法需要耗费大量时间，同时找到的假信号也会多，又很容易漏掉一些微弱信号。这就需要全新的搜寻方法来解决这些技术问题，以便在斯隆后期释放的更多数据中找到更大的样本数来研究中性碳吸收体这类探针的特征，以及使用中性碳吸收体探针来获得早期星系冷气体云块中的物理与化学过程等。

为了解决在斯隆类星体光谱的海量数据中搜寻中性碳吸收体探针的耗费时间、灵敏度和完备度等问题，中国科学院上海天文台葛健研究员带领一个国际团队通过使用人工智能的深度学习方法，设计神经网络，生成基于实际观测的中性碳吸收线特征的大量仿真样本去训练深度学习神经网络，并使用这些被“训练好”的深度学习神经网络在斯隆巡天三期释放的数据中搜寻中性碳吸收体。通过这样的方式，研究团队很快发现了极其稀少的107例宇宙早期星系内的冷气体云块成分的关键探针——中性碳吸收体。本次获得的样本数是此前获得的最大样本数的近两倍之多，并且成功探测到了更多比以前更微弱的信号。

“此前已知的中性碳吸收线的样本数很小，无法直接使用这么少的样本对深度学习神经网络进行充分训练。”葛健指出，“与此同时，需要探测的两条中性碳特征吸收线不仅微弱，还分布在诸多的强吸收线中间，神经网络很容易在训练中被强吸收线误导，产生训练偏差，从而影响到探测出真正的中性碳特征吸收线的灵敏度。”于是，研究团队采用了创新的方法，首先把这两条中性碳特征吸收线各自附近没有强吸收线的光谱数据截取出来，放在一起产生一个人工创造的“双线”，然后根据这双线的关键特征参量（如深度，宽度，形状和位置）的测量数值获得这些参量的数值分布，再使用这些特征参量生成数百万个人工“双线”信号并注入10万个斯隆观测的类星体光谱中，形成与真实吸收线没有任何区别的仿真信号来充分训练深度神经网络，使之学习吸收线的所有特征。为了提高探测灵敏度，研究团队有意增加了低信噪比样本的训练。这样的训练，使深度学习神经网络的探测精度达到了99.8%，探测完备性也显著提升了约30%，达到了99%的完备性。研究团队指出，这种人工智能的训练和搜寻方式大大缩短了搜寻时间，提高了探测灵敏度和对微弱信号探测的完备性。

找到金属吸收线的中性碳吸收体可以提供一个研究星系和宇宙的演化的强大的工具。这些吸收体的谱线能够提供有关早期宇宙中星系内星际介质的化学成分和金属量的信息，帮助天文学家去追踪化学成分富集过程和化学演化的历史。这些吸收体还可以追踪尘埃形成和属性，提供星系中加热和冷却气体过程的理解以及如何促进分子的形成等。这些谱线的强度和恒星形成率与星系历史有关，因此可以有效追踪星系的演化过程。

发现了这么多冷气体的中性碳吸收体，研究团队把这些光谱叠加到一起，极大提高了探测各种金属元素丰度的能力，并能直接测量尘埃吸附导致的部分金属丰度缺失。结果表明，早在宇宙只有约30亿年的年龄时（宇宙的现在年龄为约138亿），这些携带中性碳吸收体探针的早期星系已经过了快速物理和化学演化，进入了介于大麦哲伦矮星系和银河系之间的物理和化学演化状态，大量的金属产生，同时部分金属被吸附到尘埃上，产生观测到的尘埃红化结果。这一发现独立验证了近期詹姆斯·韦伯太空望远镜首次在宇宙最早的恒星中探测到类似钻石的碳尘埃的新发现，预示部分星系的演化比预期要快得多，挑战现有的星系形成和演化模型。区别于詹姆斯·韦伯太空望远镜通过星系发射光谱来研究，本次工作中，研究团队通过观测类星体的吸收光谱来研究早期星系，这将为未来宇宙和星系早期演化研究提供一个全新而强有力的研究手段，以及与詹姆斯·韦伯太空望远镜相互补的研究方式。

葛健表示：“本次工作的突破性发现是人工智能在天文大数据领域应用的一个里程碑。要想使用人工智能在海量的天文数据中‘挖’到重大新发现，就需要发展创新的人工智能算法，使之能快、准、狠——即快速、准确、完备地探寻到这些很难在传统方式下找到的稀少而微弱的信号。”

研究团队期望能够将本次工作中的创新手段-——人工“双线”法——进一步推广到在各类光谱中，使用人工“多线”来高效训练和搜寻微弱光谱信号，也将推广到图像识别中把多个相关结构截取出来放在一起产生人工“多结构”图像来高效训练和搜寻微弱图像信号。葛健指出，这一创新方法具有在多领域图像识别以及微弱信号探测中巨大的应用价值和潜力，同时在本次工作中使用大量仿真数据训练深度神经网络的方法也可以拓展使用人工智能搜寻稀少微弱信号的发现空间。“在无法获得大量的实际观测数据时，我们可以通过充分认识需要搜寻的信号特征，然后人工生成具有这些特征的大量仿真信号来训练深度神经网络，这样我们就不再依赖以往有限的认知来发现宇宙新现象，”葛健展望道，“这将为未来在海量的天文数据中‘挖掘’到新的信号和物理规律的大发现提供非常有效的手段。”

论文链接：https://academic.oup.com/mnras/article/531/1/387/7671017

科学联系人：葛健，中国科学院上海天文台

附件下载：

《天文学进展》

《中国科学院上海天文台年刊》