首页 > 人工智能 AI探星:在静默宇宙中寻找“灯塔”
AI探星:在静默宇宙中寻找“灯塔”
2017 年 9 月 15 日," 中国天眼 "FAST 之父、72 岁的南仁东先生驾鹤西去,一封邮件最终没有等来回音。
在他去世前 5 天,经澳大利亚帕克斯望远镜验证,确认了 FAST 发现的一颗脉冲星:FAST 脉冲星一号(FP1)。这无疑是 FAST 投入使用一周年之际,一个令人尤为振奋的消息。此前,南老胼胝手足二十二载,带领团队翻山越岭,只为筑成国之重器 FAST。
收到验证消息后,FAST 副总工程师李菂马上给南老发去邮件。据推测,当时南老已因肺癌晚期病情恶化,被转入 ICU。他是否看到这条消息,已无从得知。而 FAST 仍在浩瀚星辰中,探寻着脉冲星——它是恒星的逝去残骸,拥有极强的磁场,被誉为宇宙的灯塔。
2021 年 7 月,FAST 的探星之旅注入了新的力量,腾讯优图实验室,开始以 AI 助力国家天文台,共同检测它接收到的庞杂宇宙信号。在数十亿张信号图中,AI 找到了 22 个脉冲星候选体。今年 9 月 1 日,2022 世界人工智能大会(WAIC),最高奖项 "SAIL 之星奖 " 颁给了这项 "AI 探星计划 "。
优图实验室专家研究员王亚彪说,在以 " 亿 " 计量、起伏的信号中,他能感受到那些万千光年之外、遥远过去的残影,那是在天体经历的生死更迭,在无垠宇宙中,他感到前所未有的渺小与敬畏,他用康德的一句名言形容:
" 有两种东西,我们对它们的思考越是深沉和持久,他们在我们心中唤起的赞叹和敬畏就会越历久弥新,这就是我们头顶浩瀚的星空和心中崇高的道德法则。"
而当人类仰望繁星、求索宇宙时,无可否认的是,AI 已为这趟征途标下了新的注脚。
作者│张吉
那是外星人发出的信号吗?
1967 年夏日,24 岁的约瑟琳 · 贝尔(Jocelyn Bell Burnell)在剑桥读博,自小喜爱天文的她,正守着一座 " 果园 " ——在一座面积达 4.5 英亩、插了 2048 根杆状天线的射电望远镜上,她需要将天线正确连接,以此完成类星体监测。
当年 8 月 6 日,在近 4830 米长的监测图纸中,她惊奇地发现,其中一段不到 5 厘米的曲线,完全无法归类到已知信号。为此,她进行了更为细致的观测记录,11 月底,她得到一系列极其规律、时间间隔为 1.33 秒的等间隔脉冲。起初她猜测,信号来自地外文明,还将其编号为 " 小绿人 1 号 "(LGM-1)——科幻作品中常见的外星人形象。
隔年一月,贝尔和导师安东尼 · 休伊什(Antony Hewish),在《自然》上发表了相关论文,推测这一神秘天体或与中子星的振荡有关。很快,猜想得到天文学家证实,仅 6 年后,为表彰休伊什在射电天体物理学的开创性研究,诺奖颁给了他,贝尔却因其性别与地位,与诺奖失之交臂。
但谁也无法否认,正是 " 脉冲星之母 " 贝尔,在广漠宇宙中,为世人找到了灯塔。
脉冲星,为巨大恒星死亡后的残骸,是宇宙中磁场最强的天体:直径小,但密度极高,仅挖出骰子块儿大小,就有 10 亿吨重。同时,它转得飞快,自转一周,通常只需数秒。且它的自转极其规律,误差仅几千万亿分之一。打个比方,从恐龙时代计算至今,它的误差约为 1 秒。
快速的脉冲星,就如宇宙中的灯塔,能发出无线电、可见光等射线。未来,当人类的星舰驶向太阳系外,即可通过对其周期的监测,掌握自身速度,进而推算出航行坐标。复旦大学计算机科学技术学院副教授、博士生导师池明旻,与国家天文台长期合作 FAST 项目,她形容,地面导航靠 GPS,星际导航靠脉冲星,这也是它未来的重要应用场景之一。
而在脉冲星搜索上,中国天眼 "FAST" 首当其冲。
对于这架口径 500 米、世界最大的单口径射电望远镜,人们常称为 " 大锅 ",却不一定能直观感受到它有多大,FAST 的工程师曾算过,把锅装满水,够全世界 70 亿人每人分 4 瓶矿泉水。
它的灵敏度同样无可匹敌,它观测到的第一颗新脉冲星:FAST 脉冲星一号(FP1,自转周期 1.83 秒,距离地球粗估 1.56 万光年),只用了 52.4 秒,且信号 / 噪声比值(信噪比)是帕克斯望远镜验证时所用 2100 秒观测的 3 倍。坐落贵州平塘县山坳间的 FAST, 即便望不见星辰,依旧能在宇宙大爆炸的亘古残响中,将逝去的创世、毁灭之声化作可被人类 " 聆听 " 的数据。
但难题或许在于,数据实在太多了。
池明旻介绍,国之重器 FAST 承载着多个科研项目,探寻脉冲星仅是其一,FAST 首席科学家李菂为此需要提前申请 " 档期 "。有时监测也就一周左右,但接收到的数据近 500TB,经过图像预处理,生成的图片能达到 3 千万—— 1 亿张——要知道,现今全球社交网络每天上传的图片约 30 亿张。池明旻说,国内曾有不少超算中心找来,愿意提供计算资源,但最终都不了了之," 技术人员不参与,很多东西就没法做。"
图│ FAST 天眼实景
转机出现在一次 " 头脑风暴 "。2021 年始,腾讯优图内部有个会议:AI 在常规应用之外,还能做什么?腾讯优图专家研究员王亚彪回忆,当时还有数字孪生、光计算、AI 材料等各项提议,但他提出的 "AI+天文 " 很快通过。王亚彪自己就是个天文爱好者,一直关注 FAST 的建设、科研进展,也清楚天文对 AI 的高度需求。
" 有史以来从没做过一个项目这么快。" 腾讯优图研究总监汪铖杰说,通过池明旻教授牵线、沟通,他与 FAST 首席科学家李菂聊了两小时,就把项目拍板了。
汪铖杰回忆,李菂一聊起天文," 就像小孩子玩一个东西上瘾 ",刹不住,极其细致、乃至执着地讲解着宇宙信号如何分辨、画图。
与李菂沟通下来,王亚彪确定,短期内不一定有成果,但方法肯定是可行的,他要做的,是和团队优化 AI 模型,在浩瀚星辰投下的亿万张静默影像里。再次找到那段专属灯塔的信号。
AI 探星的第一步,是重新处理纷杂的宇宙信号。
池明旻解释,判定短周期脉冲星,被噪声淹没的原信号经过快速傅里叶变化、消色散、盲搜周期然后进行周期折叠后,可获得时间 - 相位 - 频率 3D 图,为了方便察看和处理,通常将其转为 2D 的时间 - 相位图、时间 - 频率图等,这个过程即预处理。它是天文领域的难点之一,如何加速,正是 AI 一展身手的机会。
为此,腾讯提供了几十台 GPU 服务器,24 小时不间断运行。王亚彪说,对于单脉冲搜索任务,原有的预处理代码太慢," 可能发现一颗脉冲星需要一两年的时间。" 且代码不适配云计算服务器,需要重新优化。
图│全天区脉冲星分布图
汪铖杰回忆,一开始团队还觉得天文学习成本有些高,实际推进却没想象中难。一个算法跑完,召回一些疑似脉冲星图片,池明旻现场就会讲解,以此调整算法模型,屏蔽异常信号。汪铖杰形容,宇宙信号落到图片,就和寻找工业零件上的一条划痕类似,他们需要做的是鉴别划痕的细微差别。"
算法调整完,一套初步的多模态算法就诞生了。池明旻表示,该算法基于脉冲星的多源信息,进行综合判断," 加入 DM 这个滤波木块,比常规基于时间 - 相位图、时间 - 频率图的直接分析,时效性和准确性得到极大提高。" 她举例称,如色散值,它有一个曲线,如果曲线没有峰值,就可直接排除。这项指标此时就能过滤整体数据,提高效率。
图│周期信号图
当然,面对未知的宇宙,AI 也有自己的难题。
AI 学习能力的提升,往往与庞大数据紧密捆绑,但此次用于学习的脉冲星样本,数量也就一百颗左右。" 样本不均衡的问题比较严重。" 王亚彪说,这与优图以往的业务差异很大,数据收集难,样本少,数以亿计的图片都是无效数据。
因此,优图转而采取 " 小样本学习 " 研究方式。根据现有样本,配对更多非脉冲星样本来构建训练模型,增强 AI 在特征抓取、识别上的能力。此外,复旦和优图还尝试了半监督学习和数据扩增:给大量的无标注样本赋予伪标签,并给已知脉冲星数据添加不同程度的宇宙噪声,供 AI 继续 " 深造 "。
池明旻表示,这些 " 半监督学习 " 方式,本质还是回到大数据学习模式," 把模型参数做得更深一点,AI 在特征提取上就会更充分。"AI 的识别能力也会有质的提升。数据显示,相比原有的 AI 筛选模型,多模态 + 半监督方案具有更高的召回率,且误报率下降 98%。
而这建立在优图长时间以来的技术积累。王亚彪说,探星项目启动时,有近两个月时间,他和团队周末几乎无休,想尽快把 AI 算法搭起来,他记得,找到第一颗脉冲星,AI 花了近一个月,当时他恰好在深圳出差,听到消息有些兴奋,但也觉得在预期内,"(找到)只是时间问题。" 之后,团队继续完善算法,让 AI 在多个云服务器上运行得更为稳定。
截至目前,将 FAST 脉冲星搜索速度提升 120 倍的探星计划,已在数十亿张图片中,找到 22 个脉冲星。其中包括在天体物理中具有较高观测研究价值的高速自转的毫秒脉冲星 7 颗,具有间歇辐射现象的年老脉冲星 6 颗。
在池明旻看来,脉冲星的探索,其实充满未知,不能确切给出一个可量化的成果。" 不仅仅需要付出努力,还需要有耐心。" 此次 AI 探星,腾讯优图无疑起了个好兆头,她希望业内也能有更多平台参与天文科研。
眼下,腾讯优图、国家天文台、复旦大学计算机科学技术学院还开启了对 M31 仙女座星系的射电信号处理。M31 在银河系外,距地球 250 万光年,池明旻说,这意味着搜索空间更大。对计算资源的要求也更高。且在银河系外,因为信号非常弱,可能 100 亿张图片里都搜不到一颗脉冲星," 努力之外还有幸运的成分。"
不过," 我们可以预测一下它可能的样子 ",池明旻表示,AI 还有对抗生成式学习方法,通过预测 M31 星系的脉冲星特征,模拟出大量数据供 AI 学习,再与 FAST 对 M31 观测的大量数据比对," 只要找到一颗,就是一个从‘ 0 到 1 ’的突破。"
" 腾讯的本质,就是要去支持难而正确的东西。" 汪铖杰说。
" 工业有产出,学术有影响 "。汪铖杰表示,腾讯优图的定位,就是以产品应用落地为主,兼顾学术影响力。探星计划对社会贡献、科研探索、长远效益是不容忽视的。
探星所要应对的海量数据,对腾讯的云计算力,如提升并行度,机器利用率,提出了更为极致的要求," 这些都是有复用的经验可以沉淀下来 ",汪铖杰说,优图在做的工业 AI 质检相关:质检有效样本的量级也在一百上下,要检出偏小概率的未知产品缺陷,其中的 AI 分类模型,异常检测,小样本技术与 AI 探星都是相通的。
科普的另外一面,也是优图对 "AI for Science" 的探索。他补充说,探星项目之前,他与团队也不确定 AI 如何与基础科学衔接、配合、协作,如今优图已有底气做类似项目," 这实际上是我们朝着自己未知能力边界迈出的一步 "。
天文之外,优图还推进着一项甲骨文探索计划。汪铖杰介绍,这是与 SSV 数字文化实验室的共创项目,通过视觉 AI 对甲骨文进行缀合、摹本,给残缺的甲骨文 3D 建模,助力甲骨文的识别与考释,为专家考古提供更多的破译线索。
图│腾讯优图团队
在王亚彪看来,这种 " 跨界 " 其实注定到来。
王亚彪虽是工科出身,自小阅读兴趣却很广泛,武侠、天文、历史、哲学等人文社科书籍,来者不拒。他常流连于镇里卖书的地摊,买过不少天文彩绘书,其中光学望远镜拍的高清照片,那些深邃宇宙中、恒星地表的细致纹理、质感,令儿时的他深受震撼,只是伴随专业分流,他的注意渐渐集中到自动化算法和系统设计。
工作后与天文再次 " 结缘 ",他不觉意外," 科学发展到今天,越来越精细了,要做出一些成果,需要一些交叉学科的合作。" 他表示,还有很多宇宙信号,优图并未涉足,其中光学望远镜的成像处理,就有很大应用空间,因为原始成像需要经过多次曝光,校准,才能完美出片," 这也是与计算机视觉更加相关的领域。"
汪铖杰表示,腾讯后续还将推出 "TI" 学习平台,此次 AI 探星,其实已在该平台上做了相应实践。FAST 项目能用这个平台,也印证了其他领域,如材料合成,工业、农业有应用的空间。以农业为例,通过 AI 提取农田成像中的黄叶、斑点、等信息,识别潜在的病虫害类型,再结合农业科技人员意见匹配治理方案。
" 确保 AI 的能力能在各行各业用起来 ",汪铖杰希望,通过 TI 平台,将 AI 应用门槛降下来,不同行业的产品,都可以在平台上做各自领域的 AI 技术研发和应用,促进 AI 与实体产业深度融合。
或许,这注定是一场长跑。但它已进入了前所未有的加速阶段,就如在世界人工智能大会上,腾讯云副总裁、腾讯优图实验室总经理吴运声所言:" 随着数字技术与实体经济加速融合,人工智能的发展不再局限于算力、算法、数据等方面的技术突破,而是从行业应用、社会需求的角度逐渐深入,展开一场‘双向奔赴’的范式变革。"
责任编辑:赵龙
文章来源:http://www.anfangnews.com/2022/1111/2400.shtml