天文學(xué)的核心在于數(shù)據(jù)。隨著我們對宇宙的理解愈發(fā)深邃,我們掌握的信息也越來越豐富。而下一代天文學(xué)研究的核心挑戰(zhàn),就在于如何充分研究我們收集到的這些數(shù)據(jù)。
為了應(yīng)對這些挑戰(zhàn),天文學(xué)家們開始轉(zhuǎn)向機器學(xué)習(xí)與人工智能(AI),希望借此構(gòu)建新工具并快速尋求新的重大突破。而AI科技也正通過以下四種方式為天文學(xué)家提供助力。
1、發(fā)現(xiàn)星球
發(fā)現(xiàn)一顆行星可以通過多種方式,但成功率最高的靠譜方法還是對凌日現(xiàn)象的研究。所謂凌日,就是當(dāng)某顆系外行星從其繞行的恒星前面經(jīng)過時,必然會阻擋到我們所能觀察到的光。
通過觀察系外行星的不同軌道,天文學(xué)家們構(gòu)建起凌日圖像,并借此識別目標(biāo)行星的實際特性——例如其質(zhì)量、大小以及與恒星間的距離。NASA的開普勒太空望遠鏡就利用這項技術(shù)取得了巨大成功,能夠同時觀測數(shù)千顆恒星并密切關(guān)注各自行星產(chǎn)生的凌日現(xiàn)象。
當(dāng)行星運行至所圍繞恒星前面時,我們會看到光線減弱,這就是所謂凌日現(xiàn)象。
天文學(xué)家能夠準(zhǔn)確觀測到凌日現(xiàn)象,但相關(guān)技能需要一定時間進行培養(yǎng)。隨著人們越來越多地致力于尋求新的系外行星,單憑人力已經(jīng)很難跟上NASA過境系外行星調(diào)查衛(wèi)星的捕捉速度。在這方面,AI技術(shù)正好有機會大顯身手。
將時序分析技術(shù)——將數(shù)據(jù)作為時間序列進行分析——與AI技術(shù)相結(jié)合,能夠以高達96%的準(zhǔn)確率成功識別系外行星信號。
2、引力波
時序模型不僅適用于尋找系外行星,同時也能有效跟蹤到宇宙中最具破壞力的災(zāi)難性信號——黑洞或中子星的坍縮。
當(dāng)這些密度極大的天體內(nèi)陷收縮時,會在時空當(dāng)中產(chǎn)生巨大的引力漣漪,人類則可通過測量地球上出現(xiàn)的微弱信號檢測到這些漣漪。引力波探測器合作公司Ligo及Virgo已經(jīng)在機器學(xué)習(xí)的幫助下,成功識別出數(shù)十次這類事件的發(fā)生。
借助黑洞坍縮模擬數(shù)據(jù)訓(xùn)練出的模型,Ligo和Virgo團隊能夠在事件發(fā)生的瞬間將其發(fā)現(xiàn),并向世界各地的天文學(xué)家們發(fā)出通報,引導(dǎo)他們及時將望遠鏡指向正確的方位。
3、多變的天空
目前智利正著力建造的維拉魯賓天文臺一旦正式上線,將能夠每晚測量整個夜空并一次性收集超過80TB的圖像數(shù)據(jù),全面觀測宇宙中各恒星及星系如何隨時間而變化。順帶一提,1TB代表8,000,000,000,000比特。
根據(jù)運營計劃,未來維拉魯賓天文臺將收集并處理高達數(shù)百PB規(guī)模的數(shù)據(jù)。作為參考,F(xiàn)acebook上全部圖像存儲所占的全部空間約為100PB,換算成全高清視頻長度約為700年。
很明顯,如此龐大的數(shù)據(jù)總量恐怕無法登錄服務(wù)器進行下載;即使下載完成,也無法快速完成內(nèi)容查找。
機器學(xué)習(xí)技術(shù)將幫助我們搜索數(shù)據(jù)內(nèi)容并凸顯其中的重要信息。例如,算法可能會在圖像中搜索到罕見事件,例如超新星爆發(fā)(即恒星生命周期結(jié)束時產(chǎn)生的劇烈爆炸),或者尋找到新的類星體。通過訓(xùn)練計算機識別出特定天文現(xiàn)象的對應(yīng)信號,該團隊希望能更高效地將正確數(shù)據(jù)交付給正確的研究人員。
4、引力透鏡
隨著我們收集到的宇宙數(shù)據(jù)越來越多,研究人員有時候被迫整理并丟棄掉一部分無用的數(shù)據(jù)。那么,我們該如何甄別哪些數(shù)據(jù)有價值、哪些信息可以直接清退?
目前眾多天文學(xué)家都高度關(guān)注著一種重要天體現(xiàn)象——強引力透鏡。具體來講,當(dāng)兩個星系沿著我們的視頻排列時,距我們較近星系的引力就會發(fā)揮引力透鏡作用,對較遠星系的活動進行放大——由此產(chǎn)生包括環(huán)狀、十字及重影圖像。
但要找到這些圖像如同大海撈針——在這片可預(yù)測宇宙的海洋中尋找寶貴的一瞬。我們收集到的星系圖像越多,搜索難度也將隨之攀升。
2018年,來自世界各地的天文學(xué)家們共同參與一項強引力透鏡挑戰(zhàn)賽,各方開展激烈競爭、希望看看誰能設(shè)計出自動找到這類透鏡的最佳算法。
這項挑戰(zhàn)的獲勝者采用一種名為卷積神經(jīng)網(wǎng)絡(luò)的模型,該模型會學(xué)習(xí)使用不同的過濾器拆分圖像內(nèi)容,直到準(zhǔn)確將其分類為是否包含透鏡效應(yīng)。令人驚奇的是,這些模型甚至比人類表現(xiàn)還要好,神經(jīng)網(wǎng)絡(luò)確實能夠發(fā)現(xiàn)人類難以留意的某些圖像細節(jié)與微小差異。
在未來十年當(dāng)中,天文學(xué)家將使用維拉魯賓天文臺等新儀器收集數(shù)以PB計的數(shù)據(jù),即數(shù)千TB。隨著我們探索宇宙的腳步不斷邁進,機器學(xué)習(xí)技術(shù)也將成為天文學(xué)家們研究工作中必不可少的重要依托。