網信彩票

科研速遞

古生物學中的人工智能

發布時間:2024-04-09 作者:
來源:
中國科學院古脊椎動物與古人類研究所官網
分享:

4月2日,由中國科學院古脊椎所、成都理工大學及英國、美國古生物學家等合作完成的論文“Artificial intelligence in paleontology(古生物學中的人工智能)”發表在地球科學領域綜合期刊《地球科學評論》(Earth-Science Reviews)。研究團隊全景式地回顧了過去半個世紀人工智能技術在古生物學領域的發展,並且對當下和未來的人工智能古生物學研究作出了展望,這也是領域內首個綜述性研究。


↑ 圖1. 古生物人工智能研究主要事件(橙色)與部分人工智能重要算法與數據集(藍色)時間線


通過構建具有海量參數的模型與龐大的訓練數據集,以深度學習為代表的人工智能技術在過去十餘年中得到了高速發展,目前已在多個領域取得了巨大的進步。在科研方麵,生命科學和地球科學中的各個子領域開始將人工智能技術用於挖掘、處理、分析數據,例如解析蛋白質結構與預報天氣,相比“傳統”方法或手工操作具有明顯優勢。作為生命科學與地球科學的交叉學科,古生物學中的人工智能應用較少。


通過梳理1980年代至今的80餘項使用人工智能技術的古生物學研究,團隊發現大多數研究都采用圖像數據作為輸入(圖2),包括普通光學照片、顯微照片、CT掃描圖像等等,這無疑得益於計算機視覺的快速發展。現有的古生物研究已經事實上進入“多模態數據”時代,多種形式的圖像、圖像衍生的標誌點與輪廓線、形態學描述、地層數據、同位素、光譜等種類繁多的數據已經被用於古生物研究的各個方麵,但是對“非圖像”數據中信息的挖掘和多模態數據中信息的匯總,目前工作開展得還非常有限。


 圖2. 人工智能古生物學研究使用的輸入數據類型、算法、任務、生物類群


在算法方麵,早期研究以依托規則與數據庫的知識係統/專家係統(Knowledge-Based System/Expert System)為主,在90年代後逐漸式微。現有的研究主要使用卷積神經網絡(CNN)和其他機器學習算法(例如支持向量機Support Vector Machine與隨機森林Random Forest),最近提出的以注意力機製為核心的變換器(transformer)架構使用較少。自2017年起,有研究使用在ImageNet上經過預訓練的模型(遷移學習)開展後續工作,這可能代表了古生物學人工智能未來發展的趨勢之一。在自身數據稀缺的情況下,借助較為全麵的大型數據集進行預訓練,甚至使用已經訓練好的模型,之後再根據下遊任務進行微調,從而節約成本。在主流人工智能研究領域,2012年提出的AlexNet開啟了卷積神經網絡的熱潮,2014提出的生成式對抗網絡與2015年提出的擴散模型奠定了生成式人工智能的基礎,2017年提出的注意力機製成為了現在幾乎所有大語言模型的核心,而2018年至今的各種大語言模型已經在諸多領域達到或者超過人類平均水平。由此看來,古生物人工智能研究在算法上與主流研究還存在著大約10年的差距,在未來幾年可以期待多種新技術在古生物領域的落地。


在數據規模上,現有的古生物訓練數據集遠遠不及主流數據集(圖3),2019年提出的有孔蟲圖像數據集Endless Forams 僅僅達到1998年提出的MNIST手寫數字數據集的同等量級(~104張圖像,約101~102MB),即存在著大約20年的差距。最近出現了一些規模超過MNIST數據集的古生物圖像數據集,同時也發表了大量僅僅在數百至數千張圖像上進行訓練的古生物人工智能研究,這既顯示人工智能作為一種技術正在得到更廣泛的應用,也暗示日益降低的模型訓練和部署成本可能帶來了泡沫。2009年發表的ImageNet數據集包含了超過1400萬張圖像(~107,約1TB),目前尚未出現達到類似規模的古生物圖像數據集,而用於訓練超大規模參數模型的數據集在容量上往往可以達到數十TB至PB量級。而且現有的古生物訓練數據集中大多為圖像-分類標簽或圖像-解剖結構分割標簽,對訓練用於非圖像數據的模型並不友好。


 圖3. 人工智能古生物學數據集(藍色)與主流人工智能數據集(橙色)大小對比


古生物人工智能目前主要用於分類任務,另有少數用於圖像識別、圖像分割、預測等。一方麵,分類學或係統發育研究始終是古生物學的核心,將人工智能技術用於分類任務是理所當然的;另一方麵,數據集模態與化石數據來源的限製使得分類任務是目前最為可行的古生物學人工智能任務。大約四分之三的化石數據集是針對有孔蟲、微體化石、或者無脊椎動物;體型較大的脊椎動物和植物化石數據集目前非常有限。


綜上所述,研究人員認為古生物人工智能研究與主流研究在數據集規模上存在大約20年的差距,在算法上存在大約10年的差距,但技術進步有可能在短期內縮短這些差距。


古生物研究的基礎是化石標本,大量研究報道了某件或某幾件化石標本的形態、係統發育位置、地層學信息、以及其他方麵的信息,研究人員將其稱為“標本驅動”的古生物研究,它們構成了古生物學的基礎。但另一方麵,大約100年前出現了對全球馬屬及其近親物種宏觀演化曆史的研究,而20世紀70年代Sepkoski通過手工收集整理化石物種數據,構建了顯生宙生物多樣性曲線;最近也有大量古生物研究基於較大規模的數據集來研究生物的宏觀演化曆史或其他方麵(圖4)。盡管這些研究的基礎依然是化石標本,但並不依靠某件或某幾件特定的化石標本;研究人員將其稱為“數據驅動”的古生物學研究。顯然,很難在“標本驅動”與“數據驅動”兩種研究之間劃出一道涇渭分明的界限,但最近20年隨著越來越多基於較大規模的數據集的古生物研究出現,古生物研究的整體範式是更加傾向於“數據驅動”的,也有研究人員將這類研究稱為“定量古生物學”研究。這種使用定量化方法、數據驅動的研究模式也是目前生命科學與地球科學中共同的趨勢。


最近10年,隨著數據量的增加,大量的古生物研究已經逼近手工處理的極限。在傳統研究的範式下,可以在樣本中繼續增加1個、10個、甚至100個新的標本數據,但是無法實現數據在數量級上的提升。因此迫切需要自動化處理古生物學研究中的大量環節,包括但不限於形態學描述、形態學特征編碼、幾何形態學數據收集、微體化石鑒定、CT圖像分割、組織學切片結構識別等等。過去四十餘年人工智能在古生物學中的發展已經成功地驗證了其可行性,在近期可能會出現更多可以實用的人工智能模型用於工作環節的自動化,由此可以減輕長期以來手工操作中不可避免的巨大時間成本與個人偏見。


 圖4. 兩例“數據驅動”的哺乳動物古生物學研究


最後,研究人員希望通過構建更大規模的訓練數據集與移植前沿算法來獲得更高效的古生物學人工智能模型。以大語言模型和生成式人工智能為代表的新技術目前尚未用於古生物學研究,但通過其他領域的進展和正在開展的研究,這兩項技術將會在極短時間內投入實用(圖5)。但同時我們也需要警惕,隨著生成式人工智能技術的成熟,化石數據的真偽鑒定可能會麵臨更加嚴峻的挑戰,如何避免未經檢查生成的錯誤內容需要更嚴格的監督,在模型訓練階段;在不侵犯版權擁有者權益的前提下收集數據也將是未來古生物人工智能發展的難點。


圖5. 兩例基於生成式人工智能的恐龍複原圖


成都理工大學餘琮煜為論文第一與通訊作者,中國科學院古脊椎動物與古人類研究所王海冰、江左其杲、徐星為論文共同作者。中國科學院自動化研究所、南方科技大學、雲南大學、沈陽師範大學、美國紐約理工大學、英國布裏斯托大學、英國伯明翰大學、瑞典斯德哥爾摩大學、英國自然曆史博物館等國內國際多個單位參與了研究。美國自然曆史博物館古生物部Mark Norell教授與孟津教授對本文亦有貢獻。本研究得到國家自然科學基金委,中國科學院青促會,雲南省“興滇英才支持計劃”、瑞典研究委員會、成都理工大學“珠峰引才計劃”、以及深時數字地球(DDE)國際大科學計劃的資助。


原文鏈接:https://www.sciencedirect.com/science/article/pii/S0012825224000928



來源:中國科學院古脊椎動物與古人類研究所官網

編輯:諸鵬飛

審核:盛捷



附件:

網信彩票