生命健康科學研究已進入數據密集型大模型時代,而生物數據庫主要由美國國家生物技術信息中心(NCBI)和歐洲生物信息學研究所(EBI)兩個中心領導,中國在這個方面缺乏國際影響力。EBI負責人Rolf Apweiler指出兩個問題:中國缺少一個明確的代表性科學中心可以代表中國接軌國際;中國科學家使用了歐洲生物信息學研究所超過三分之一的資源,但在數據和數據庫維護上缺乏貢獻。黨中央高度重視生物大數據資源發展,提出了國家生物數據中心“1+N”體系建設思路。國家發改委先期聚焦組學數據立項了“1”國家生物信息中心,“N”僅聚焦文獻數據立項了國家生物醫學文獻信息中心,尚缺乏以疾病為核心的系統全面的數據資源。
粵港澳大灣區建設,是習近平總書記親自謀劃、親自部署、親自推動的重大國家戰略,也是我國經濟發展重要區域與對外經貿交流的南大門,GDP超全國總量12%,其中,大健康產業是粵港澳大灣區核心支柱產業之一。通過大數據的匯聚和關聯分析能夠更快、更直接地發現新知識、新機制、新規律,驅動新技術、新成果的快速誕生與產業應用。據文獻報道,以“臨床+多組學”為主的生物醫學數據基礎設施支持了2/3以上FDA獲批的原研藥研發工作,每年獲得巨額產業回報。因此,建設支撐生命健康科學研究與生物醫藥產業創新發展的生物醫學數據節點,既是粵港澳大灣區經濟持續繁榮的必然要求,也是落實粵港澳大灣區國家戰略的重要支撐。
近百年來,對人類生命健康產生深遠影響的重大突發公共衛生事件無一不是由呼吸系統傳染病導致的?;浉郯拇鬄硡^地處亞熱帶,氣候溫和適合病毒傳播,同時還是我國對外經貿交流的南大門,入境人數占全國90%以上,常住人口超8000萬人,是傳染病“外防輸入、內防傳播”的重點區域。在粵港澳大灣區建立支撐呼吸系統傳染病監測預警與快速主動應對的生物醫學數據節點,是及時了解疫情動態、制定科學有效防控策略的必要手段。通過收集并加以整理分析區域內生物醫學數據與境內外呼吸道傳染病的病例數據、病毒基因序列、人體多組學數據、流行病學信息等重要數據,可及時了解全球范圍內呼吸道傳染病疫情的頻發和傳播速度、疫情動態與防控策略,發現疫情的時空分布規律、預測疫情的爆發趨勢,為公共衛生防控決策提供決策支持和科學依據,最大程度地保護我國人民群眾的健康安全。
因此,廣州國家實驗室作為國家戰略科技力量,以解決新發突發病原重大疫情預測預警、呼吸系統疾病及其防控領域關鍵核心為己任,有意愿、有能力承建與長期運行國家生物數據中心體系粵港澳大灣區節點,助力我國生命健康科學研究與生物醫藥產業高質量發展。
在廣東省廣州市的支持下,廣州國家實驗室開展了前期工作,在軟硬件、數據資源和管理模式上已形成完善的小試到中試的技術能力,獲得了一系列初步成果,并具備清晰可落地的技術和市場轉化服務路徑。比如自主研發了支撐大規模算力資源管理、智能工具開發與集成、大模型驅動到跨平臺資源共享的市場化工業軟件系統—“生物醫學大數據操作系統(Bio-OS)”;接入了50萬余全球人類基因組數據集、10000余算子鏡像;匯聚了15PB數據;建成了27億參數垂直領域大模型;啟動了百萬呼吸健康人群隊列研究,以及生物醫學科研與數據治理大模型建設;與全國近1000家醫院達成戰略合作協議,與多所港澳科研機構建立戰略合作關系;建設了5年可產出約400PB高質量多組學數據與基礎實驗數據的全鏈條科研平臺。
建議充分發揮國家實驗室“總平臺總鏈長”作用,以及廣州國家實驗室在生物醫藥領域深厚積淀,建設面向呼吸系統疾病領域的“國家生物數據中心體系粵港澳大灣區節點”。