日韩一区二区三免费高清,97成人资源,蜜臀久久99精品久久久久久9,一本久久知道综合久久

密碼:

叢斌:生命科學進化帶來的思考


1000116050.jpg

(光明日報 2024年8月17日 第七版)

生命科學的發展進程與自然界生物物種進化過程類似,都是由簡單到復雜,由單一到多樣,由低級到高級。因此,可以把生命科學的發展進程類比為生命科學進化。

目前,全世界范圍內科技領域都存在“三多三少”的現象——科技投入越來越多、論文越來越多、專利越來越多,但顛覆性成果越來越少、原始創新越來越少、專利轉化越來越少。科學技術創新模式面臨挑戰。就醫學科學而言,如何確立醫學領域的前沿科學問題,突破人類的認知邊界,實現“從0到1”的突破,是生命科學進化帶給我們的深刻思考。

科學研究范式的變革

當前,新一輪科技革命和產業變革突飛猛進,學科交叉融合趨勢凸顯,國際科技競爭向基礎前沿轉移。國際學術期刊《科學》在慶祝其創刊125周年時,公布了125個最具挑戰性的科學問題。其中涉及生命科學的問題占46%,關系宇宙和地球的問題占16%,與物質科學相關的問題占14%以上,認知科學問題占9%,其余問題分別涉及數學與計算機科學、政治與經濟、能源、環境和人口等。

這125個科學問題,從基礎科學角度可歸納為三個基本問題,即對物質本質、宇宙起源、生命本質的探索。一旦這些問題獲得突破,將是科學技術革命性的工作,是突破人類認知邊界的重大創新。揭示物質的本質是為了破解能量和物質形成之間的關系和能量聚集成物質(宇宙中63種基本粒子)的過程;研究宇宙的起源是為了破解信息和能量傳遞、轉換的機制,物質傳送速度的機制;破解生命的本質是為了揭示生命物質互作的復雜網絡動態運行機制,為探索決定生命、健康、疾病的分子網絡調控規律提供科學基礎。

基于上述科學問題的導向,科學研究范式急需深刻變革。

科學研究范式是20世紀60年代由美國科學家托馬斯·庫恩提出的。科學研究范式是指從事某一領域研究的科學共同體所共同遵從的信念、理論、價值觀、科研行為方式,是科學工作賴以維持運轉的學理基礎和實踐規范。當原有的范式已不能實現科學理論的實質性突破,甚至是理論之間多有沖突時,科學研究范式就會轉變。2007年,圖靈獎得主吉姆·格雷提出:“信息爆炸迫使科學家必須將實驗、理論和計算機計算統一起來,建立起一種新的科學研究范式,數據密集型的科學發現(Data-intensive Scientific Discovery),即‘第四范式’。研究內容由局部走向系統,方法由單一學科走向學科交叉,范疇由多層分科走向探索共性。”

縱觀人類發展歷史,我們共經歷了四次科學研究范式的轉變。第一范式是實驗科學范式,即基于實驗或經驗的歸納總結(Describing natural phenomena)來發現規律的科學范式,鉆木取火、比薩斜塔實驗、拉瓦錫發現的質量守恒定律等,都屬于第一范式。文藝復興以后,第二范式即理論科學開始備受推崇,它是以理論為基礎開展研究,通過建立數學模型和理論框架(Using models,generalizations)演算、歸納總結,來解釋自然現象的科學范式,代表性研究為牛頓定律、麥克斯韋方程、門捷列夫的元素周期律、相對論等。第三范式是計算機科學范式,即利用計算機仿真模擬復雜自然現象(Simulating complex phenomena),用計算機和AI模擬代替實驗研究、預測結果的科學范式,如量子化學計算分子動力學模擬、天氣預報模擬、核試驗模擬、復雜化學反應模擬等。第四范式是數據密集驅動的范式,即以數據密集和智能驅動研究,發現其中的相關知識和規律的研究范式。這種范式通過實驗、采集數據或模擬器仿真產生數據,建立數據集,采用數據挖掘、降維、升維、機器學習等方法分析計算,預測物質性質、揭示物質互作規律等,獲取之前未知的新知識。

生命科學研究的困惑

今天的科學研究范式已經進展到第四范式,但對生命科學,尤其是醫學科學的研究來講,還大多停留在第一范式,即試圖通過生物學實驗探索一個復雜事物的規律;也很少采用第二范式,很少用數理邏輯表征事物之間的邏輯關系;即便是目前蓬勃興起的元宇宙技術和數字孿生技術,實際上也僅停留在第三范式。要進行未知的生命本質研究,必須將科學研究范式推進到第四范式,而其關鍵就在于大數據的收集。數據和AI有著極為密切的關系,如果把AI比作工具,數據就是生產資料,只有數據的質量和數量達到一定程度,才能被AI工具有效利用。如果原始數據的收集很粗糙,就無法轉換為特征性的數據表征,AI也就不能得出正確結論。

20世紀,生物學從傳統的描述性科學轉變成為假設驅動的實驗科學。與此緊密聯系的是,還原論占據了統治地位,即對復雜生命系統的理解可以通過將其拆解為組成部件并逐個研究。在這種分子生物學“范式”的指導下,試圖通過認識單個基因或蛋白質的結構與功能來闡釋個體的生理或病理活動。然而,細胞內的真實世界并非如此。事實上,我們很難找到真實世界的因果關系,即一個原因必須是一個結果的充分條件。例如,在真實生命的復雜系統中,mRNA表達水平及其翻譯產生的蛋白質豐度之間存在著復雜的非線性關系。

由于慢性病威脅日益增大,現代醫學正進入一個新的轉型時期,有三種主要發展趨勢值得我們關注:一是從簡單性思維的分子生物醫學轉變到復雜性思維的系統生物醫學;二是從基于統計研究證據的循證醫學轉變到關注個體分子特征的精確醫學;三是從以治病為中心的臨床醫學轉變到以健康為中心的健康醫學。

要想實現這幾個轉變,我們需要厘清目前在生命科學領域,尤其是醫學領域亟待解決的基本科學問題。在生命科學領域的研究中,不能僅局限于用先進的觀測手段揭示亞細胞水平或分子水平的微觀結構,因為這些被發現的靜態結構并不能表征生命的微觀動態過程。一定的組織結構必定為執行一定的功能而存在。細胞、亞細胞或分子水平的微觀生命活動,是基于一定的結構存在所表征的結構間系統互作,并以這種互作行使一定功能的時空變化動態過程。這就需要我們一要解析細胞內的空間結構;二要揭示細胞內結構間的網絡化系統互作表征;三要探索細胞內結構間系統互作的網絡化動態時空演變規律。因此,要建立新的范式研究生命科學領域的這三大基本科學問題。

系統生物學撥云見日

系統生物學通過整合經典的分子細胞生物學、新興的生命組學以及信息科學和數學等非生物學科的研究策略和方法,對生命復雜系統及其生理病理活動進行系統性、整體性的檢測和分析。當前,系統生物學已成為生物學研究方法的主流。生命組學變化的多維度研究,可以揭示生物分子間系統性、網絡化、時相性互作的生命活動規律。

系統生物學是一門注重定量研究的學科,不僅注重分子細胞生物學和組學等“濕實驗”(第一范式),也同樣注重信息科學和計算生物學等“干實驗”(第二范式、第三范式)。成功的系統生物學研究應該是“干實驗”與“濕實驗”的緊密結合。

人體細胞內是一個多元異構的網絡化復雜巨系統,要破解上述三大基本科學問題,需要從揭示細胞內復雜表型的發生與發展的動態過程入手。復雜表型涉及DNA、RNA、蛋白質及表觀遺傳等多個分子水平的共同作用形式。由于研究策略和分析方法的限制,既往的機制研究缺乏對不同分子水平組學數據的整合分析,無法實現對復雜表型分子機制的充分解釋。因此,有效整合DNA、RNA、蛋白質、表觀遺傳等多組學數據,不僅可系統揭示復雜表型發生與發展的調控網絡與分子特征,闡釋其復雜分子機制,還有助于確定多組學分子標志物,在推進分子機制研究的基礎上,實現從分子機制理解到疾病診療轉化應用的跨越式發展,為建立風險評估與精準疾病診療模型以及探索有效的監測與預警方法奠定基礎。具體思路如下:

第一步是對細胞內多源異構生物數據分子特征的提取。

高通量技術的發展產生了大量與基因、蛋白質和代謝相關的生物組學數據。從這些多源異構的生物組學數據中發現和提煉與疾病相關的信息,需要借助特征衍生的方法獲取具有高區分性的特征。目前常用的特征衍生方法主要是對現有特征進行線性或非線性的變換,如四則運算特征衍生、交叉組合特征衍生、分組統計特征衍生等。然而,在特征衍生的過程中往往會產生大量無效或者低效的特征。如果把這些冗余特征帶入模型中,會形成維度災難,使建模工作無法在合理時間內有效完成,且冗余信息往往會造成干擾,導致真正有效的信息被掩蓋,模型預測效能降低。通過模式識別中的特征選擇技術,對高維生物組學數據中蘊藏的重要信息進行提取、篩選、識別和分類,也是生物組學數據整合分析的關鍵步驟。編碼器接受原始特征輸入,將原始特征轉換成低維的新特征,解碼器接受新特征并將新特征升維至與原始數據相同的維度,以達到有效數據降維和分子特征提取的目的。

第二步是選擇模型,把降維后的數據帶入模型,針對不同的任務選擇不同模型。

不同模型對于輸入數據的要求不同,因此需要在輸入數據之前對數據進行預處理,若選擇多層感知機和集成學習模型,需要進行多組學數據的表征合并;若選擇卷積神經網絡和圖神經網絡模型,需要進行高維度表征變換。這樣可以將有效特征壓縮并進行低維映射,構建交互調控網絡,對細胞事件進行預測。對于多組學數據的模型選擇,目前并沒有一個金標準,往往需要根據具體任務進行選擇。

值得注意的是,目前所有原生人工智能算法的開發都基于非生命體的工程數據,并不能完全適配以動態時空變化為主要異質性特征的生物類數據。因此,適配人工智能模型的開發和各級分子互作關系數據庫的構建是生物組學數據整合與交互調控網絡解析的關鍵和瓶頸,需要學科交叉進行聯合攻關。

現代生命實驗科學的主要目的是探尋事物之間的因果關系,但從大數據中獲得的生命科學知識基本上是相關性的,而非因果性的。生物體是一個復雜網絡的巨系統,研究者不能控制任何一個生理或病理活動涉及的所有變量。數據驅動的研究不依賴于假設,因而研究者不僅可以避開現存理論的限制,以及對“實驗事實”的主觀性選擇和判斷,還可以利用各種算法對獲得的大數據進行分析,進而發現全新的現象或者事物之間隱藏著的內在聯系。數據驅動的生命科學研究新范式并不追求結果的完備性。它采用的是一種全新的工作模式——迭代(iterate),即每一次研究工作獲得的成果都不是完備的,需要未來研究者在已有版本的基礎上不斷完善并產生新版本,就像人類基因組從研究啟動到今天的幾次迭代不斷完善一樣。知識就像“未知海洋”中的“島嶼”,隨著“知識島嶼”的擴大,“未知水域”同樣也在擴大。不斷拓展人類認知邊界的挑戰在于此,探索未知的樂趣也在于此。

(作者:叢斌,系全國人大憲法和法律委員會副主任委員、中國工程院院士)

主站蜘蛛池模板: 奈曼旗| 富川| 邹城市| 资兴市| 克什克腾旗| 博白县| 长治市| 灵宝市| 全椒县| 武城县| 象州县| 盐源县| 合山市| 霍山县| 涟水县| 山东| 沙坪坝区| 西峡县| 莆田市| 临朐县| 泰宁县| 仁寿县| 会泽县| 白沙| 册亨县| 安仁县| 句容市| 苏尼特右旗| 莱西市| 栾川县| 绥滨县| 丹棱县| 兰考县| 和硕县| 兰考县| 岐山县| 新野县| 长海县| 苍南县| 南丰县| 故城县|