Tuesday, January 20, 2026

基因功能不應被視為固定的標籤, 語言學啟發:從「關係語義」到「分布語義」

認識基因:基因功能的分布假說
Kwon et al.,(2024) Knowing a gene: A distributional hypothesis of gene function (2024) https://doi.org/10.1016/j.cels.2024.04.008

提出一個新穎的觀點:基因功能不應被視為固定的標籤,而應被理解為跨越不同細胞背景(Cellular contexts)的分布。這項提議深受自然語言處理(NLP)領域中「分布語義學」發展的啟發

大綱與核心內容:

一、 現狀與挑戰:傳統基因功能研究的侷限

功能定義的瓶頸:目前分子生物學旨在鑑定基因序列的功能,通常將其描述為生物知識圖譜中的一條邊(例如「基因 A 是通路 B 的成員」)

現有方法的缺點

    1. 速度失衡:基因序列發現的速度遠快於功能解密的速度

    2. 路燈效應(Streetlight effect):研究往往偏向於已知且易於實驗的複合物或通路

    3. 忽略生物背景基因功能取決於細胞狀態,同一個基因在不同細胞或不同刺激下可能扮演完全不同的角色

    4. 本體論(Ontology)的限制:如基因本體論(Gene Ontology, GO)雖然提供了層級化結構,但通常不指定動作發生的時間、地點或背景

二、 語言學啟發:從「關係語義」到「分布語義」

George Miller 的觀點:1990 年代語言學家 Miller 意識到,僅靠「關係語義」(如 WordNet 中的「是一個」關係)無法區分具有多重含義的詞彙(多義詞)

分布語義學(Distributional Semantics):主張「透過詞彙周圍出現的詞來認識該詞」。詞彙的含義可以從其出現的語境(Sentence context)中經驗性地推導出來

現代語言模型的成功:從早期的詞向量(Word Embeddings)到現代的大型語言模型(LLM,如 GPT),皆是利用上下文來捕捉複雜的語義特徵

三、 詞彙與基因之間的「奇妙平行」

語言系統與生物系統在多個層面上的相似性

1. 層級組織:字母/核苷酸 → 單詞/基因 → 句子/蛋白質複合物 → 主題/功能模組

2. 動態演化:詞彙語義會隨時間產生「語義漂移」,基因則會產生「遺傳漂移」或「新基因誕生」

3. 擾動研究:語言學使用「完形填空」(Cloze test)測試理解,遺傳學則透過「基因敲除」(Gene knockout)觀察表型變化

4. 數據爆炸:數位文本庫與基因組學、蛋白質組學等大規模生物數據集(如 GTEx, TCGA, DepMap)同樣具備高維度與稀疏性

四、 核心提議:基因功能的分布假說

轉向向量表示:提議不再將基因映射到固定的功能分類,而是直接從生物數據中學習基因功能的分布表示(Vector representations)

潛在變量(Latent Variables):在訓練模型中,基因被映射到一個潛在空間的向量。這些潛在變量可以被解讀為「生物過程」或「通路」,類似於語言模型中的「主題」

納入細胞狀態:強調**背景(Context)**的重要性。同一個基因在不同組織或發育階段的分布,定義了其完整的功能譜

五、 實施路徑與未來展望

分階段的倡議來建立新的範式

1. 第一階段:語料庫策劃。整合大規模且處理一致的生物數據集,涵蓋基因與其在不同背景下的關係

2. 第二階段:自監督學習目標。推薦使用語言建模或對比學習等目標,並建立評估基準

3. 第三階段:大規模預訓練。在更廣泛的功能任務上訓練模型,捕捉複雜的相互關係

4. 第四階段:跨學科驗證。與實驗學家合作,生成新的功能測量數據來測試模型的預測能力與通用性

總結來說,這篇文章主張利用變換器(Transformer)技術與自監督學習,將生物學研究從靜態的描述轉向動態的、基於數據驅動的分布模型,以更全面地理解生命的語言

No comments: