L'anguille et le chat (鰻與貓): 基因功能不應被視為固定的標籤，語言學啟發：從「關係語義」到「分布語義」

Tuesday, January 20, 2026

認識基因：基因功能的分布假說

Kwon et al.,(2024) Knowing a gene: A distributional hypothesis of gene function (2024) https://doi.org/10.1016/j.cels.2024.04.008。

提出一個新穎的觀點：基因功能不應被視為固定的標籤，而應被理解為跨越不同細胞背景（Cellular contexts）的分布。這項提議深受自然語言處理（NLP）領域中「分布語義學」發展的啟發。

大綱與核心內容：

一、現狀與挑戰：傳統基因功能研究的侷限

• 功能定義的瓶頸：目前分子生物學旨在鑑定基因序列的功能，通常將其描述為生物知識圖譜中的一條邊（例如「基因 A 是通路 B 的成員」）。

• 現有方法的缺點：

1. 速度失衡：基因序列發現的速度遠快於功能解密的速度。

2. 路燈效應（Streetlight effect）：研究往往偏向於已知且易於實驗的複合物或通路。

3. 忽略生物背景：基因功能取決於細胞狀態，同一個基因在不同細胞或不同刺激下可能扮演完全不同的角色。

4. 本體論（Ontology）的限制：如基因本體論（Gene Ontology, GO）雖然提供了層級化結構，但通常不指定動作發生的時間、地點或背景。

二、語言學啟發：從「關係語義」到「分布語義」

• George Miller 的觀點：1990 年代語言學家 Miller 意識到，僅靠「關係語義」（如 WordNet 中的「是一個」關係）無法區分具有多重含義的詞彙（多義詞）。

• 分布語義學（Distributional Semantics）：主張「透過詞彙周圍出現的詞來認識該詞」。詞彙的含義可以從其出現的語境（Sentence context）中經驗性地推導出來。

• 現代語言模型的成功：從早期的詞向量（Word Embeddings）到現代的大型語言模型（LLM，如 GPT），皆是利用上下文來捕捉複雜的語義特徵。

三、詞彙與基因之間的「奇妙平行」

語言系統與生物系統在多個層面上的相似性：

1. 層級組織：字母/核苷酸 → 單詞/基因 → 句子/蛋白質複合物 → 主題/功能模組。

2. 動態演化：詞彙語義會隨時間產生「語義漂移」，基因則會產生「遺傳漂移」或「新基因誕生」。

3. 擾動研究：語言學使用「完形填空」（Cloze test）測試理解，遺傳學則透過「基因敲除」（Gene knockout）觀察表型變化。

4. 數據爆炸：數位文本庫與基因組學、蛋白質組學等大規模生物數據集（如 GTEx, TCGA, DepMap）同樣具備高維度與稀疏性。

四、核心提議：基因功能的分布假說

• 轉向向量表示：提議不再將基因映射到固定的功能分類，而是直接從生物數據中學習基因功能的分布表示（Vector representations）。

• 潛在變量（Latent Variables）：在訓練模型中，基因被映射到一個潛在空間的向量。這些潛在變量可以被解讀為「生物過程」或「通路」，類似於語言模型中的「主題」。

• 納入細胞狀態：強調**背景（Context）**的重要性。同一個基因在不同組織或發育階段的分布，定義了其完整的功能譜。

五、實施路徑與未來展望

分階段的倡議來建立新的範式：

1. 第一階段：語料庫策劃。整合大規模且處理一致的生物數據集，涵蓋基因與其在不同背景下的關係。

2. 第二階段：自監督學習目標。推薦使用語言建模或對比學習等目標，並建立評估基準。

3. 第三階段：大規模預訓練。在更廣泛的功能任務上訓練模型，捕捉複雜的相互關係。

4. 第四階段：跨學科驗證。與實驗學家合作，生成新的功能測量數據來測試模型的預測能力與通用性。

總結來說，這篇文章主張利用變換器（Transformer）技術與自監督學習，將生物學研究從靜態的描述轉向動態的、基於數據驅動的分布模型，以更全面地理解生命的語言。

L'anguille et le chat (鰻與貓)