我的系統能刷數學經驗_第301章 真理的啟迪者 三(1)

作者:見習人類觀察員·2個月前

稍微適應了一下升級後的大腦,徐辰估著DeepSeek的論文應該是發出來了。

他開啟電腦,練地登arXiv,輸了關鍵詞。

果然,那篇論文赫然在列。

徐辰在公寓裡下載了這篇論文,仔細研讀了一遍。

論文的核心原理極其驚豔,首擊當前大語言模型(LLM)的肋:現有的Transformer架構雖然過MoE(混合專家)實現了“條件計算”,但缺乏原生的知識查詢機制。

當模型需要回憶一個靜態事實的時候,比如“黎是法國的首都”,它只能過消耗寶貴的注意力機制和前饋網路層去“重新計算”和“模擬提取”。這就像是讓一個頂級數學家去死記背電話號碼,極大地浪費了推理算力。

而DeepSeek給出的解法,正是“條件記憶”。

他們引了一個名為“Engram(記憶印跡)”的模組,將經典的N-gram嵌現代化,實現了O(1)時間複雜度的常數級知識查詢。簡單來說,模型不再需要死記背,而是學會了“查字典”。

MARDMBHUPGmargnEmargnE%52%02U

NMTL-D2VL

remrofsnarTUPGkeeSpeeD調

IA

·

稿

IA

IA

margnEkeeSpeeDUPGMRLS

猜你喜歡

同題材或同分類的其他作品,僅供參考。