我的系統能刷數學經驗_第263章 新春座談會 三(1)

作者:見習人類觀察員·2個月前

梁文鋒率先說出了自己的思路,“我的思路是:拆分‘推理’與‘記憶’。”梁文鋒眼神銳利,“給模型加一個專門的‘查表’機制。但問題在於,如何在保持模型微分特的同時,引這種o(1)複雜度的原生記憶?”

這裡涉及到一個極其深奧的數學難題:神經網路的本質是連續函式的近,而“查表”或“檢索”本質上是離散的、不可微的作。在深度學習的梯度下降框架下,你沒法對一個“作”求導。這就象是你試圖在一段平的曲線上強行挖出一個個深不見底的坑,最佳化走到這裡會直接“摔死”,本不知道該往哪個方向走。

徐辰看著梁文鋒畫出的草圖,大腦中關於d-ltn的知識碎片開始飛速重組。雖然他的資訊學經驗只有lv1,但他那lv3的數學直覺卻能準地捕捉到邏輯的斷裂點。

“梁總,我之前在思考的時候,產生過幾個模糊的備選方案。”徐辰接過筆,在紙上劃出三條線,“第一,是構建一個全域的kv-cache事實庫;第二,是嘗試一種‘靜態關聯儲存’;第三,是完全拋棄ebeddg,改用某種可微的雜湊定址。”

梁文鋒盯著這三個選項,陷了長達一分鐘的沉默。

……

“第一種不行,推理延遲會炸,不了。”梁文鋒緩緩開口。

“第三種太激進,目前的最佳化理不了大規模雜湊撞帶來的梯度斷裂。這會導致學習曲線在訓練中期出現不可預測的坍。”梁文鋒緩緩開口,語氣極其嚴謹。

pukool

)1(o)2n(o

garpukool

gariaiagar

bhia

rrofsnart

;)(_retpahc

猜你喜歡

同題材或同分類的其他作品,僅供參考。