王銘俊 湖南日報·新湖南客戶端 2025-09-11 07:18:07
湖南日報全媒體記者 王銘俊
DeepSeek推出的新一代大語言模型DeepSeek-V3.1引人注目。其中,亮點之一是上下文長度從64K擴展到了128K。這意味著什么?用戶體驗將有何不同?9月10日,記者采訪了湖南師范大學(xué)人工智能系副主任江沸菠。
“128K大小的Token大約相當(dāng)于10萬個漢字,比一本約7萬字的《邊城》還要多,AI能一次性把這些內(nèi)容‘嚼透’,不用中途‘翻頁’?!苯胁そ榻B,上下文長度以Token為單位計算。一個Token可以是一個英文單詞或詞綴、一個漢字或詞語的一部分。比如,“湘繡”可被拆成“湘”和“繡”兩個Token。
“這個數(shù)字聽起來‘很技術(shù)’,但它實際上關(guān)乎人工智能如何‘理解’和‘回應(yīng)’人類。”江沸菠說,這不僅是一次參數(shù)提升,更是大語言模型能力邊界的又一次突破。
上下文長度決定了大語言模型在一次交互中能“記住”多少內(nèi)容,包括網(wǎng)友的問題、之前的對話歷史、網(wǎng)友提供的參考資料及大語言模型已給出的回答等。就像人在聊天時能回顧說過的話一樣,模型的“記憶力”越強,它的回答就越連貫、越精準(zhǔn)。
此次升級,意味著大語言模型不僅可以深度處理超長文檔,而且在長對話中的表現(xiàn)也更可靠?!斑@將減少模型‘幻覺’,即胡說八道的風(fēng)險?!苯胁そ榻B,上下文拉長也帶來挑戰(zhàn),尤其是對算力的要求上升。而且,模型的記憶仍是“會話級”的,一旦對話重啟,它就會“忘記”之前的內(nèi)容。
行業(yè)也在通過探索更高效的架構(gòu),比如優(yōu)化注意力機制、引入外部記憶庫等,讓模型既能記得多,又不用付出過高的計算代價。
江沸菠舉例,大語言模型中的注意力機制就像讀書人手里的高亮筆和智能放大鏡,讀書人不會平均用力地去讀桌上所有的書,而是通過“高亮筆”和“智能放大鏡”快速掃描整張書桌,并決定應(yīng)重點關(guān)注哪些部分。外部記憶庫則給大語言模型配了一個隨叫隨到的“秘書”,網(wǎng)友一問問題,它就立刻去龐大的資料庫里將相關(guān)文件找出來、劃好重點,并只把這些關(guān)鍵信息遞給AI。
責(zé)編:賀雨婷
一審:詹娉俏
二審:朱曉華
三審:趙雨杉
來源:湖南日報·新湖南客戶端
我要問