LLM 2025 Summary
2025-12-26
筆記關於 LLM 在 2025 年的發展總結。
說明
目前的頂尖模型(如 DeepSeek-R1 或 OpenAI o1/o3 系列)通常都經歷了這四個階段的混合訓練,這四個階段代表了大型語言模型(LLM)從「學習說話」到「學會思考」的完整進化過程。
核心差異總表
| 階段 | 全名 | 核心目標 | 訓練訊號 (回饋來源) | 實際人類比喻 |
|---|---|---|---|---|
| 1. Pretraining | 預訓練 | 學習語言規律與世界知識 | 海量文本的「下一個字預測」 | 讓小孩閱讀圖書館裡所有的書,學會單字和語法。 |
| 2. SFT | Supervised Finetuning | 學習指令遵循與對話格式 | 人類撰寫的高品質問答範例 (Q&A Pairs) | 老師給小孩看「標準答案」範本,教他考試時該怎麼回答問題。 |
| 3. RLHF | RL from Human Feedback | 對齊人類偏好 (語氣、安全、價值觀) | 人類對兩個答案的「排名/評分」 (偏好模型) | 老師不給標準答案,但會告訴小孩:「這個回答比那個有禮貌,我比較喜歡。」 |
| 4. RLVR | RL from Verifiable Rewards | 強化邏輯推理與正確性 | 客觀、可驗證的結果 (如:程式碼能跑通、數學答案正確) | 老師直接改考卷,答案對了就給分,錯了就沒分,強迫學生自己想出解題步驟。 |
詳細解析與實際案例
1. Pretraining (預訓練)
這是模型建立「基座能力」的階段。模型閱讀數兆個詞彙,學會語法、事實知識和邏輯結構。
- 原理: 預測下一個字 (Next Token Prediction)。
- 結果: 模型會「接龍」,但不懂如何對話。你問它問題,它可能會給你另一個問題。
- 實際案例:
- GPT-3 (Base Model): 你給它輸入「台灣的首都是」,它可能會接著寫「...台北,人口約...」或者接著寫「日本的首都是...」(單純接龍)。
- Llama 3 Base: 擁有強大的知識,但還不能當作聊天機器人使用。
2. Supervised Finetuning (SFT, 監督式微調)
讓模型學會「聽懂指令」。透過人類編寫的「指令-回答」數據,教模型如何適當地回應使用者。
- 原理: 模仿學習。給定輸入 Prompt,強迫模型生成特定 Output。
- 結果: 模型變成了「聊天機器人」,能回答問題。
- 實際案例:
- Alpaca / Vicuna: 早期開源社群利用 ChatGPT 生成的對話紀錄來微調 Llama 模型,讓它學會像 ChatGPT 一樣說話。
- 情境: 使用者問「如何做蛋炒飯?」,SFT 訓練後的模型會列出步驟 1, 2, 3,而不是像預訓練模型那樣可能開始介紹蛋炒飯的歷史。
3. Reinforcement Learning from Human Feedback (RLHF, 來自人類回饋的強化學習)
解決「好壞」與「風格」的問題。SFT 只能教模型「怎麼回答」,但人類的偏好很微妙(例如:要有禮貌、不要種族歧視、要有創意)。
- 原理: 訓練一個 Reward Model (獎勵模型) 來模仿人類的喜好。模型生成多個答案,Reward Model 挑選最好的,透過 PPO 或 DPO 演算法優化。
- 關鍵字: Helpful (有幫助)、Harmless (無害)、Honest (誠實)。
- 結果: 模型變得更安全、更有禮貌、更符合人類價值觀。
- 實際案例:
- ChatGPT (InstructGPT): 早期 GPT-3 經過 SFT 後雖然能回答,但有時會編造事實或產生毒性內容。引入 RLHF 後,它學會了拒絕回答危險問題(如「如何製造炸彈」),並傾向給出詳盡且溫和的建議。
4. Reinforcement Learning from Verifiable Rewards (RLVR, 來自可驗證獎勵的強化學習)
這是 2024-2025 年 AI 發展的核心突破點(如 DeepSeek-R1, OpenAI o1)。RLHF 依賴人類的主觀感覺(好不好聽),而 RLVR 依賴客觀事實(對不對)。
- 原理: 讓模型在有「標準答案」的領域(數學、程式碼、邏輯題)自我博弈。只要最終答案正確,模型就會收到正向獎勵。這迫使模型發展出思維鏈 (Chain of Thought),學會自我檢查和修正。
- 差異: RLHF 是「討好人類」,RLVR 是「追求真理」。
- 實際案例:
- DeepSeek-R1 / OpenAI o1 (Strawberry):
- 任務: 「寫一個 Python 腳本來玩貪食蛇,且蛇的顏色要是紫色。」
- 訓練過程: 模型生成程式碼 -> 系統自動執行程式碼 (Verifier) -> 如果程式跑得起來且蛇是紫色 -> 獎勵 (+1);如果跑不起來 -> 懲罰 (0)。
- 現象: 模型為了拿到獎勵,會「學會」在輸出程式碼前,先在內心(思維鏈)模擬程式邏輯,甚至會出現「等等,我這樣寫可能會報錯,我應該改用另一個寫法」的自我反思過程。
- DeepSeek-R1 / OpenAI o1 (Strawberry):
總結:它們如何打造一個現代 AI?
如果要打造一個像 DeepSeek-R1 或 OpenAI o1 這樣的頂尖模型:
- 先用 Pretraining 讓它博覽群書(獲得智商)。
- 再用 SFT 教它如何與人對話(獲得社交能力)。
- 接著用 RLVR 在數學和程式碼上進行魔鬼訓練,強迫它發展出深度思考和邏輯推演能力(獲得理性與邏輯)。
- 最後用 RLHF 進行微調,確保它說話好聽且不反社會(獲得情商與安全)。