LLM 2025 Summary

2025-12-26

筆記關於 LLM 在 2025 年的發展總結。

說明

目前的頂尖模型（如 DeepSeek-R1 或 OpenAI o1/o3 系列）通常都經歷了這四個階段的混合訓練，這四個階段代表了大型語言模型（LLM）從「學習說話」到「學會思考」的完整進化過程。

階段	全名	核心目標	訓練訊號 (回饋來源)	實際人類比喻
1. Pretraining	預訓練	學習語言規律與世界知識	海量文本的「下一個字預測」	讓小孩閱讀圖書館裡所有的書，學會單字和語法。
2. SFT	Supervised Finetuning	學習指令遵循與對話格式	人類撰寫的高品質問答範例 (Q&A Pairs)	老師給小孩看「標準答案」範本，教他考試時該怎麼回答問題。
3. RLHF	RL from Human Feedback	對齊人類偏好 (語氣、安全、價值觀)	人類對兩個答案的「排名/評分」 (偏好模型)	老師不給標準答案，但會告訴小孩：「這個回答比那個有禮貌，我比較喜歡。」
4. RLVR	RL from Verifiable Rewards	強化邏輯推理與正確性	客觀、可驗證的結果 (如：程式碼能跑通、數學答案正確)	老師直接改考卷，答案對了就給分，錯了就沒分，強迫學生自己想出解題步驟。

這是模型建立「基座能力」的階段。模型閱讀數兆個詞彙，學會語法、事實知識和邏輯結構。

原理： 預測下一個字 (Next Token Prediction)。
結果： 模型會「接龍」，但不懂如何對話。你問它問題，它可能會給你另一個問題。
實際案例：
- GPT-3 (Base Model)： 你給它輸入「台灣的首都是」，它可能會接著寫「...台北，人口約...」或者接著寫「日本的首都是...」（單純接龍）。
- Llama 3 Base： 擁有強大的知識，但還不能當作聊天機器人使用。

讓模型學會「聽懂指令」。透過人類編寫的「指令-回答」數據，教模型如何適當地回應使用者。

原理： 模仿學習。給定輸入 Prompt，強迫模型生成特定 Output。
結果： 模型變成了「聊天機器人」，能回答問題。
實際案例：
- Alpaca / Vicuna： 早期開源社群利用 ChatGPT 生成的對話紀錄來微調 Llama 模型，讓它學會像 ChatGPT 一樣說話。
- 情境： 使用者問「如何做蛋炒飯？」，SFT 訓練後的模型會列出步驟 1, 2, 3，而不是像預訓練模型那樣可能開始介紹蛋炒飯的歷史。

解決「好壞」與「風格」的問題。SFT 只能教模型「怎麼回答」，但人類的偏好很微妙（例如：要有禮貌、不要種族歧視、要有創意）。

原理： 訓練一個 Reward Model (獎勵模型) 來模仿人類的喜好。模型生成多個答案，Reward Model 挑選最好的，透過 PPO 或 DPO 演算法優化。
關鍵字： Helpful (有幫助)、Harmless (無害)、Honest (誠實)。
結果： 模型變得更安全、更有禮貌、更符合人類價值觀。
實際案例：
- ChatGPT (InstructGPT)： 早期 GPT-3 經過 SFT 後雖然能回答，但有時會編造事實或產生毒性內容。引入 RLHF 後，它學會了拒絕回答危險問題（如「如何製造炸彈」），並傾向給出詳盡且溫和的建議。

這是 2024-2025 年 AI 發展的核心突破點（如 DeepSeek-R1, OpenAI o1）。RLHF 依賴人類的主觀感覺（好不好聽），而 RLVR 依賴客觀事實（對不對）。

原理： 讓模型在有「標準答案」的領域（數學、程式碼、邏輯題）自我博弈。只要最終答案正確，模型就會收到正向獎勵。這迫使模型發展出思維鏈 (Chain of Thought)，學會自我檢查和修正。
差異： RLHF 是「討好人類」，RLVR 是「追求真理」。
實際案例：
- DeepSeek-R1 / OpenAI o1 (Strawberry)：
  - 任務： 「寫一個 Python 腳本來玩貪食蛇，且蛇的顏色要是紫色。」
  - 訓練過程： 模型生成程式碼 -> 系統自動執行程式碼 (Verifier) -> 如果程式跑得起來且蛇是紫色 -> 獎勵 (+1)；如果跑不起來 -> 懲罰 (0)。
  - 現象： 模型為了拿到獎勵，會「學會」在輸出程式碼前，先在內心（思維鏈）模擬程式邏輯，甚至會出現「等等，我這樣寫可能會報錯，我應該改用另一個寫法」的自我反思過程。

如果要打造一個像 DeepSeek-R1 或 OpenAI o1 這樣的頂尖模型：