生成式人工智慧課導論學習筆記 - 3

2024-09-05

筆記關於生成式人工智慧課導論的學習筆記，整理自李宏毅老師的課程，系列文章第三篇。

課程說明

本課程的目標是讓學生理解生成式AI的全貌，而不是僅僅學會使用某一個工具如ChatGPT。課程會深入探討生成式AI的技術原理，讓學生了解這些技術是如何誕生、發展及應用。同時，課程不需要任何人工智慧的預備知識，適合初學者作為入門學習。

生成式AI的技術日新月異，因此單靠某一時期的技術學習可能很快過時。李宏毅老師強調，課程會教授的內容是希望能讓學生在未來數年甚至一生中受用。李老師提到「了解AI技術的背後原理，能讓人對技術有更清晰的理解，避免過度依賴或誤解其能力。」

大型語言模型在「想」什麼呢？ — 淺談大型語言模型的可解釋性

Interprable: 人類可以說明模型得到結果的原因
Explainable: 模型可以解釋模型得到結果的原因

黑盒子與可解釋性

黑盒子的概念：大型語言模型的運作機制對人類來說如同黑盒子，我們難以窺見其內部運作。
可解釋性的多重含義：可解釋性不僅指模型是否透明，還包括模型決策過程是否能被解釋。

探究方法：

分析模型參數：透過分析模型的參數和訓練過程，了解模型的內部運作。
探測模型：利用各種探測方法（如probing）來檢測模型的知識和能力。
分析注意力機制：分析模型的注意力機制，了解模型在處理資訊時的關注點。
直接詢問模型：直接向模型提出問題，讓模型自己解釋其決策過程。

語言模型的「心智」

語言模型的學習能力：語言模型能夠通過學習大量的文本資料，掌握人類語言的規律和知識。
語言模型的思維方式：語言模型的思維方式可能與人類不同，但它們能夠模擬人類的思維過程。
語言模型的局限性：語言模型的回答可能受到訓練資料和模型設計的影響，並不總是準確可靠。

未來展望

多種解釋方法的結合：未來對語言模型的可解釋性研究將結合多種方法，從不同角度來理解模型的行為。
語言模型的自我解釋：語言模型將能夠更精確地解釋自己的決策過程。
人機互動的新模式：人類與語言模型的互動將更加自然和深入。

淺談檢定大型語言模型能力的各種方式

第一章：語言模型能力評估的挑戰

摘要：評估大型語言模型的能力並不容易，因為語言模型的輸出是多樣化的，且沒有單一的標準答案。即使是看似簡單的選擇題，在評估時也存在許多挑戰，例如：
不同評估方法的差異：同一個模型在不同評估方法下，得到的結果可能不同。
選項的影響：選項的排列順序、表示方式都會影響模型的表現。
主觀性：對於開放式問題，沒有絕對的標準答案，評估結果往往帶有主觀性。
第二章：常見的語言模型評估基準

摘要：為了全面評估語言模型的能力，研究者們開發了許多包含多種任務的基準 (baseline)。這些基準 (baseline)涵蓋了從簡單的問答到複雜的推理等各種任務。
基準 (baseline)的多樣性：不同基準 (baseline)包含的任務數量和類型各不相同，從最初的幾十個任務發展到現在的數千個任務。

任務的挑戰性：一些基準 (baseline)包含了非常具有挑戰性的任務，例如：
Emoji Movie：根據表情符號猜測電影名稱。
西洋棋：根據棋譜判斷下一步棋。
大海撈針：在長文本中找到特定的資訊。
第三章：語言模型的局限性與偏見

摘要：儘管大型語言模型在許多任務上表現出色，但它們仍然存在一些局限性和偏見。
對長文本的處理：大型語言模型在處理長文本時，可能會遺漏部分資訊。
對指令的敏感性：不同的指令會導致模型產生不同的結果。
對訓練資料的依賴：模型的表現受到訓練資料的影響，如果訓練資料中存在偏見，模型也會表現出相似的偏見。
對任務的適應性：針對特定任務進行微調，可以提升模型在該任務上的表現。
第四章：語言模型評估的未來方向

摘要：未來語言模型的評估將更加注重以下幾個方面：
安全性：評估模型是否會產生有害或歧視性的內容。
可解釋性：了解模型做出決策的理由。
公平性：確保模型對不同群體的用戶是公平的。
效率：評估模型的計算成本和推理速度。
總結：評估大型語言模型的能力是一項複雜且具有挑戰性的任務。隨著模型的不断發展，評估方法也在不斷完善。我們需要綜合考慮多種因素，才能全面地評估一個語言模型的能力。

建議：

多角度評估：不要僅僅依靠單一的評估基準，而應該綜合考慮多個基準的結果。
關注模型的局限性：了解模型的局限性，避免過度依賴模型。
持續跟蹤研究進展：隨著研究的進展，語言模型的評估方法也會不斷更新。
（這是一個簡化的摘要，詳細內容請參考原始文章。）

請注意：這是一個基於對文章內容的理解所做的摘要，可能存在某些細節上的差異。建議您對照原文進行更深入的了解。

如果您對文章中的某個部分感興趣，可以提出更具體的問題，我將盡力為您解答。

想進一步探討哪些方面呢？例如：

不同語言模型的比較
評估基準的設計原則
語言模型在特定領域的應用
語言模型的未來發展趨勢

淺談大型語言模型相關的安全性議題 (上) — 亡羊補牢、語言模型的偏見、有多少人用 ChatGPT 寫論文審查意見

第一章：大型語言模型的幻覺問題與安全層
摘要：大型語言模型，即使是GPT-4，仍存在幻覺問題，可能生成虛假資訊。為了確保輸出可靠，可以在語言模型與使用者之間設置安全層，進行事實查核、有害詞彙檢測等。
關鍵點：
大型語言模型的幻覺問題無法根治。
安全層可透過事實查核等方式提升輸出可靠性。
現有平台如Gemini已具備事實查核功能。
第二章：大型語言模型的偏見問題與檢測方法
摘要：大型語言模型可能存在偏見，影響輸出結果。常見的檢測方法是透過替換詞彙並比較輸出結果，或利用情感分析模型進行評估。
關鍵點：
大型語言模型可能對性別、種族、職業等有刻板印象。
檢測偏見的方法包括詞彙替換、情感分析等。
減輕偏見的方法包括資料前處理、調整訓練過程等。
第三章：如何偵測人工智慧生成的文本
摘要：偵測AI生成文本的方法包括分析文本風格、訓練分類器等。然而，隨著模型的不斷發展，準確度仍有待提升。
關鍵點：
AI生成文本與人類文本在風格上存在差異。
訓練分類器可有效區分AI與人類生成的文本。
AI生成文本的檢測在學術界已引起廣泛關注。
第四章：AI生成文本在學術界的影響
摘要： AI生成文本可能被用於撰寫學術論文，這對學術界的誠信提出了挑戰。研究顯示，AI生成的審查意見在某些領域的比例有所上升。
關鍵點：
AI生成文本可能被用於撰寫學術論文。
研究顯示，AI生成的審查意見在某些學術領域有所增加。
學術界需要建立更有效的機制來防範AI生成文本的濫用。
第五章：為AI生成文本添加水印
摘要：為防止AI生成文本的濫用，研究人員正在探索為AI生成文本添加水印的方法。這種方法可以在不影響文本可讀性的情況下，讓系統識別出該文本是由AI生成的。
關鍵點：
為AI生成文本添加水印可以提高其可追溯性。
水印的設計需要兼顧隱蔽性和魯棒性。
水印技術仍處於發展階段。
總結：

本文深入探討了大型語言模型在安全性、偏見和檢測方面的問題。隨著AI技術的快速發展，這些問題也變得越來越複雜。研究人員正在積極探索各種解決方案，以確保AI技術的健康發展。

建議：

深入閱讀相關文獻：本文僅為摘要，建議讀者深入閱讀原始文獻，以獲取更詳細的資訊。
關注最新研究進展： AI技術發展迅速，建議持續關注相關研究動態。
加強對AI的倫理規範：隨著AI技術的廣泛應用，建立完善的倫理規範迫在眉睫。

淺談大型語言模型相關的安全性議題 (下) — 欺騙大型語言模型

第一章：Prompt Hacking概述

Prompt Hacking 是透過精心設計的提示，讓大型語言模型執行超出預期或不當的行為。
Jailbreaking 和 Prompt Injection 是兩種常見的 Prompt Hacking 技術。
Jailbreaking 目標是讓語言模型產生有害或不當的內容，而 Prompt Injection 則旨在讓模型在特定應用中執行不恰當的任務。
第二章：Jailbreaking深入

DAN 是常見的 Jailbreaking 提示，但對較新模型效果有限。
語言障礙、衝突指令、故事誘導等方法可以欺騙模型，使其產生有害內容。
Jailbreaking 的其他目的包括竊取模型訓練資料。
第三章：Prompt Injection深入

Prompt Injection 在課程作業中被廣泛嘗試，目標是操縱 AI 助教給出特定分數。
ASCII碼等技巧曾被用於成功執行 Prompt Injection。
Prompt Injection 競賽收集了大量示例，並對其進行分類。
課程作業的 Prompt 已被修改，以增加 Prompt Injection 的難度。
各章節精選一句話
第一章： Prompt Hacking 是一種利用語言模型漏洞，使其執行不當行為的技術。
第二章： Jailbreaking 的目標是讓語言模型產生有害或不當的內容，例如教你如何砍倒停車標誌。
第三章： Prompt Injection 的目標是操縱 AI 助教，使其給出特定的分數。
總結
本文詳細介紹了 Prompt Hacking 的概念、常見技術以及在實際應用中的案例。Jailbreaking 和 Prompt Injection 是兩種主要的 Prompt Hacking 手法，分別針對模型本身和模型應用。雖然這些技術在某些情況下可以成功，但隨著模型的發展，防禦措施也在不斷加強。

關鍵詞： Prompt Hacking，Jailbreaking，Prompt Injection，大型語言模型，AI安全

建議：隨著 AI 技術的快速發展，了解 Prompt Hacking 的原理和防禦方法變得越來越重要。這不僅有助於保護 AI 系統的安全，也能夠更好地利用 AI 技術。