Windows 10 記事本中的編碼 (Notepad with Unicode, UTF-8, ANSCI)
2021-04-22
筆記 Windows 記事本中儲存所使用的編碼選項所代表的使用意涵。
說明
在 Windows 20H2 的記事本(notepad) 編碼格式的選項已經有所不同,分別是 ANSI, UTF-8, UTF-8 With BOM, UTF-16 BE, UTF-16 LE,以往令人混淆的 Unicode 以及預設僅有帶 BOM 的 UTF-8 問題已不復存在,同時編碼的預設選項為 UTF-8,而非以往的 ANSI。
ANSI
CP950
Big-5
Unicdoe
Unicode,也稱為統一碼、萬國碼、國際碼,是資訊科學對於文字系統標準。Unicode 彙整世界上大部分的文字系統,使得電腦系統可以用更為現和處理這些字元。累積至 2020 年為止,Unicode已經收錄超過 14 萬個字元(每個字元專屬性代號稱為 Code Point),詳見維基百科。
Unicode 本身是符號集合,而 UTF-8、UTF-16 等則是對應此符合集合,所設計的電腦編碼方式。
例如下圖可以看到繁體中文的「資」與 Emoji的 「😀」分別的 Unicode Code Point 以及各種編碼方式對照的編碼值。
更多關於 Unicode
UTF-8
UTF-8 使用 1 至 6 個 Byte 來為字元編碼,其中對於 US-ASCII 只使用需一個位元組進行編碼,而且編碼的方式與 ASCII 是相同的。作為可變長度的編碼方式, UTF-8 最大的優點在於節省儲存空間。
更多關於 UTF-8
UTF-8 With BOM
UTF-8+BOM 格式檔案的開首,會於檔案開頭加入 U+FEFF 字元(UTF-8以 EF BB BF 表示),以顯示這個文字檔案是以UTF-8編碼。