Windows 10 記事本中的編碼 (Notepad with Unicode, UTF-8, ANSCI)


  1. 說明
    1. ANSI
      1. CP950
      2. Big-5
    2. Unicdoe
    3. UTF-8
    4. UTF-8 With BOM
    5. UTF-16 BE
    6. UTF-16 LE
  2. 參考資料

筆記 Windows 記事本中儲存所使用的編碼選項所代表的使用意涵。

logo

說明

在 Windows 20H2 的記事本(notepad) 編碼格式的選項已經有所不同,分別是 ANSI, UTF-8, UTF-8 With BOM, UTF-16 BE, UTF-16 LE,以往令人混淆的 Unicode 以及預設僅有帶 BOM 的 UTF-8 問題已不復存在,同時編碼的預設選項為 UTF-8,而非以往的 ANSI。

ANSI

CP950

Big-5

使用 HexDump 檢視檔案,檔案只有一個「資」

Unicdoe

Unicode,也稱為統一碼、萬國碼、國際碼,是資訊科學對於文字系統標準。Unicode 彙整世界上大部分的文字系統,使得電腦系統可以用更為現和處理這些字元。累積至 2020 年為止,Unicode已經收錄超過 14 萬個字元(每個字元專屬性代號稱為 Code Point),詳見維基百科

Unicode 本身是符號集合,而 UTF-8、UTF-16 等則是對應此符合集合,所設計的電腦編碼方式。

例如下圖可以看到繁體中文的「資」與 Emoji的 「😀」分別的 Unicode Code Point 以及各種編碼方式對照的編碼值。

More About Unicode

更多關於 Unicode

UTF-8

UTF-8 使用 1 至 6 個 Byte 來為字元編碼,其中對於 US-ASCII 只使用需一個位元組進行編碼,而且編碼的方式與 ASCII 是相同的。作為可變長度的編碼方式, UTF-8 最大的優點在於節省儲存空間。

使用 HexDump 檢視檔案,檔案只有一個「資」

更多關於 UTF-8

UTF-8 With BOM

UTF-8+BOM 格式檔案的開首,會於檔案開頭加入 U+FEFF 字元(UTF-8以 EF BB BF 表示),以顯示這個文字檔案是以UTF-8編碼。

使用 HexDump 檢視檔案,檔案只有一個「資」

UTF-16 BE

使用 HexDump 檢視檔案,檔案只有一個「資」

UTF-16 LE

使用 HexDump 檢視檔案,檔案只有一個「資」

參考資料

你的原始碼是什麼編碼?

Compart

全字庫

淺談電腦編碼與 Unicode (一) 基礎概念篇

淺談電腦編碼與 Unicode (二) 基本應用篇