寫程式時可能遇到的 big-5 碼問題

  1. 在 Big-5 碼中, 每個中文字佔兩個 bytes, 第一個 byte 可以是 A1-F9 當中的任何一個; 第二個 byte 可以是 40-7E 或 A1-FE 當中的任何一個. 詳見 ifcss 有關 Big5 的文件.
  2. 由於 40-7E 是一般常用字元的 ASCII 碼範圍, 因此有時會給程式設計師帶來一些困擾. 例如 ASCII 碼各為 5b 5c 5d 7b 7d 的 [\]{} 等字元在 Tcl/Tk 與 perl 當中都有特殊意義, 如果你的 Tcl/Tk 或 perl 程式裡面有 "加" (a5 5b) "也" (a4 5d) "程" (b5 7b) "陣" (b0 7d) "功" (a5 5c) 等字, 恐怕就要小心了. 其他程式語言也有相同的問題.
  3. 如何知道一個中文字的 big-5 碼? 在 UNIX 下, 可以用你熟悉的 editor 建立一個小檔案, 把你要查的字敲進去, 再用 od 命令看: od -A x -t x1 檔案名稱. 注意: 換列字元的 ASCII 碼是 0a.
  4. 如何知道一個文字檔裡面是否有製造問題的 big-5 碼? 我也不知道有沒有這樣的程式; 但是我正好在教 Tcl/Tk 與 perl, 所以就寫了一個: b5tm. 例如你想知道 grade 這個檔案裡面是否有含有 []{}\ 等碼的中文字, 可以在 UNIX 的 shell 底下用 b5tm '[]{}\' grade 查看. (perl 版寫得比較好)
其他資訊:
  1. unicode 與 iso10646 簡介
  2. About I18N