寫程式時可能遇到的 big-5 碼問題
- 在 Big-5 碼中, 每個中文字佔兩個 bytes, 第一個 byte 可以是 A1-F9
當中的任何一個; 第二個 byte 可以是 40-7E 或 A1-FE
當中的任何一個.
- 由於 40-7E 是一般常用字元的 ASCII 碼範圍,
因此有時會給程式設計師帶來一些困擾. 例如 ASCII 碼各為 5b 5c 5d 7b
7d 的 [\]{} 等字元在 Tcl/Tk 與 perl 當中都有特殊意義, 如果你的
Tcl/Tk 或 perl 程式裡面有 "加" (a5 5b) "也" (a4 5d) "程" (b5 7b)
"陣" (b0 7d) "功" (a5 5c) 等字, 恐怕就要小心了.
其他程式語言也有相同的問題.
- 如何知道一個中文字的 big-5 碼? 在 UNIX 下, 可以用你熟悉的
editor 建立一個小檔案, 把你要查的字敲進去, 再用 od 命令看: od -A x
-t x1 檔案名稱. 注意: 換列字元的 ASCII 碼是 0a.
- 如何知道一個文字檔裡面是否有製造問題的 big-5 碼?
我也不知道有沒有這樣的程式; 但是我正好在教 Tcl/Tk 與 perl,
所以就寫了一個: b5tm. 例如你想知道 grade
這個檔案裡面是否有含有 []{}\ 等碼的中文字, 可以在 UNIX 的 shell
底下用 b5tm '[]{}\' grade 查看. (perl
版寫得比較好)
其他資訊:
- unicode 與
iso10646 簡介
- About I18N