土芭樂數位學堂

BigData 大數據分析、資訊技術的分享, TiddlyWiki教學, Google 服務應用教學, 3D列印創意思維

7月 06, 2010

為何要使用UTF-8編碼,與BIG5的差異?

一、Big5 有幾個特色

1.每個中文字使用 2 bytes
2.因為制定者腦殘,用到了控制碼,所以許多程式與軟體都會有許、蓋、功這類中文字的沖碼問題
3.延伸字集中,有簡體字但是沒有定義日文字


二、UTF-8 則有以下特色

1.採用變動大小,中文字使用 3 bytes,英文則維持 1 byte
 因此若轉碼後,資料庫整體會變成 1.5 倍大,200MB(Big5) -> 300MB(UTF-8)

2.支援所有語言文字,還有一些怪怪圖形
3.簡體與正體中文重複字只定義一次,例如說,簡體的"山",跟正體的"山",是同一個 UTF-8 編碼 ,

沒有留言:

張貼留言