騰訊 網易 淘寶 京東 等網站都采用了GBK編碼
如果網頁使用UTF-8編碼,請注意保持CSS文件編碼與頁面編碼一致(不要將CSS文件設置為gb2312等其他編碼)。
為了防止文件合并及編碼轉換時造成問題,建議將樣式中文字體名字改成對應的英文名字,如:黑體(SimHei) 宋體(SimSun) 微軟雅黑 (Microsoft Yahei,幾個單詞中間有空格組成的必須加引號)
GBK的子集GB2312
GB2312是GBK的子集,GBK是GB18030的子集。GB2312編碼大約包含6000多漢字(不包括特殊字符),編碼范圍為第一位b0-f7,第二位編碼范圍為a1-fe(第一位為cf時,第二位為a1-d3),計算一下漢字個數為6762個漢字。當然還有其他的字符。包括控制鍵和其他字符大約7573個字符編碼。
GBK是包括中日韓字符的大字符集合,GBK編碼是對GB2312編碼的擴充,容納的漢字更多,但僅僅是擴充,沒有質的變化。保留了所有GB2312編碼,在此基礎上進行編碼范圍的擴充.容納(包含特殊字符)共22014個字符編碼。
GB18030編碼是在GBK編碼基礎上的擴充,因為漢字更多,僅僅使用兩位編碼已經不能容納要求的漢字,所以采用了2\4位混和的辦法,可以支持更多的漢字編碼。并且保留了原有的GBK 2字節編碼兼容GB2312和gbk編碼的文件。大概容納55657個編碼(包含特殊字符)。
GB2312編碼重點總結如下
GB2312能完美的支持簡體中文和英文,一個中文文字占用2個字節,一個英文字母同樣占用2個字節。
問題產生了:在沒有安裝IE的簡體中文支持的電腦上看GB2312編碼的網頁,其中中文都會是亂碼,比如一位英國人在倫敦瀏覽你的網頁,看到的除了英文字母正常外其他的都會是亂七八糟,就像火星文。
UTF-8
UTF-8是unicode,可以看作是大字符集,它包含了大部分文字的編碼。為表達更多的文字,UTF-8采用2/3混編的方式。目前所容納的漢字范圍小于GBK編碼。
UTF-8重點總結如下
UTF-8能完美的支持英文和中文,甚至其他文,一個中文文字占用3個字節,一個英文字母同樣占用1個字節。
使用UTF-8的一個最大好處是其他地區的用戶(如美國、印度、臺灣)無需安裝IE的簡體中文支持就能正常觀看你的文字而不會出現亂碼。通常網絡傳輸也是用UTF-8編碼。
綜上所述:根據您的網站的內容和瀏覽的對象以及對數據的儲存空間的權衡,就很好做出編碼選擇了。
至于UTF-8編碼則是用以解決國際上字符的一種多字節編碼,它對英文使用8位(即一個字節),中文使用24位(三個字節)來編碼。對于英文字符較多的網站則用UTF-8節省空間。
GBK包含中日韓字符集合,他能完美支持簡體中文和英文,但如果在IE沒有安裝簡體中文支持的電腦上閱讀GBK編碼的網頁,中文會變成亂碼;UTF-8則包含全世界所有國家需要用到的字符。
GBK是在國家標準GB2312基礎上擴容后兼容GB2312的標準,UTF-8編碼的文字可以在各國各種支持UTF8字符集的瀏覽器上顯示。
比如,如果是UTF8編碼,則在外國人的英文IE上也能顯示中文,而無需他們下載IE的中文語言支持包。 所以,對于英文比較多的論壇 ,使用GBK則每個字符占用2個字節,而使用UTF-8英文卻只占一個字節。節省了存儲空間。
至于UTF-8編碼則是用以解決國際上字符的一種多字節編碼,它對英文使用8位(即一個字節),中文使用24位(三個字節)來編碼。對于英文字符較多的論壇則用UTF-8節省空間。
簡單的說:
UTF8是國際編碼,英文使用1字節,中文使用的是3字節,它的通用性比較好,外國人也可以瀏覽論壇
GBK是國家編碼,中英文使用的都是2字節,通用性比UTF8差,不過UTF8占用的數據庫比GBK大。
提示:如果您的網站客戶群體主要是面向國內用戶的,建議使用GBK版本,因為它可以節省空間,及相對
utf-8版本來講穩定一些。
UTF-8包含全世界所有國家需要用到的字符,是國際編碼,通用性強。
GBK是國家標準GB2312基礎上擴容后兼容GB2312的標準。GBK的文字編碼是用雙字節來表示的,即不論中、英文字符均使用雙字節來表示,為了區分中文,將其最高位都設定成1。GBK包含全部中文字符,是國家編碼,通用性比UTF8差,不過UTF8占用的數據庫比GBD大。
GBK、GB2312等與UTF8之間都必須通過Unicode編碼才能相互轉換:
GBK、GB2312--Unicode--UTF8
UTF8--Unicode--GBK、GB2312