贝斯特365-365提前结束投注-365bet中国客服电话

开发中同一个字拥有不同编码的汇总(eg䶮)

开发中同一个字拥有不同编码的汇总(eg䶮)

借用知乎上的回答:

属于GBK的遗留问题,当年定义GBK的时候同期的Unicode还没收“龙天”所以GBK给制定了个用户自定义区的码e863,后来Unicode收了该字,就在正式区分了码4dae。有些输入法按GBK规范做就是输出e863,另一些按Unicode做,输出就是4dae,理论上,应该以4dae为准,毕竟现在是Unicode的天下了 链接:https://www.zhihu.com/question/29273111/answer/100904852

以下转载自:http://code.web.idv.hk/index.php

GB 18030 編碼表

因 GB 18030 的設計是要把整個 Unicode 的字碼作對應,所以 GB 18030 的碼表,也與 Unicode 一樣龐大。

GB 18030 至今共有兩個版本:GB 18030-2000 和 GB 18030-2005。2005年版為現行版本。兩者分別見下。

在2018年7月,全國信息技術標準化技術委員會擬製作新的 GB 18030 版本,相信最終本將稱為 GB 18030-2019,並計劃在2019年下半年發佈。新版本目標是把所有《通用規範漢字表》的漢字,和直至 CJK-F 區的所有漢字都收錄在內(CJK 主區剩餘的 66 (74 減去已收錄的 U+9FB4–U+9FBB) 字、CJK-C 區 的 4149 字、CJK-D 區的 222 字、CJK-E 區的 5762字、CJK-F 區的 7473 字,共 87916 字)。

不過,此擬修訂版本,不明所意地打算把位於「相容表意文字區」中但實則獨一的漢字:U+FA0E(﨎)、U+FA0F(﨏)、U+FA11(﨑)、U+FA13(﨓)、U+FA14(﨔)、U+FA1F(﨟)、U+FA21(﨡)、U+FA23(﨣)、U+FA24(﨤)、U+FA27(﨧)、U+FA28(﨨)、U+FA29(﨩),和另外 9 個兼容漢字(郎、凉、秊、裏、隣、兀、嗀、礼、蘒)刪除。

請按下拉選框,選擇你想查詢的字碼。字碼第一欄以 Unicode 排序,第二欄為 GB 18030 內碼。有需要時輔以第三欄說明。

請選擇 U+0000–U+0FFF U+1000–U+1FFF U+2000–U+2FFF U+3000–U+3FFF U+4000–U+4FFF U+5000–U+5FFF U+6000–U+6FFF U+7000–U+7FFF U+8000–U+8FFF U+9000–U+9FFF U+A000–U+AFFF U+B000–U+BFFF U+C000–U+CFFF U+D000–U+D7FF U+E000–U+F8FF(私人使用區) U+F900–U+FFFF(兼容區) 多文種補充平面 (SMP) 表意文字補充平面 (SIP) 表意文字第三平面(TIP,未正式使用) 第4輔助平面(尚未使用) 第5輔助平面(尚未使用) 第6輔助平面(尚未使用) 第7輔助平面(尚未使用) 第8輔助平面(尚未使用) 第9輔助平面(尚未使用) 第10輔助平面(尚未使用) 第11輔助平面(尚未使用) 第12輔助平面(尚未使用) 第13輔助平面(尚未使用) 特別用途補充平面 (SSP) 第15輔助平面(私人使用區A區) 第16輔助平面(私人使用區B區)

GBK與GB 2312的分別

GB 2312 2字節碼位,第一個字節的值從 0xA1–FE(0xAA–AF 和 0xF8–FE 實際未使用),第二個字節的值從 0xA1–FE。 GBK 2字節碼位,第一個字節的值從 0x81–FE,第二個字節的值從 0x40–7E 和 0x80–FE。GB 2312 只有 6,763 個漢字。GBK 收錄所有中日韓統一表意文字基本區漢字。 0x8140–A0FE,加入 6,080 個漢字;0xAA40–FD9B(不包括原有 GB 2312 範圍),加入 8,059 個漢字;0xFD9C–FE4F,加入 21 個兼容漢字。GB 2312 只有 682 個符號。在後來的字形標準如 GB 5007.1 和 GB 6345.1 等,在 0xA8BB–A8C0 補上六個拼音符號:ɑ ḿ ń ň ǹ ɡ。GBK 承繼了這些符號。GBK 加入 10 個小寫羅馬數字 ⅰ–ⅹ (0xA2A1–A2AA)。GBK 加入 29 個豎排標點符號 (0xA6D9–A6F5)。來源自 GB 12345 標準。GBK 加入台灣電腦系統用的符號 (0xA840–A895, 0xA940–A988,不包含 A958, A95B, A95D–A95F)。 但實際上,台灣電腦系統並沒有 0xA844(―), 0xA891(☉), 0xA95C(‐) 。 Big5 碼的 0xA145(‧), 0xA15A(╴), 0xA1C2(¯ 或 ‾), 0xA1C5(ˍ) 亦沒有在 GBK 出現。加入表意文字描述符 (0xA989–A995) 和漢字數字零 〇 (0xA996)加入當時 Unicode 尚未收錄的 52 個《簡化字總表》漢字、28 個《康熙字典》和《辭海》漢字部件 (0xFE50–FEA0)。註:GB 5007.1 和 GB 6345.1 等標準,在第 10 區(內碼 0xAAA1–AAFE)補充 94 個半形 ASCII 字符、 在第 11 區(內碼 0xABA1–ABC0)補充漢語拼音 ü 的半形字符、a, e, i, o, u, ü 陰陽上去四聲的半形字符、和 ê, ɑ, ḿ, ń, ň, ǹ, ɡ 的半形字符共 32 個。 GBK 和 GB 18030 標準均沒有遵從。

GBK與微軟CP936的分別

微軟 CP936 在 0x80 加入歐元符號 €(1995年 GBK 推出時,歐元尚未誕生)微軟 CP936 沒有 0xA6D9–A6DF, A6EC–A6ED, A6F3, A8BC, A8BF, A989–A995, FE50–FEA0(GB 13000.1 / Unicode 1.0 沒有那些字符)。

GB 18030-2000與GBK的分別

GB 18030-2000 增加了4字節的碼位,第一個字節的值從 0x81–FE,第二個字節的值從 0x30–39,第三個字節從 0x81–FE,第四個字節從 0x30–39。並把 Unicode 的所有可能編碼,都對應到其中一個 GB 18030 碼位。GB 18030-2000 收錄所有中日韓統一表意文字擴展A區漢字。GB 18030-2000 把歐元符號收錄在 0xA2E3。 很不幸,在微軟簡體中文系統,0x80 依舊是歐元符號;0xA2E3 則另有一個歐元符號,對應至私人造字碼 U+E76C。因為 Unicode ≥3.0 已收錄以下字符,在 GB 18030-2000 的官方文件附錄E 和 GB 18030-2005 的官方文件附錄E-表E.1,列出了以下字符在下一版 GB 13000(註:相當於 ISO/IEC 10646:2003)的位置。事實上,GB 18030-2000 和 -2005 已修改了它們所對應的 Unicode 對應。

GB碼位 字符 GBK 對應的造字區 GB 18030 對應的Unicode A8BFǹU+E7C8U+01F9A989〾U+E7E7U+303EA98A⿰U+E7E8U+2FF0A98B⿱U+E7E9U+2FF1A98C⿲U+E7EAU+2FF2A98D⿳U+E7EBU+2FF3A98E⿴U+E7ECU+2FF4A98F⿵U+E7EDU+2FF5A990⿶U+E7EEU+2FF6A991⿷U+E7EFU+2FF7A992⿸U+E7F0U+2FF8A993⿹U+E7F1U+2FF9A994⿺U+E7F2U+2FFAA995⿻U+E7F3U+2FFBFE50⺁U+E815U+2E81FE54⺄U+E819U+2E84FE55㑳U+E81AU+3473FE56㑇U+E81BU+3447FE57⺈U+E81CU+2E88FE58⺋U+E81DU+2E8BFE5A㖞U+E81FU+359EFE5B㘚U+E820U+361AFE5C㘎U+E821U+360EFE5D⺌U+E822U+2E8CFE5E⺗U+E823U+2E97FE5F㥮U+E824U+396EFE60㤘U+E825U+3918FE62㧏U+E827U+39CFFE63㧟U+E828U+39DFFE64㩳U+E829U+3A73FE65㧐U+E82AU+39D0FE68㭎U+E82DU+3B4EFE69㱮U+E82EU+3C6EFE6A㳠U+E82FU+3CE0FE6B⺧U+E830U+2EA7FE6E⺪U+E833U+2EAAFE6F䁖U+E834U+4056FE70䅟U+E835U+415FFE71⺮U+E836U+2EAEFE72䌷U+E837U+4337FE73⺳U+E838U+2EB3FE74⺶U+E839U+2EB6FE75⺷U+E83AU+2EB7FE77䎱U+E83CU+43B1FE78䎬U+E83DU+43ACFE79⺻U+E83EU+2EBBFE7A䏝U+E83FU+43DDFE7B䓖U+E840U+44D6FE7C䙡U+E841U+4661FE7D䙌U+E842U+464CFE80䜣U+E844U+4723FE81䜩U+E845U+4729FE82䝼U+E846U+477CFE83䞍U+E847U+478DFE84⻊U+E848U+2ECAFE85䥇U+E849U+4947FE86䥺U+E84AU+497AFE87䥽U+E84BU+497DFE88䦂U+E84CU+4982FE89䦃U+E84DU+4983FE8A䦅U+E84EU+4985FE8B䦆U+E84FU+4986FE8C䦟U+E850U+499FFE8D䦛U+E851U+499BFE8E䦷U+E852U+49B7FE8F䦶U+E853U+49B6FE92䲣U+E856U+4CA3FE93䲟U+E857U+4C9FFE94䲠U+E858U+4CA0FE95䲡U+E859U+4CA1FE96䱷U+E85AU+4C77FE97䲢U+E85BU+4CA2FE98䴓U+E85CU+4D13FE99䴔U+E85DU+4D14FE9A䴕U+E85EU+4D15FE9B䴖U+E85FU+4D16FE9C䴗U+E860U+4D17FE9D䴘U+E861U+4D18FE9E䴙U+E862U+4D19FE9F䶮U+E863U+4DAE

GB 18030-2005與GB 18030-2000的分別

夾附中日韓統一表意文字擴展B區漢字、朝鮮文、蒙古文(包括滿文、托忒文、錫伯文、阿禮嘎禮文)、德宏傣文、藏文、維吾爾文/哈薩克文/柯爾克茲文,和彝文的字形表。 韓文包含 3,376 個韓字加 69 個字母加 51 個兼容字母、 蒙古文包含 149 字、傣文包含 35 字、藏文包含 193 字、 維吾爾文包含 49 字加 153 個字母表達形式、 彝文包含 1,215 字(不包含 U+A4A2, U+A4A3, U+A4B4, U+A4C1, U+A4C5)。GB 18030-2000 沒有把 ḿ 對應至 Unicode。在 GB 18030-2005 終於獲訂正。見官方文件附錄E-表E.2。

GB碼位 字符 GB 18030-2000 對應的造字區 GB 18030-2005 對應的Unicode A8BCḿU+E7C7U+1E3F

GB 18030 仍未訂正對應的字符

在 GB 18030-2000 推出時,因未有中日韓統一表意文字擴展B區,以下字符被對應到造字區。 而在 GB 18030-2005 推出時,儘管 Unicode 已收錄了擴展B區, 但在 GB 18030-2005 標準中,以下字符仍然對應到造字區,未有作出修改。 見 WG2 N2773 文件。 結果,GB 18030-2005 重複收錄了以下 6 字兩次。

GB碼位 字符 GB 18030 對應的造字區 Unicode ≥3.1 因此而重複的GB碼位 FE51𠂇U+E816U+2008795329031FE52𠂉U+E817U+2008995329033FE53𠃌U+E818U+200CC95329730FE6C𡗗U+E831U+215D79536B937FE76𢦏U+E83BU+2298F9630BA35FE91𤇾U+E855U+241FE9635B630

以下字符在 GB 18030-2000 時已有,而當時 Unicode 仍未有以下字符。 儘管 Unicode 在 4.1 版本,已經把以下字符悉數加入,但在 GB 18030-2005 標準中,以下字符仍然對應到造字區。 見 WG2 N2773 文件。

GB碼位 字符 GB 18030 對應的造字區 Unicode ≥4.1 A6D9︐U+E78DU+FE10A6DA︒U+E78EU+FE12A6DB︑U+E78FU+FE11A6DC︓U+E790U+FE13A6DD︔U+E791U+FE14A6DE︕U+E792U+FE15A6DF︖U+E793U+FE16A6EC︗U+E794U+FE17A6ED︘U+E795U+FE18A6F3︙U+E796U+FE19FE59龴U+E81EU+9FB4FE61龵U+E826U+9FB5FE66龶U+E82BU+9FB6FE67龷U+E82CU+9FB7FE6D龸U+E832U+9FB8FE7E龹U+E843U+9FB9FE90龺U+E854U+9FBAFEA0龻U+E864U+9FBB

相关推荐