正则查找:
中文文字+中文符号+表情符号+...
[^\x00-\xff]
其中 \x00-\xff 匹配 ASCII 代码中十六进制代码为 00-ff 的字符,
加个取反 ^ ,则就表示表示匹配非单字节的字符,例如汉字,汉字符号等字符集。
中文文字(简体+繁体)
[\x{4e00}-\x{9fa5}]
最常用的范围是 U+4E00~U+9FA5, 即名为:CJK Unified Ideographs 的区块。
:: --------------------------------------------------------------------------------------------------------------------
https://blog.csdn.net/yewadehasdied/article/details/84170721#unicode编码的分布
https://blog.oasisfeng.com/2006/10/19/full-cjk-unicode-range/#完整的CJK Unicode范围(5.0版)
PS:Unicode 中 U+4E00~U+9FFF 的码表:
http://www.unicode.org/charts/PDF/U4E00.pdf
在这里可以根据 Unicode 码查到所有的字符:
http://www.unicode.org/cgi-bin/GetUnihanData.pl
:: --------------------------------------------------------------------------------------------------------------------
https://zh.wikipedia.org/zh-cn/Unicode区段
[Unicode区段与包含的文字]
注: TAB 键使用 50个空格。平面 区段范围 区段名称 码位数[a] 已定义字元数 文字[b][c][d][e][f]汉语 英语0 BMP U+0000..U+007F 基本拉丁字母 Basic Latin[g] 128 128 拉丁字母(52个)、通用(76个)0 BMP U+0080..U+00FF 拉丁字母补充-1 Latin-1 Supplement[h] 128 128 拉丁字母(64个)、通用(64个)0 BMP U+0100..U+017F 拉丁字母扩展-A Latin Extended-A 128 128 拉丁0 BMP U+0180..U+024F 拉丁字母扩展-B Latin Extended-B 208 208 拉丁0 BMP U+0250..U+02AF 国际音标扩展 IPA Extensions 96 96 拉丁0 BMP U+02B0..U+02FF 占位修饰符号 Spacing Modifier Letters 80 80 注音符号(2个)、拉丁(14个)、通用(64个)0 BMP U+0300..U+036F 组合附加符号 Combining Diacritical Marks 112 112 继承0 BMP U+0370..U+03FF 希腊字母和科普特字母 Greek and Coptic 144 135 科普特字母(14个)、希腊字母(117个)、通用(4个)0 BMP U+0400..U+04FF 西里尔字母 Cyrillic 256 256 西里尔字母(254个)、继承(2个)0 BMP U+0500..U+052F 西里尔字母补充 Cyrillic Supplement 48 48 西里尔字母0 BMP U+0530..U+058F 亚美尼亚字母 Armenian 96 91 亚美尼亚字母0 BMP U+0590..U+05FF 希伯来文字母 Hebrew 112 88 希伯来字母0 BMP U+0600..U+06FF 阿拉伯文字母 Arabic 256 256 阿拉伯字母(238个)、通用(6个)、继承(12个)0 BMP U+0700..U+074F 叙利亚字母 Syriac 80 77 叙利亚字母0 BMP U+0750..U+077F 阿拉伯文补充 Arabic Supplement 48 48 阿拉伯文0 BMP U+0780..U+07BF 它拿字母 Thaana 64 50 它拿字母(塔纳语)0 BMP U+07C0..U+07FF 西非书面文字 NKo 64 62 西非书面文字0 BMP U+0800..U+083F 撒玛利亚字母 Samaritan 64 61 撒玛利亚字母0 BMP U+0840..U+085F 曼达安字母 Mandaic 32 29 曼达安字母0 BMP U+0860..U+086F 叙利亚文补充 Syriac Supplement 16 11 叙利亚文0 BMP U+0870..U+089F 阿拉伯字母扩展-B Arabic Extended-B 48 41 阿拉伯字母0 BMP U+08A0..U+08FF 阿拉伯字母扩展-A Arabic Extended-A 96 96 阿拉伯字母(95个)、通用(1个)0 BMP U+0900..U+097F 天城文(梵文) Devanagari 128 128 天城文(122个)、通用(2个)、继承(4个)0 BMP U+0980..U+09FF 孟加拉文 Bengali 128 96 孟加拉文0 BMP U+0A00..U+0A7F 古木基文 Gurmukhi 128 80 古木基文0 BMP U+0A80..U+0AFF 古吉拉特文 Gujarati 128 91 古吉拉特文0 BMP U+0B00..U+0B7F 奥里亚文 Oriya 128 91 奥里亚文0 BMP U+0B80..U+0BFF 泰米尔文 Tamil 128 72 泰米尔文0 BMP U+0C00..U+0C7F 泰卢固文 Telugu 128 100 泰卢固文0 BMP U+0C80..U+0CFF 卡纳达文 Kannada 128 91 卡纳达文0 BMP U+0D00..U+0D7F 马拉雅拉姆文 Malayalam 128 118 马拉雅拉姆文0 BMP U+0D80..U+0DFF 僧伽罗文 Sinhala 128 91 僧伽罗文0 BMP U+0E00..U+0E7F 泰文 Thai 128 87 泰文(86个)、通用(1个)0 BMP U+0E80..U+0EFF 寮文(老挝语) Lao 128 83 寮文0 BMP U+0F00..U+0FFF 藏文 Tibetan 256 211 藏文字母(207个)、通用(4个)0 BMP U+1000..U+109F 缅甸文 Myanmar 160 160 缅文0 BMP U+10A0..U+10FF 格鲁吉亚字母 Georgian 96 88 格鲁吉亚字母(87个)、通用(1个)0 BMP U+1100..U+11FF 谚文字母 Hangul Jamo 256 256 谚文(朝鲜文)0 BMP U+1200..U+137F 埃塞俄比亚字母 Ethiopic 384 358 吉兹字母0 BMP U+1380..U+139F 埃塞俄比亚字母补充 Ethiopic Supplement 32 26 吉兹字母0 BMP U+13A0..U+13FF 切罗基文 Cherokee 96 92 切罗基文0 BMP U+1400..U+167F 统一加拿大原住民音节文字 Unified Canadian Aboriginal Syllabics 640 640 加拿大原住民音节文字0 BMP U+1680..U+169F 欧甘字母 Ogham 32 29 欧甘字母0 BMP U+16A0..U+16FF 卢恩字母 Runic 96 89 卢恩字母(86个)、通用(3个)0 BMP U+1700..U+171F 他加禄字母 Tagalog 32 23 他加禄字母0 BMP U+1720..U+173F 哈努诺文 Hanunoo 32 23 哈努诺字母(21个)、通用(2个)0 BMP U+1740..U+175F 布希德字母 Buhid 32 20 布希德文0 BMP U+1760..U+177F 塔格班瓦字母 Tagbanwa 32 18 塔格班瓦字母0 BMP U+1780..U+17FF 高棉文 Khmer 128 114 高棉文0 BMP U+1800..U+18AF 蒙古文 Mongolian 176 158 蒙古文字母(155个)、通用(3个)0 BMP U+18B0..U+18FF 统一加拿大原住民音节文字扩展 Unified Canadian Aboriginal Syllabics Extended 80 70 加拿大原住民音节文字0 BMP U+1900..U+194F 林布文 Limbu 80 68 林布文0 BMP U+1950..U+197F 德宏傣文 Tai Le 48 35 德宏傣文0 BMP U+1980..U+19DF 新傣仂文 New Tai Le 96 83 新傣仂文0 BMP U+19E0..U+19FF 高棉文符号 Khmer Symbols 32 32 高棉文0 BMP U+1A00..U+1A1F 布吉文 Buginese 32 30 布吉文0 BMP U+1A20..U+1AAF 老傣文 Tai Tham 144 127 老傣仂文0 BMP U+1AB0..U+1AFF 组合附加符号扩展 Combining Diacritical Marks Extended 80 31 继承0 BMP U+1B00..U+1B7F 巴厘字母 Balinese 128 124 巴厘字母0 BMP U+1B80..U+1BBF 巽他字母 Sundanese 64 64 巽他字母0 BMP U+1BC0..U+1BFF 巴塔克字母 Batak 64 56 巴塔克字母0 BMP U+1C00..U+1C4F 绒巴文 Lepcha 80 74 绒巴文0 BMP U+1C50..U+1C7F 桑塔利文 Ol Chiki 48 48 桑塔利文0 BMP U+1C80..U+1C8F 西里尔字母扩展-C Cyrillic Extended-C 16 9 西里尔字母0 BMP U+1C90..U+1CBF 格鲁吉亚字母扩展 Georgian Extended 48 46 格鲁吉亚字母0 BMP U+1CC0..U+1CCF 巽他字母补充 Sundanese Supplement 16 8 巽他字母0 BMP U+1CD0..U+1CFF 吠陀扩展 Vedic Extensions 48 43 通用(16个)、继承(27个)0 BMP U+1D00..U+1D7F 音标扩展 Phonetic Extensions 128 128 西里尔字母(2个)、希腊字母(15个)、拉丁字母(111个)0 BMP U+1D80..U+1DBF 音标扩展补充 Phonetic Extensions Supplement 64 64 希腊字母(1个)、拉丁字母(63个)0 BMP U+1DC0..U+1DFF 组合附加符号补充 Combining Diacritical Marks Supplement 64 64 继承0 BMP U+1E00..U+1EFF 拉丁字母扩展附加 Latin Extended Additional 256 256 拉丁0 BMP U+1F00..U+1FFF 希腊字母扩展 Greek Extended 256 233 希腊字母0 BMP U+2000..U+206F 一般标点 General Punctuation 112 111 通用(109个)、继承(2个)0 BMP U+2070..U+209F 上标及下标 Superscripts and Subscripts 48 42 拉丁(15个)、通用(27个)0 BMP U+20A0..U+20CF 货币符号 Currency Symbols 48 33 通用0 BMP U+20D0..U+20FF 符号用组合附加符号 Combining Diacritical Marks for Symbols 48 33 继承0 BMP U+2100..U+214F 类字母符号 Letterlike Symbols 80 80 希腊文(1个)、拉丁(4个)、通用(75个)0 BMP U+2150..U+218F 数字形式 Number Forms 64 60 拉丁(41个)、通用(19个)0 BMP U+2190..U+21FF 箭头 Arrows 112 112 通用0 BMP U+2200..U+22FF 数学运算符 Mathematical Operators 256 256 通用0 BMP U+2300..U+23FF 杂项技术符号 Miscellaneous Technical 256 256 通用0 BMP U+2400..U+243F 控制图形 Control Pictures 64 39 通用0 BMP U+2440..U+245F 光学字符识别 Optical Character Recognition 32 11 通用0 BMP U+2460..U+24FF 带圈字母数字 Enclosed Alphanumerics 160 160 通用0 BMP U+2500..U+257F 制表符 Box Drawing 128 128 通用0 BMP U+2580..U+259F 方块元素 Block Elements 32 32 通用0 BMP U+25A0..U+25FF 几何图形 Geometric Shapes 96 96 通用0 BMP U+2600..U+26FF 杂项符号 Miscellaneous Symbols 256 256 通用0 BMP U+2700..U+27BF 装饰符号 Dingbats 192 192 通用0 BMP U+27C0..U+27EF 杂项数学符号-A Miscellaneous Mathematical Symbols-A 48 48 通用0 BMP U+27F0..U+27FF 追加箭头-A Supplemental Arrows-A 16 16 通用0 BMP U+2800..U+28FF 点字图案 Braille Patterns 256 256 盲文0 BMP U+2900..U+297F 追加箭头-B Supplemental Arrows-B 128 128 通用0 BMP U+2980..U+29FF 杂项数学符号-B Miscellaneous Mathematical Symbols-B 128 128 通用0 BMP U+2A00..U+2AFF 补充数学运算符 Supplemental Mathematical Operators 256 256 通用0 BMP U+2B00..U+2BFF 杂项符号和箭头 Miscellaneous Symbols and Arrows 256 253 通用0 BMP U+2C00..U+2C5F 格拉哥里字母 Glagolitic 96 96 格拉哥里字母0 BMP U+2C60..U+2C7F 拉丁字母扩展-C Latin Extended-C 32 32 拉丁字母0 BMP U+2C80..U+2CFF 科普特字母 Coptic 128 123 科普特字母0 BMP U+2D00..U+2D2F 格鲁吉亚字母补充 Georgian Supplement 48 40 格鲁吉亚字母0 BMP U+2D30..U+2D7F 提非纳文 Tifinagh 80 59 提非纳文0 BMP U+2D80..U+2DDF 埃塞俄比亚字母扩展 Ethiopic Extended 96 79 吉兹字母0 BMP U+2DE0..U+2DFF 西里尔字母扩展-A Cyrillic Extended-A 32 32 西里尔字母0 BMP U+2E00..U+2E7F 补充标点 Supplemental Punctuation 128 94 通用0 BMP U+2E80..U+2EFF 中日韩汉字部首补充 CJK Radicals Supplement 128 115 汉字0 BMP U+2F00..U+2FDF 康熙部首 Kangxi Radicals 224 214 汉字0 BMP U+2FF0..U+2FFF 表意文字描述字符 Ideographic Description Characters 16 12 通用(汉字结构描述字符)0 BMP U+3000..U+303F 中日韩符号和标点 CJK Symbols and Punctuation 64 64 汉字(15个)、谚文(2个)、通用(43个)、继承(4个)0 BMP U+3040..U+309F 日文平假名 Hiragana 96 93 平假名(89个)、通用(2个)、继承(2个)0 BMP U+30A0..U+30FF 日文片假名 Katakana 96 96 片假名(93个)、通用(3个)0 BMP U+3100..U+312F 注音符号 Bopomofo 48 43 注音符号0 BMP U+3130..U+318F 谚文相容字母 Hangul Compatibility Jamo 96 94 谚文(朝鲜文兼容字母)0 BMP U+3190..U+319F 汉文训读符号 Kanbun 16 16 通用0 BMP U+31A0..U+31BF 注音符号扩展 Bopomofo Extended 32 32 注音符号(闽南语、客家语扩展)0 BMP U+31C0..U+31EF 中日韩笔画 CJK Strokes 48 36 通用0 BMP U+31F0..U+31FF 片假名语音扩展 Katakana Phonetic Extensions 16 16 片假名0 BMP U+3200..U+32FF 中日韩围绕字元及月份 Enclosed CJK Letters and Months 256 255 谚文(62个)、片假名(47个)、通用(146个)0 BMP U+3300..U+33FF 中日韩相容字元(日期合并) CJK Compatibility 256 256 片假名(88个)、通用(168个)//中文字符开始0 BMP U+3400..U+4DBF 中日韩统一表意文字扩展区A CJK Unified Ideographs Extension A 6,592 6,592 汉字0 BMP U+4DC0..U+4DFF 易经六十四卦符号 Yijing Hexagram Symbols 64 64 通用0 BMP U+4E00..U+9FFF 中日韩统一表意文字 (基本区) CJK Unified Ideographs 20,992 20,992 汉字//中文字符结束0 BMP U+A000..U+A48F 彝文音节 Yi Syllables 1,168 1,165 彝文0 BMP U+A490..U+A4CF 彝文部首 Yi Radicals 64 55 彝文0 BMP U+A4D0..U+A4FF 傈僳文 Lisu 48 48 老傈僳文0 BMP U+A500..U+A63F 瓦伊文 Vai 320 300 瓦伊文0 BMP U+A640..U+A69F 西里尔字母扩展-B Cyrillic Extended-B 96 96 西里尔字母0 BMP U+A6A0..U+A6FF 巴姆穆文字 Bamum 96 88 巴姆穆文字0 BMP U+A700..U+A71F 声调修饰符号 Modifier Tone Letters 32 32 通用0 BMP U+A720..U+A7FF 拉丁字母扩展-D Latin Extended-D 224 193 拉丁(188个)、通用(5个)0 BMP U+A800..U+A82F 锡尔赫特文 Syloti Nagri 48 45 锡尔赫特文0 BMP U+A830..U+A83F 通用印度数字形式 Common Indic Number Forms 16 10 通用0 BMP U+A840..U+A87F 八思巴文 Phags-pa 64 56 八思巴字0 BMP U+A880..U+A8DF 索拉什特拉文 Saurashtra 96 82 索拉什特拉文0 BMP U+A8E0..U+A8FF 天城文扩展 Devanagari Extended 32 32 天城文0 BMP U+A900..U+A92F 克耶字母 Kayah Li 48 48 克耶字母(47个)、通用(1个)0 BMP U+A930..U+A95F 勒姜字母 Rejang 48 37 勒姜字母0 BMP U+A960..U+A97F 谚文字母扩展-A Hangul Jamo Extended-A 32 29 谚文0 BMP U+A980..U+A9DF 爪哇字母 Javanese 96 91 爪哇字母(90个)、通用(1个)0 BMP U+A9E0..U+A9FF 缅甸文扩展-B Myanmar Extended-B 32 31 缅甸文0 BMP U+AA00..U+AA5F 占文 Cham 96 83 占文0 BMP U+AA60..U+AA7F 缅甸文扩展-A Myanmar Extended-A 32 32 缅文0 BMP U+AA80..U+AADF 傣越文 Tai Viet 96 72 傣越文0 BMP U+AAE0..U+AAFF 梅泰文扩展 Meetei Mayek Extensions 32 23 曼尼普尔文0 BMP U+AB00..U+AB2F 埃塞俄比亚字母扩展-A Ethiopic Extended-A 48 32 吉兹字母0 BMP U+AB30..U+AB6F 拉丁字母扩展-E Latin Extended-E 64 60 拉丁(56个)、希腊语(1个)、通用(3个)0 BMP U+AB70..U+ABBF 切罗基文补充 Cherokee Supplement 80 80 切罗基文0 BMP U+ABC0..U+ABFF 梅泰文 Meetei Mayek 64 56 梅泰文0 BMP U+AC00..U+D7AF 谚文音节 Hangul Syllables 11,184 11,172 谚文(朝鲜文)0 BMP U+D7B0..U+D7FF 谚文字母扩展-B Hangul Jamo Extended-B 80 72 谚文(朝鲜文)0 BMP U+D800..U+DB7F 高半代用区 High Surrogates 896 0 未知0 BMP U+DB80..U+DBFF 高半私人代用区 High Private Use Surrogates 128 0 未知0 BMP U+DC00..U+DFFF 低半代用区 Low Surrogates 1,024 0 未知0 BMP U+E000..U+F8FF 私用区 Private Use Area 6,400 6,400 未知0 BMP U+F900..U+FAFF 中日韩兼容表意文字 CJK Compatibility Ideographs 512 472 汉字0 BMP U+FB00..U+FB4F 字母表达形式 Alphabetic Presentation Forms 80 58 亚美尼亚文(5个)、希伯来文(46个)、拉丁(7个)0 BMP U+FB50..U+FDFF 阿拉伯字母表达形式-A Arabic Presentation Forms-A 688 631 阿拉伯字母(629个)、通用(2个)0 BMP U+FE00..U+FE0F 变体选择符 Variation Selectors 16 16 继承0 BMP U+FE10..U+FE1F 竖排形式 Vertical Forms 16 10 通用(中文竖排标点)0 BMP U+FE20..U+FE2F 组合用半符号 Combining Half Marks 16 16 西里尔字母(2个)、继承(14个)0 BMP U+FE30..U+FE4F 中日韩相容形式 CJK Compatibility Forms 32 32 通用(竖排变体、下划线、顿号)0 BMP U+FE50..U+FE6F 小写变体形式 Small Form Variants 32 26 通用0 BMP U+FE70..U+FEFF 阿拉伯字母表达形式-B Arabic Presentation Forms-B 144 141 阿拉伯字母(140个)、通用(1个)0 BMP U+FF00..U+FFEF 半形及全形字符 Halfwidth and Fullwidth Forms 240 225 谚文(52个)、片假名(55个)、拉丁(52个)、通用(66个)|全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母0 BMP U+FFF0..U+FFFF 特殊 Specials 16 5 通用1 SMP U+10000..U+1007F 线形文字B音节文字 Linear B Syllabary 128 88 线形文字B1 SMP U+10080..U+100FF 线形文字B表意文字 Linear B Ideograms 128 123 线形文字B1 SMP U+10100..U+1013F 爱琴海数字 Aegean Numbers 64 57 通用1 SMP U+10140..U+1018F 古希腊数字 Ancient Greek Numbers 80 79 希腊文1 SMP U+10190..U+101CF 古代符号 Ancient Symbols 64 14 希腊文(1个)、通用(13个)1 SMP U+101D0..U+101FF 斐斯托斯圆盘 Phaistos Disc 48 46 通用(45个)、继承(1个)1 SMP U+10280..U+1029F 吕基亚字母 Lycian 32 29 吕基亚字母1 SMP U+102A0..U+102DF 卡里亚字母 Carian 64 49 卡利亚字母1 SMP U+102E0..U+102FF 科普特闰余数字 Coptic Epact Numbers 32 28 通用(27个)、继承(1个)1 SMP U+10300..U+1032F 古意大利字母 Old Italic 48 39 古意大利字母1 SMP U+10330..U+1034F 哥特字母 Gothic 32 27 哥特字母1 SMP U+10350..U+1037F 古彼尔姆文 Old Permic 48 43 古彼尔姆文1 SMP U+10380..U+1039F 乌加里特字母 Ugaritic 32 31 乌加里特字母1 SMP U+103A0..U+103DF 古波斯楔形文字 Old Persian 64 50 古波斯楔形文字1 SMP U+10400..U+1044F 德瑟雷特字母 Deseret 80 80 德瑟雷特字母1 SMP U+10450..U+1047F 萧伯纳字母 Shavian 48 48 萧伯纳字母1 SMP U+10480..U+104AF 奥斯曼亚字母 Osmanya 48 40 奥斯曼亚字母1 SMP U+104B0..U+104FF 欧塞奇字母 Osage 80 72 欧塞奇字母1 SMP U+10500..U+1052F 爱尔巴桑字母 Elbasan 48 40 爱尔巴桑字母1 SMP U+10530..U+1056F 高加索阿尔巴尼亚字母 Caucasian Albanian 64 53 高加索阿尔巴尼亚文1 SMP U+10570..U+105BF 维斯库奇文 Vithkuqi 80 70 维斯库奇文1 SMP U+10600..U+1077F 线形文字A Linear A 384 341 线形文字A1 SMP U+10780..U+107BF 拉丁字母扩展-F Latin Extended-F 64 57 拉丁字母1 SMP U+10800..U+1083F 塞浦路斯音节文字 Cypriot Syllabary 64 55 塞浦路斯音节文字1 SMP U+10840..U+1085F 帝国亚拉姆文 Imperial Aramaic 32 31 帝国亚拉姆文字1 SMP U+10860..U+1087F 帕尔迈拉字母 Palmyrene 32 32 帕尔迈拉字母1 SMP U+10880..U+108AF 纳巴泰字母 Nabataean 48 40 纳巴泰字母1 SMP U+108E0..U+108FF 哈特拉文 Hatran 32 26 哈特拉文1 SMP U+10900..U+1091F 腓尼基字母 Phoenician 32 29 腓尼基字母1 SMP U+10920..U+1093F 吕底亚字母 Lydian 32 27 吕底亚字母1 SMP U+10980..U+1099F 麦罗埃文圣书体 Meroitic Hieroglyphs 32 32 麦罗埃文圣书体1 SMP U+109A0..U+109FF 麦罗埃文草书体 Meroitic Cursive 96 90 麦罗埃文草书体1 SMP U+10A00..U+10A5F 佉卢文 Kharoshthi 96 68 佉卢文1 SMP U+10A60..U+10A7F 古南阿拉伯字母 Old South Arabian 32 32 古南阿拉伯字母1 SMP U+10A80..U+10A9F 古北阿拉伯字母 Old North Arabian 32 32 古北阿拉伯字母1 SMP U+10AC0..U+10AFF 摩尼字母 Manichaean 64 51 摩尼字母1 SMP U+10B00..U+10B3F 阿维斯陀字母 Avestan 64 61 阿维斯陀字母1 SMP U+10B40..U+10B5F 碑刻帕提亚文 Inscriptional Parthian 32 30 碑刻帕提亚文1 SMP U+10B60..U+10B7F 碑刻巴列维文 Inscriptional Pahlavi 32 27 碑刻巴列维文1 SMP U+10B80..U+10BAF 诗篇巴列维文 Psalter Pahlavi 48 29 诗篇巴列维文1 SMP U+10C00..U+10C4F 古突厥文 Old Turkic 80 73 古突厥文1 SMP U+10C80..U+10CFF 古匈牙利字母 Old Hungarian 128 108 古匈牙利字母1 SMP U+10D00..U+10D3F 哈乃斐罗兴亚文字 Hanifi Rohingya 64 50 哈乃斐罗兴亚文字1 SMP U+10E60..U+10E7F 卢米文数字 Rumi Numeral Symbols 32 31 阿拉伯文1 SMP U+10E80..U+10EBF 雅兹迪文 Yezidi 64 47 雅兹迪文1 SMP U+10EC0..U+10EFF 阿拉伯字母扩展-C Arabic Extended-C 64 3 阿拉伯字母1 SMP U+10F00..U+10F2F 古粟特字母 Old Sogdian 48 40 古粟特字母1 SMP U+10F30..U+10F6F 粟特字母 Sogdian 64 42 粟特字母1 SMP U+10F70..U+10FAF 回鹘字母 Old Uyghur 64 26 回鹘字母1 SMP U+10FB0..U+10FDF 花剌子模字母 Chorasmian 48 28 花剌子模字母1 SMP U+10FE0..U+10FFF 埃利迈文 Elymaic 32 23 埃利迈文1 SMP U+11000..U+1107F 婆罗米文 Brahmi 128 115 婆罗米文1 SMP U+11080..U+110CF 凯提文 Kaithi 80 68 凯提文1 SMP U+110D0..U+110FF 索拉僧平文字 Sora Sompeng 48 35 索拉僧平文字1 SMP U+11100..U+1114F 查克马文 Chakma 80 71 查克马文1 SMP U+11150..U+1117F 马哈佳尼文 Mahajani 48 39 马哈佳尼文1 SMP U+11180..U+111DF 夏拉达文 Sharada 96 96 夏拉达文1 SMP U+111E0..U+111FF 古僧伽罗文数字 Sinhala Archaic Numbers 32 20 古僧伽罗文数字1 SMP U+11200..U+1124F 可吉文 Khojki 80 65 可吉文1 SMP U+11280..U+112AF 穆尔塔尼文 Multani 48 38 穆尔塔尼文1 SMP U+112B0..U+112FF 库达瓦迪文 Khudawadi 80 69 库达瓦迪文1 SMP U+11300..U+1137F 古兰塔文 Grantha 128 86 古兰塔文1 SMP U+11400..U+1147F 纽瓦字母 Newa 128 97 纽瓦字母1 SMP U+11480..U+114DF 底罗仆多文 Tirhuta 96 82 底罗仆多文1 SMP U+11580..U+115FF 悉昙文字 Siddham 128 92 悉昙文字1 SMP U+11600..U+1165F 莫迪文 Modi 96 79 莫迪文1 SMP U+11660..U+1167F 蒙古文补充 Mongolian Supplement 32 13 蒙古文1 SMP U+11680..U+116CF 塔克里文 Takri 80 68 塔克里文1 SMP U+11700..U+1174F 阿洪姆文 Ahom 80 65 阿洪姆文1 SMP U+11800..U+1184F 多格拉文 Dogra 80 60 多格拉文1 SMP U+118A0..U+118FF 瓦兰齐地文 Warang Citi 96 84 瓦兰齐地文1 SMP U+11900..U+1195F 岛屿字母 Dhives Akuru (Dives Akuru) 96 72 岛屿字母1 SMP U+119A0..U+119FF 南迪城文 Nandinagari 96 65 南迪城文1 SMP U+11A00..U+11A4F 札那巴札尔方形字母 Zanabazar Square 80 72 札那巴札尔方形字母1 SMP U+11A50..U+11AAF 索永布文字 Soyombo 96 83 索永布文字1 SMP U+11AB0..U+11ABF 加拿大原住民音节文字扩展-A Unified Canadian Aboriginal Syllabics Extended-A 16 16 加拿大原住民音节文字1 SMP U+11AC0..U+11AFF 包钦豪文 Pau Cin Hau 64 57 包钦豪文1 SMP U+11B00..U+11B5F 天城文扩展-A Devanagari Extended-A 96 10 天城文1 SMP U+11C00..U+11C6F 拜克舒基文 Bhaiksuki 112 97 拜克舒基文1 SMP U+11C70..U+11CBF 玛钦文 Marchen 80 68 玛钦文1 SMP U+11D00..U+11D5F 马萨拉姆贡德文字 Masaram Gondi 96 75 马萨拉姆贡德文字1 SMP U+11D60..U+11DAF 贡贾拉贡德文字 Gunjala Gondi 80 63 贡贾拉贡德文字1 SMP U+11EE0..U+11EFF 望加锡文 Makasar 32 25 望加锡文1 SMP U+11F00..U+11F5F 卡维文 Kawi 96 86 卡维文1 SMP U+11FB0..U+11FBF 老傈僳文补充 Lisu Supplement 16 1 老傈僳文1 SMP U+11FC0..U+11FFF 泰米尔文补充 Tamil Supplement 64 51 泰米尔文1 SMP U+12000..U+123FF 楔形文字 Cuneiform 1,024 922 楔形文字1 SMP U+12400..U+1247F 楔形文字数字和标点符号 Cuneiform Numbers and Punctuation 128 116 楔形文字1 SMP U+12480..U+1254F 早期王朝楔形文字 Early Dynastic Cuneiform 208 196 楔形文字1 SMP U+12F90..U+12FFF 塞浦路斯-米诺斯文字 Cypro-Minoan 112 99 塞浦路斯-米诺斯文字1 SMP U+13000..U+1342F 埃及圣书体 Egyptian Hieroglyphs 1,072 1,072 埃及圣书体1 SMP U+13430..U+1345F 埃及圣书体格式控制 Egyptian Hieroglyph Format Controls 48 38 埃及圣书体1 SMP U+14400..U+1467F 安纳托利亚象形文字 Anatolian Hieroglyphs 640 583 安纳托利亚象形文字1 SMP U+16800..U+16A3F 巴姆穆文字补充 Bamum Supplement 576 569 巴姆穆文字1 SMP U+16A40..U+16A6F 默禄文 Mro 48 43 默禄文1 SMP U+16A70..U+16ACF 唐萨文 Tangsa 96 89 唐萨文1 SMP U+16AD0..U+16AFF 巴萨文 Bassa Vah 48 36 巴萨文1 SMP U+16B00..U+16B8F 救世苗文 Pahawh Hmong 144 127 救世苗文1 SMP U+16E40..U+16E9F 梅德法伊德林文 Medefaidrin 96 91 梅德法伊德林文1 SMP U+16F00..U+16F9F 柏格理苗文 Miao 160 149 柏格理苗文1 SMP U+16FE0..U+16FFF 表意符号和标点符号 Ideographic Symbols and Punctuation 32 7 汉字(2个)、契丹小字(1个)、女书(1个)、西夏文(1个)、通用(2个)1 SMP U+17000..U+187FF 西夏文 Tangut 6,144 6,136 西夏文1 SMP U+18800..U+18AFF 西夏文部件 Tangut Components 768 768 西夏文1 SMP U+18B00..U+18CFF 契丹小字 Khitan Small Script 512 470 契丹小字1 SMP U+18D00..U+18D7F 西夏文补充 Tangut Supplement 128 9 西夏文1 SMP U+1AFF0..U+1AFFF 假名扩展-B Kana Extended-B 16 13 片假名1 SMP U+1B000..U+1B0FF 假名补充 Kana Supplement 256 256 平假名(255个)、片假名(1个)1 SMP U+1B100..U+1B12F 假名扩展-A Kana Extended-A 48 35 平假名(32个)、片假名(3个)1 SMP U+1B130..U+1B16F 小型假名扩展 Small Kana Extension 64 9 平假名 (4个)、片假名 (5个)1 SMP U+1B170..U+1B2FF 女书 Nushu 400 396 女书1 SMP U+1BC00..U+1BC9F 杜普雷速记 Duployan 160 143 杜普雷速记1 SMP U+1BCA0..U+1BCAF 速记格式控制符 Shorthand Format Controls 16 4 通用1 SMP U+1CF00..U+1CFCF 赞玫尼圣歌音乐符号 Znamenny Musical Notation 208 185 赞玫尼圣歌音乐符号1 SMP U+1D000..U+1D0FF 拜占庭音乐符号 Byzantine Musical Symbols 256 246 通用1 SMP U+1D100..U+1D1FF 音乐符号 Musical Symbols 256 233 通用(211个)、继承(22个)1 SMP U+1D200..U+1D24F 古希腊音乐记号 Ancient Greek Musical Notation 80 70 希腊语1 SMP U+1D2C0..U+1D2DF 卡克托维克数字 Kaktovik Numerals 32 20 因努伊特数字1 SMP U+1D2E0..U+1D2FF 玛雅数字 Mayan Numerals 32 20 通用1 SMP U+1D300..U+1D35F 太玄经符号 Tai Xuan Jing Symbols 96 87 通用1 SMP U+1D360..U+1D37F 算筹 Counting Rod Numerals 32 25 通用1 SMP U+1D400..U+1D7FF 字母和数字符号 Mathematical Alphanumeric Symbols 1,024 996 通用1 SMP U+1D800..U+1DAAF 萨顿书写符号 Sutton SignWriting 688 672 萨顿书写符号1 SMP U+1DF00..U+1DFFF 拉丁字母扩展-G Latin Extended-G 256 37 拉丁字母1 SMP U+1E000..U+1E02F 格拉哥里字母补充 Glagolitic Supplement 48 38 格拉哥里字母1 SMP U+1E030..U+1E08F 西里尔字母扩展-D Cyrillic Extended-D 96 63 西里尔字母1 SMP U+1E100..U+1E14F 创世纪苗文 Nyiakeng Puachue Hmong 80 71 创世纪苗文1 SMP U+1E290..U+1E2BF 投投文 Toto 48 31 投投文1 SMP U+1E2C0..U+1E2FF 文乔字母 Wancho 64 59 文乔字母1 SMP U+1E4D0..U+1E4FF 蒙达里字母 Nag Mundari 48 42 蒙达里字母1 SMP U+1E7E0..U+1E7FF 埃塞俄比亚字母扩展-B Ethiopic Extended-B 32 28 吉兹字母1 SMP U+1E800..U+1E8DF 门德基卡库文 Mende Kikakui 224 213 门德基卡库文1 SMP U+1E900..U+1E95F 阿德拉姆字母 Adlam 96 88 阿德拉姆字母1 SMP U+1EC70..U+1ECBF 印度西亚格数字 Indic Siyaq Numbers 80 68 通用1 SMP U+1ED00..U+1ED4F 奥斯曼西亚格数字 Ottoman Siyaq Numbers 80 61 通用1 SMP U+1EE00..U+1EEFF 阿拉伯字母数字符号 Arabic Mathematical Alphabetic Symbols 256 143 阿拉伯文1 SMP U+1F000..U+1F02F 麻将牌 Mahjong Tiles 48 44 通用1 SMP U+1F030..U+1F09F 多米诺骨牌 Domino Tiles 112 100 通用1 SMP U+1F0A0..U+1F0FF 扑克牌 Playing Cards 96 82 通用1 SMP U+1F100..U+1F1FF 带圈字母数字补充 Enclosed Alphanumeric Supplement 256 200 通用1 SMP U+1F200..U+1F2FF 带圈表意文字补充 Enclosed Ideographic Supplement 256 64 平假名(1个)、通用(63个)1 SMP U+1F300..U+1F5FF 杂项符号和象形文字 Miscellaneous Symbols and Pictographs 768 768 通用1 SMP U+1F600..U+1F64F 表情符号 Emoticons 80 80 通用1 SMP U+1F650..U+1F67F 装饰符号 Ornamental Dingbats 48 48 通用1 SMP U+1F680..U+1F6FF 交通和地图符号 Transport and Map Symbols 128 118 通用1 SMP U+1F700..U+1F77F 炼金术符号 Alchemical Symbols 128 124 通用1 SMP U+1F780..U+1F7FF 几何图形扩展 Geometric Shapes Extended 128 103 通用1 SMP U+1F800..U+1F8FF 追加箭头-C Supplemental Arrows-C 256 150 通用1 SMP U+1F900..U+1F9FF 补充符号和象形文字 Supplemental Symbols and Pictographs 256 256 通用1 SMP U+1FA00..U+1FA6F 棋类符号 Chess Symbols 112 98 通用1 SMP U+1FA70..U+1FAFF 符号和象形文字扩展-A Symbols and Pictographs Extended-A 144 107 通用1 SMP U+1FB00..U+1FBFF 遗留计算符号 Symbols for Legacy Computing 256 212 通用2 SIP U+20000..U+2A6DF 中日韩统一表意文字扩展区B CJK Unified Ideographs Extension B 42,720 42,720 汉字2 SIP U+2A700..U+2B73F 中日韩统一表意文字扩展区C CJK Unified Ideographs Extension C 4,160 4,154 汉字2 SIP U+2B740..U+2B81F 中日韩统一表意文字扩展区D CJK Unified Ideographs Extension D 224 222 汉字2 SIP U+2B820..U+2CEAF 中日韩统一表意文字扩展区E CJK Unified Ideographs Extension E 5,776 5,762 汉字2 SIP U+2CEB0..U+2EBEF 中日韩统一表意文字扩展区F CJK Unified Ideographs Extension F 7,488 7,473 汉字2 SIP U+2F800..U+2FA1F 中日韩相容表意文字补充区 CJK Compatibility Ideographs Supplement 544 542 汉字3 TIP U+30000..U+3134F 中日韩统一表意文字扩展区G CJK Unified Ideographs Extension G 4944 4939 汉字3 TIP U+31350..U+323AF 中日韩统一表意文字扩展区H CJK Unified Ideographs Extension H 4192 4192 汉字
14 SSP U+E0000..U+E007F 标签 Tags 128 97 通用
14 SSP U+E0100..U+E01EF 变体选择符补充 Variation Selectors Supplement 240 240 继承
15 PUA-A U+F0000..U+FFFFF 补充私人使用区-A Supplementary Private Use Area-A 65,536 65,534 未知
16 PUA-B U+100000..U+10FFFF 补充私人使用区-B Supplementary Private Use Area-B 65,536 65,534 未知a. 代码点包括未分配的代码点(非字符或保留代码点)。
b. 根据文字属性的定义,文字在区段中有一个或多个字符,与区段名称无关
c. “通用”、“未知”(Zyyy) 与“继承”(Zinh 或 Qaai) 参考自ISO 15924的4位代码
d. Unicode区段资料文件,根据 Unicode 13.0
e. UAX 24:Unicode文字属性(4位代码)
f. UAX 24:文字资料档案
g. 在ISO/IEC 10646称为“C0 Controls and Basic Latin”。
h. 在ISO/IEC 10646称为“C1 Controls and Latin-1 Supplement”。
[Unicode区段与包含的文字]
注: TAB 键使用 50个空格。
平面 | 区段范围 | 区段名称 | 码位数[a] | 已定义字元数 | 文字[b][c][d][e][f] | |
汉语 | 英语 | |||||
0 BMP | U+0000..U+007F | 基本拉丁字母 | Basic Latin[g] | 128 | 128 | 拉丁字母(52个)、通用(76个) |
0 BMP | U+0080..U+00FF | 拉丁字母补充-1 | Latin-1 Supplement[h] | 128 | 128 | 拉丁字母(64个)、通用(64个) |
0 BMP | U+0100..U+017F | 拉丁字母扩展-A | Latin Extended-A | 128 | 128 | 拉丁 |
0 BMP | U+0180..U+024F | 拉丁字母扩展-B | Latin Extended-B | 208 | 208 | 拉丁 |
0 BMP | U+0250..U+02AF | 国际音标扩展 | IPA Extensions | 96 | 96 | 拉丁 |
0 BMP | U+02B0..U+02FF | 占位修饰符号 | Spacing Modifier Letters | 80 | 80 | 注音符号(2个)、拉丁(14个)、通用(64个) |
0 BMP | U+0300..U+036F | 组合附加符号 | Combining Diacritical Marks | 112 | 112 | 继承 |
0 BMP | U+0370..U+03FF | 希腊字母和科普特字母 | Greek and Coptic | 144 | 135 | 科普特字母(14个)、希腊字母(117个)、通用(4个) |
0 BMP | U+0400..U+04FF | 西里尔字母 | Cyrillic | 256 | 256 | 西里尔字母(254个)、继承(2个) |
0 BMP | U+0500..U+052F | 西里尔字母补充 | Cyrillic Supplement | 48 | 48 | 西里尔字母 |
0 BMP | U+0530..U+058F | 亚美尼亚字母 | Armenian | 96 | 91 | 亚美尼亚字母 |
0 BMP | U+0590..U+05FF | 希伯来文字母 | Hebrew | 112 | 88 | 希伯来字母 |
0 BMP | U+0600..U+06FF | 阿拉伯文字母 | Arabic | 256 | 256 | 阿拉伯字母(238个)、通用(6个)、继承(12个) |
0 BMP | U+0700..U+074F | 叙利亚字母 | Syriac | 80 | 77 | 叙利亚字母 |
0 BMP | U+0750..U+077F | 阿拉伯文补充 | Arabic Supplement | 48 | 48 | 阿拉伯文 |
0 BMP | U+0780..U+07BF | 它拿字母 | Thaana | 64 | 50 | 它拿字母(塔纳语) |
0 BMP | U+07C0..U+07FF | 西非书面文字 | NKo | 64 | 62 | 西非书面文字 |
0 BMP | U+0800..U+083F | 撒玛利亚字母 | Samaritan | 64 | 61 | 撒玛利亚字母 |
0 BMP | U+0840..U+085F | 曼达安字母 | Mandaic | 32 | 29 | 曼达安字母 |
0 BMP | U+0860..U+086F | 叙利亚文补充 | Syriac Supplement | 16 | 11 | 叙利亚文 |
0 BMP | U+0870..U+089F | 阿拉伯字母扩展-B | Arabic Extended-B | 48 | 41 | 阿拉伯字母 |
0 BMP | U+08A0..U+08FF | 阿拉伯字母扩展-A | Arabic Extended-A | 96 | 96 | 阿拉伯字母(95个)、通用(1个) |
0 BMP | U+0900..U+097F | 天城文(梵文) | Devanagari | 128 | 128 | 天城文(122个)、通用(2个)、继承(4个) |
0 BMP | U+0980..U+09FF | 孟加拉文 | Bengali | 128 | 96 | 孟加拉文 |
0 BMP | U+0A00..U+0A7F | 古木基文 | Gurmukhi | 128 | 80 | 古木基文 |
0 BMP | U+0A80..U+0AFF | 古吉拉特文 | Gujarati | 128 | 91 | 古吉拉特文 |
0 BMP | U+0B00..U+0B7F | 奥里亚文 | Oriya | 128 | 91 | 奥里亚文 |
0 BMP | U+0B80..U+0BFF | 泰米尔文 | Tamil | 128 | 72 | 泰米尔文 |
0 BMP | U+0C00..U+0C7F | 泰卢固文 | Telugu | 128 | 100 | 泰卢固文 |
0 BMP | U+0C80..U+0CFF | 卡纳达文 | Kannada | 128 | 91 | 卡纳达文 |
0 BMP | U+0D00..U+0D7F | 马拉雅拉姆文 | Malayalam | 128 | 118 | 马拉雅拉姆文 |
0 BMP | U+0D80..U+0DFF | 僧伽罗文 | Sinhala | 128 | 91 | 僧伽罗文 |
0 BMP | U+0E00..U+0E7F | 泰文 | Thai | 128 | 87 | 泰文(86个)、通用(1个) |
0 BMP | U+0E80..U+0EFF | 寮文(老挝语) | Lao | 128 | 83 | 寮文 |
0 BMP | U+0F00..U+0FFF | 藏文 | Tibetan | 256 | 211 | 藏文字母(207个)、通用(4个) |
0 BMP | U+1000..U+109F | 缅甸文 | Myanmar | 160 | 160 | 缅文 |
0 BMP | U+10A0..U+10FF | 格鲁吉亚字母 | Georgian | 96 | 88 | 格鲁吉亚字母(87个)、通用(1个) |
0 BMP | U+1100..U+11FF | 谚文字母 | Hangul Jamo | 256 | 256 | 谚文(朝鲜文) |
0 BMP | U+1200..U+137F | 埃塞俄比亚字母 | Ethiopic | 384 | 358 | 吉兹字母 |
0 BMP | U+1380..U+139F | 埃塞俄比亚字母补充 | Ethiopic Supplement | 32 | 26 | 吉兹字母 |
0 BMP | U+13A0..U+13FF | 切罗基文 | Cherokee | 96 | 92 | 切罗基文 |
0 BMP | U+1400..U+167F | 统一加拿大原住民音节文字 | Unified Canadian Aboriginal Syllabics | 640 | 640 | 加拿大原住民音节文字 |
0 BMP | U+1680..U+169F | 欧甘字母 | Ogham | 32 | 29 | 欧甘字母 |
0 BMP | U+16A0..U+16FF | 卢恩字母 | Runic | 96 | 89 | 卢恩字母(86个)、通用(3个) |
0 BMP | U+1700..U+171F | 他加禄字母 | Tagalog | 32 | 23 | 他加禄字母 |
0 BMP | U+1720..U+173F | 哈努诺文 | Hanunoo | 32 | 23 | 哈努诺字母(21个)、通用(2个) |
0 BMP | U+1740..U+175F | 布希德字母 | Buhid | 32 | 20 | 布希德文 |
0 BMP | U+1760..U+177F | 塔格班瓦字母 | Tagbanwa | 32 | 18 | 塔格班瓦字母 |
0 BMP | U+1780..U+17FF | 高棉文 | Khmer | 128 | 114 | 高棉文 |
0 BMP | U+1800..U+18AF | 蒙古文 | Mongolian | 176 | 158 | 蒙古文字母(155个)、通用(3个) |
0 BMP | U+18B0..U+18FF | 统一加拿大原住民音节文字扩展 | Unified Canadian Aboriginal Syllabics Extended | 80 | 70 | 加拿大原住民音节文字 |
0 BMP | U+1900..U+194F | 林布文 | Limbu | 80 | 68 | 林布文 |
0 BMP | U+1950..U+197F | 德宏傣文 | Tai Le | 48 | 35 | 德宏傣文 |
0 BMP | U+1980..U+19DF | 新傣仂文 | New Tai Le | 96 | 83 | 新傣仂文 |
0 BMP | U+19E0..U+19FF | 高棉文符号 | Khmer Symbols | 32 | 32 | 高棉文 |
0 BMP | U+1A00..U+1A1F | 布吉文 | Buginese | 32 | 30 | 布吉文 |
0 BMP | U+1A20..U+1AAF | 老傣文 | Tai Tham | 144 | 127 | 老傣仂文 |
0 BMP | U+1AB0..U+1AFF | 组合附加符号扩展 | Combining Diacritical Marks Extended | 80 | 31 | 继承 |
0 BMP | U+1B00..U+1B7F | 巴厘字母 | Balinese | 128 | 124 | 巴厘字母 |
0 BMP | U+1B80..U+1BBF | 巽他字母 | Sundanese | 64 | 64 | 巽他字母 |
0 BMP | U+1BC0..U+1BFF | 巴塔克字母 | Batak | 64 | 56 | 巴塔克字母 |
0 BMP | U+1C00..U+1C4F | 绒巴文 | Lepcha | 80 | 74 | 绒巴文 |
0 BMP | U+1C50..U+1C7F | 桑塔利文 | Ol Chiki | 48 | 48 | 桑塔利文 |
0 BMP | U+1C80..U+1C8F | 西里尔字母扩展-C | Cyrillic Extended-C | 16 | 9 | 西里尔字母 |
0 BMP | U+1C90..U+1CBF | 格鲁吉亚字母扩展 | Georgian Extended | 48 | 46 | 格鲁吉亚字母 |
0 BMP | U+1CC0..U+1CCF | 巽他字母补充 | Sundanese Supplement | 16 | 8 | 巽他字母 |
0 BMP | U+1CD0..U+1CFF | 吠陀扩展 | Vedic Extensions | 48 | 43 | 通用(16个)、继承(27个) |
0 BMP | U+1D00..U+1D7F | 音标扩展 | Phonetic Extensions | 128 | 128 | 西里尔字母(2个)、希腊字母(15个)、拉丁字母(111个) |
0 BMP | U+1D80..U+1DBF | 音标扩展补充 | Phonetic Extensions Supplement | 64 | 64 | 希腊字母(1个)、拉丁字母(63个) |
0 BMP | U+1DC0..U+1DFF | 组合附加符号补充 | Combining Diacritical Marks Supplement | 64 | 64 | 继承 |
0 BMP | U+1E00..U+1EFF | 拉丁字母扩展附加 | Latin Extended Additional | 256 | 256 | 拉丁 |
0 BMP | U+1F00..U+1FFF | 希腊字母扩展 | Greek Extended | 256 | 233 | 希腊字母 |
0 BMP | U+2000..U+206F | 一般标点 | General Punctuation | 112 | 111 | 通用(109个)、继承(2个) |
0 BMP | U+2070..U+209F | 上标及下标 | Superscripts and Subscripts | 48 | 42 | 拉丁(15个)、通用(27个) |
0 BMP | U+20A0..U+20CF | 货币符号 | Currency Symbols | 48 | 33 | 通用 |
0 BMP | U+20D0..U+20FF | 符号用组合附加符号 | Combining Diacritical Marks for Symbols | 48 | 33 | 继承 |
0 BMP | U+2100..U+214F | 类字母符号 | Letterlike Symbols | 80 | 80 | 希腊文(1个)、拉丁(4个)、通用(75个) |
0 BMP | U+2150..U+218F | 数字形式 | Number Forms | 64 | 60 | 拉丁(41个)、通用(19个) |
0 BMP | U+2190..U+21FF | 箭头 | Arrows | 112 | 112 | 通用 |
0 BMP | U+2200..U+22FF | 数学运算符 | Mathematical Operators | 256 | 256 | 通用 |
0 BMP | U+2300..U+23FF | 杂项技术符号 | Miscellaneous Technical | 256 | 256 | 通用 |
0 BMP | U+2400..U+243F | 控制图形 | Control Pictures | 64 | 39 | 通用 |
0 BMP | U+2440..U+245F | 光学字符识别 | Optical Character Recognition | 32 | 11 | 通用 |
0 BMP | U+2460..U+24FF | 带圈字母数字 | Enclosed Alphanumerics | 160 | 160 | 通用 |
0 BMP | U+2500..U+257F | 制表符 | Box Drawing | 128 | 128 | 通用 |
0 BMP | U+2580..U+259F | 方块元素 | Block Elements | 32 | 32 | 通用 |
0 BMP | U+25A0..U+25FF | 几何图形 | Geometric Shapes | 96 | 96 | 通用 |
0 BMP | U+2600..U+26FF | 杂项符号 | Miscellaneous Symbols | 256 | 256 | 通用 |
0 BMP | U+2700..U+27BF | 装饰符号 | Dingbats | 192 | 192 | 通用 |
0 BMP | U+27C0..U+27EF | 杂项数学符号-A | Miscellaneous Mathematical Symbols-A | 48 | 48 | 通用 |
0 BMP | U+27F0..U+27FF | 追加箭头-A | Supplemental Arrows-A | 16 | 16 | 通用 |
0 BMP | U+2800..U+28FF | 点字图案 | Braille Patterns | 256 | 256 | 盲文 |
0 BMP | U+2900..U+297F | 追加箭头-B | Supplemental Arrows-B | 128 | 128 | 通用 |
0 BMP | U+2980..U+29FF | 杂项数学符号-B | Miscellaneous Mathematical Symbols-B | 128 | 128 | 通用 |
0 BMP | U+2A00..U+2AFF | 补充数学运算符 | Supplemental Mathematical Operators | 256 | 256 | 通用 |
0 BMP | U+2B00..U+2BFF | 杂项符号和箭头 | Miscellaneous Symbols and Arrows | 256 | 253 | 通用 |
0 BMP | U+2C00..U+2C5F | 格拉哥里字母 | Glagolitic | 96 | 96 | 格拉哥里字母 |
0 BMP | U+2C60..U+2C7F | 拉丁字母扩展-C | Latin Extended-C | 32 | 32 | 拉丁字母 |
0 BMP | U+2C80..U+2CFF | 科普特字母 | Coptic | 128 | 123 | 科普特字母 |
0 BMP | U+2D00..U+2D2F | 格鲁吉亚字母补充 | Georgian Supplement | 48 | 40 | 格鲁吉亚字母 |
0 BMP | U+2D30..U+2D7F | 提非纳文 | Tifinagh | 80 | 59 | 提非纳文 |
0 BMP | U+2D80..U+2DDF | 埃塞俄比亚字母扩展 | Ethiopic Extended | 96 | 79 | 吉兹字母 |
0 BMP | U+2DE0..U+2DFF | 西里尔字母扩展-A | Cyrillic Extended-A | 32 | 32 | 西里尔字母 |
0 BMP | U+2E00..U+2E7F | 补充标点 | Supplemental Punctuation | 128 | 94 | 通用 |
0 BMP | U+2E80..U+2EFF | 中日韩汉字部首补充 | CJK Radicals Supplement | 128 | 115 | 汉字 |
0 BMP | U+2F00..U+2FDF | 康熙部首 | Kangxi Radicals | 224 | 214 | 汉字 |
0 BMP | U+2FF0..U+2FFF | 表意文字描述字符 | Ideographic Description Characters | 16 | 12 | 通用(汉字结构描述字符) |
0 BMP | U+3000..U+303F | 中日韩符号和标点 | CJK Symbols and Punctuation | 64 | 64 | 汉字(15个)、谚文(2个)、通用(43个)、继承(4个) |
0 BMP | U+3040..U+309F | 日文平假名 | Hiragana | 96 | 93 | 平假名(89个)、通用(2个)、继承(2个) |
0 BMP | U+30A0..U+30FF | 日文片假名 | Katakana | 96 | 96 | 片假名(93个)、通用(3个) |
0 BMP | U+3100..U+312F | 注音符号 | Bopomofo | 48 | 43 | 注音符号 |
0 BMP | U+3130..U+318F | 谚文相容字母 | Hangul Compatibility Jamo | 96 | 94 | 谚文(朝鲜文兼容字母) |
0 BMP | U+3190..U+319F | 汉文训读符号 | Kanbun | 16 | 16 | 通用 |
0 BMP | U+31A0..U+31BF | 注音符号扩展 | Bopomofo Extended | 32 | 32 | 注音符号(闽南语、客家语扩展) |
0 BMP | U+31C0..U+31EF | 中日韩笔画 | CJK Strokes | 48 | 36 | 通用 |
0 BMP | U+31F0..U+31FF | 片假名语音扩展 | Katakana Phonetic Extensions | 16 | 16 | 片假名 |
0 BMP | U+3200..U+32FF | 中日韩围绕字元及月份 | Enclosed CJK Letters and Months | 256 | 255 | 谚文(62个)、片假名(47个)、通用(146个) |
0 BMP | U+3300..U+33FF | 中日韩相容字元(日期合并) | CJK Compatibility | 256 | 256 | 片假名(88个)、通用(168个)//中文字符开始 |
0 BMP | U+3400..U+4DBF | 中日韩统一表意文字扩展区A | CJK Unified Ideographs Extension A | 6,592 | 6,592 | 汉字 |
0 BMP | U+4DC0..U+4DFF | 易经六十四卦符号 | Yijing Hexagram Symbols | 64 | 64 | 通用 |
0 BMP | U+4E00..U+9FFF | 中日韩统一表意文字 (基本区) | CJK Unified Ideographs | 20,992 | 20,992 | 汉字//中文字符结束 |
0 BMP | U+A000..U+A48F | 彝文音节 | Yi Syllables | 1,168 | 1,165 | 彝文 |
0 BMP | U+A490..U+A4CF | 彝文部首 | Yi Radicals | 64 | 55 | 彝文 |
0 BMP | U+A4D0..U+A4FF | 傈僳文 | Lisu | 48 | 48 | 老傈僳文 |
0 BMP | U+A500..U+A63F | 瓦伊文 | Vai | 320 | 300 | 瓦伊文 |
0 BMP | U+A640..U+A69F | 西里尔字母扩展-B | Cyrillic Extended-B | 96 | 96 | 西里尔字母 |
0 BMP | U+A6A0..U+A6FF | 巴姆穆文字 | Bamum | 96 | 88 | 巴姆穆文字 |
0 BMP | U+A700..U+A71F | 声调修饰符号 | Modifier Tone Letters | 32 | 32 | 通用 |
0 BMP | U+A720..U+A7FF | 拉丁字母扩展-D | Latin Extended-D | 224 | 193 | 拉丁(188个)、通用(5个) |
0 BMP | U+A800..U+A82F | 锡尔赫特文 | Syloti Nagri | 48 | 45 | 锡尔赫特文 |
0 BMP | U+A830..U+A83F | 通用印度数字形式 | Common Indic Number Forms | 16 | 10 | 通用 |
0 BMP | U+A840..U+A87F | 八思巴文 | Phags-pa | 64 | 56 | 八思巴字 |
0 BMP | U+A880..U+A8DF | 索拉什特拉文 | Saurashtra | 96 | 82 | 索拉什特拉文 |
0 BMP | U+A8E0..U+A8FF | 天城文扩展 | Devanagari Extended | 32 | 32 | 天城文 |
0 BMP | U+A900..U+A92F | 克耶字母 | Kayah Li | 48 | 48 | 克耶字母(47个)、通用(1个) |
0 BMP | U+A930..U+A95F | 勒姜字母 | Rejang | 48 | 37 | 勒姜字母 |
0 BMP | U+A960..U+A97F | 谚文字母扩展-A | Hangul Jamo Extended-A | 32 | 29 | 谚文 |
0 BMP | U+A980..U+A9DF | 爪哇字母 | Javanese | 96 | 91 | 爪哇字母(90个)、通用(1个) |
0 BMP | U+A9E0..U+A9FF | 缅甸文扩展-B | Myanmar Extended-B | 32 | 31 | 缅甸文 |
0 BMP | U+AA00..U+AA5F | 占文 | Cham | 96 | 83 | 占文 |
0 BMP | U+AA60..U+AA7F | 缅甸文扩展-A | Myanmar Extended-A | 32 | 32 | 缅文 |
0 BMP | U+AA80..U+AADF | 傣越文 | Tai Viet | 96 | 72 | 傣越文 |
0 BMP | U+AAE0..U+AAFF | 梅泰文扩展 | Meetei Mayek Extensions | 32 | 23 | 曼尼普尔文 |
0 BMP | U+AB00..U+AB2F | 埃塞俄比亚字母扩展-A | Ethiopic Extended-A | 48 | 32 | 吉兹字母 |
0 BMP | U+AB30..U+AB6F | 拉丁字母扩展-E | Latin Extended-E | 64 | 60 | 拉丁(56个)、希腊语(1个)、通用(3个) |
0 BMP | U+AB70..U+ABBF | 切罗基文补充 | Cherokee Supplement | 80 | 80 | 切罗基文 |
0 BMP | U+ABC0..U+ABFF | 梅泰文 | Meetei Mayek | 64 | 56 | 梅泰文 |
0 BMP | U+AC00..U+D7AF | 谚文音节 | Hangul Syllables | 11,184 | 11,172 | 谚文(朝鲜文) |
0 BMP | U+D7B0..U+D7FF | 谚文字母扩展-B | Hangul Jamo Extended-B | 80 | 72 | 谚文(朝鲜文) |
0 BMP | U+D800..U+DB7F | 高半代用区 | High Surrogates | 896 | 0 | 未知 |
0 BMP | U+DB80..U+DBFF | 高半私人代用区 | High Private Use Surrogates | 128 | 0 | 未知 |
0 BMP | U+DC00..U+DFFF | 低半代用区 | Low Surrogates | 1,024 | 0 | 未知 |
0 BMP | U+E000..U+F8FF | 私用区 | Private Use Area | 6,400 | 6,400 | 未知 |
0 BMP | U+F900..U+FAFF | 中日韩兼容表意文字 | CJK Compatibility Ideographs | 512 | 472 | 汉字 |
0 BMP | U+FB00..U+FB4F | 字母表达形式 | Alphabetic Presentation Forms | 80 | 58 | 亚美尼亚文(5个)、希伯来文(46个)、拉丁(7个) |
0 BMP | U+FB50..U+FDFF | 阿拉伯字母表达形式-A | Arabic Presentation Forms-A | 688 | 631 | 阿拉伯字母(629个)、通用(2个) |
0 BMP | U+FE00..U+FE0F | 变体选择符 | Variation Selectors | 16 | 16 | 继承 |
0 BMP | U+FE10..U+FE1F | 竖排形式 | Vertical Forms | 16 | 10 | 通用(中文竖排标点) |
0 BMP | U+FE20..U+FE2F | 组合用半符号 | Combining Half Marks | 16 | 16 | 西里尔字母(2个)、继承(14个) |
0 BMP | U+FE30..U+FE4F | 中日韩相容形式 | CJK Compatibility Forms | 32 | 32 | 通用(竖排变体、下划线、顿号) |
0 BMP | U+FE50..U+FE6F | 小写变体形式 | Small Form Variants | 32 | 26 | 通用 |
0 BMP | U+FE70..U+FEFF | 阿拉伯字母表达形式-B | Arabic Presentation Forms-B | 144 | 141 | 阿拉伯字母(140个)、通用(1个) |
0 BMP | U+FF00..U+FFEF | 半形及全形字符 | Halfwidth and Fullwidth Forms | 240 | 225 | 谚文(52个)、片假名(55个)、拉丁(52个)、通用(66个)|全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母 |
0 BMP | U+FFF0..U+FFFF | 特殊 | Specials | 16 | 5 | 通用 |
1 SMP | U+10000..U+1007F | 线形文字B音节文字 | Linear B Syllabary | 128 | 88 | 线形文字B |
1 SMP | U+10080..U+100FF | 线形文字B表意文字 | Linear B Ideograms | 128 | 123 | 线形文字B |
1 SMP | U+10100..U+1013F | 爱琴海数字 | Aegean Numbers | 64 | 57 | 通用 |
1 SMP | U+10140..U+1018F | 古希腊数字 | Ancient Greek Numbers | 80 | 79 | 希腊文 |
1 SMP | U+10190..U+101CF | 古代符号 | Ancient Symbols | 64 | 14 | 希腊文(1个)、通用(13个) |
1 SMP | U+101D0..U+101FF | 斐斯托斯圆盘 | Phaistos Disc | 48 | 46 | 通用(45个)、继承(1个) |
1 SMP | U+10280..U+1029F | 吕基亚字母 | Lycian | 32 | 29 | 吕基亚字母 |
1 SMP | U+102A0..U+102DF | 卡里亚字母 | Carian | 64 | 49 | 卡利亚字母 |
1 SMP | U+102E0..U+102FF | 科普特闰余数字 | Coptic Epact Numbers | 32 | 28 | 通用(27个)、继承(1个) |
1 SMP | U+10300..U+1032F | 古意大利字母 | Old Italic | 48 | 39 | 古意大利字母 |
1 SMP | U+10330..U+1034F | 哥特字母 | Gothic | 32 | 27 | 哥特字母 |
1 SMP | U+10350..U+1037F | 古彼尔姆文 | Old Permic | 48 | 43 | 古彼尔姆文 |
1 SMP | U+10380..U+1039F | 乌加里特字母 | Ugaritic | 32 | 31 | 乌加里特字母 |
1 SMP | U+103A0..U+103DF | 古波斯楔形文字 | Old Persian | 64 | 50 | 古波斯楔形文字 |
1 SMP | U+10400..U+1044F | 德瑟雷特字母 | Deseret | 80 | 80 | 德瑟雷特字母 |
1 SMP | U+10450..U+1047F | 萧伯纳字母 | Shavian | 48 | 48 | 萧伯纳字母 |
1 SMP | U+10480..U+104AF | 奥斯曼亚字母 | Osmanya | 48 | 40 | 奥斯曼亚字母 |
1 SMP | U+104B0..U+104FF | 欧塞奇字母 | Osage | 80 | 72 | 欧塞奇字母 |
1 SMP | U+10500..U+1052F | 爱尔巴桑字母 | Elbasan | 48 | 40 | 爱尔巴桑字母 |
1 SMP | U+10530..U+1056F | 高加索阿尔巴尼亚字母 | Caucasian Albanian | 64 | 53 | 高加索阿尔巴尼亚文 |
1 SMP | U+10570..U+105BF | 维斯库奇文 | Vithkuqi | 80 | 70 | 维斯库奇文 |
1 SMP | U+10600..U+1077F | 线形文字A | Linear A | 384 | 341 | 线形文字A |
1 SMP | U+10780..U+107BF | 拉丁字母扩展-F | Latin Extended-F | 64 | 57 | 拉丁字母 |
1 SMP | U+10800..U+1083F | 塞浦路斯音节文字 | Cypriot Syllabary | 64 | 55 | 塞浦路斯音节文字 |
1 SMP | U+10840..U+1085F | 帝国亚拉姆文 | Imperial Aramaic | 32 | 31 | 帝国亚拉姆文字 |
1 SMP | U+10860..U+1087F | 帕尔迈拉字母 | Palmyrene | 32 | 32 | 帕尔迈拉字母 |
1 SMP | U+10880..U+108AF | 纳巴泰字母 | Nabataean | 48 | 40 | 纳巴泰字母 |
1 SMP | U+108E0..U+108FF | 哈特拉文 | Hatran | 32 | 26 | 哈特拉文 |
1 SMP | U+10900..U+1091F | 腓尼基字母 | Phoenician | 32 | 29 | 腓尼基字母 |
1 SMP | U+10920..U+1093F | 吕底亚字母 | Lydian | 32 | 27 | 吕底亚字母 |
1 SMP | U+10980..U+1099F | 麦罗埃文圣书体 | Meroitic Hieroglyphs | 32 | 32 | 麦罗埃文圣书体 |
1 SMP | U+109A0..U+109FF | 麦罗埃文草书体 | Meroitic Cursive | 96 | 90 | 麦罗埃文草书体 |
1 SMP | U+10A00..U+10A5F | 佉卢文 | Kharoshthi | 96 | 68 | 佉卢文 |
1 SMP | U+10A60..U+10A7F | 古南阿拉伯字母 | Old South Arabian | 32 | 32 | 古南阿拉伯字母 |
1 SMP | U+10A80..U+10A9F | 古北阿拉伯字母 | Old North Arabian | 32 | 32 | 古北阿拉伯字母 |
1 SMP | U+10AC0..U+10AFF | 摩尼字母 | Manichaean | 64 | 51 | 摩尼字母 |
1 SMP | U+10B00..U+10B3F | 阿维斯陀字母 | Avestan | 64 | 61 | 阿维斯陀字母 |
1 SMP | U+10B40..U+10B5F | 碑刻帕提亚文 | Inscriptional Parthian | 32 | 30 | 碑刻帕提亚文 |
1 SMP | U+10B60..U+10B7F | 碑刻巴列维文 | Inscriptional Pahlavi | 32 | 27 | 碑刻巴列维文 |
1 SMP | U+10B80..U+10BAF | 诗篇巴列维文 | Psalter Pahlavi | 48 | 29 | 诗篇巴列维文 |
1 SMP | U+10C00..U+10C4F | 古突厥文 | Old Turkic | 80 | 73 | 古突厥文 |
1 SMP | U+10C80..U+10CFF | 古匈牙利字母 | Old Hungarian | 128 | 108 | 古匈牙利字母 |
1 SMP | U+10D00..U+10D3F | 哈乃斐罗兴亚文字 | Hanifi Rohingya | 64 | 50 | 哈乃斐罗兴亚文字 |
1 SMP | U+10E60..U+10E7F | 卢米文数字 | Rumi Numeral Symbols | 32 | 31 | 阿拉伯文 |
1 SMP | U+10E80..U+10EBF | 雅兹迪文 | Yezidi | 64 | 47 | 雅兹迪文 |
1 SMP | U+10EC0..U+10EFF | 阿拉伯字母扩展-C | Arabic Extended-C | 64 | 3 | 阿拉伯字母 |
1 SMP | U+10F00..U+10F2F | 古粟特字母 | Old Sogdian | 48 | 40 | 古粟特字母 |
1 SMP | U+10F30..U+10F6F | 粟特字母 | Sogdian | 64 | 42 | 粟特字母 |
1 SMP | U+10F70..U+10FAF | 回鹘字母 | Old Uyghur | 64 | 26 | 回鹘字母 |
1 SMP | U+10FB0..U+10FDF | 花剌子模字母 | Chorasmian | 48 | 28 | 花剌子模字母 |
1 SMP | U+10FE0..U+10FFF | 埃利迈文 | Elymaic | 32 | 23 | 埃利迈文 |
1 SMP | U+11000..U+1107F | 婆罗米文 | Brahmi | 128 | 115 | 婆罗米文 |
1 SMP | U+11080..U+110CF | 凯提文 | Kaithi | 80 | 68 | 凯提文 |
1 SMP | U+110D0..U+110FF | 索拉僧平文字 | Sora Sompeng | 48 | 35 | 索拉僧平文字 |
1 SMP | U+11100..U+1114F | 查克马文 | Chakma | 80 | 71 | 查克马文 |
1 SMP | U+11150..U+1117F | 马哈佳尼文 | Mahajani | 48 | 39 | 马哈佳尼文 |
1 SMP | U+11180..U+111DF | 夏拉达文 | Sharada | 96 | 96 | 夏拉达文 |
1 SMP | U+111E0..U+111FF | 古僧伽罗文数字 | Sinhala Archaic Numbers | 32 | 20 | 古僧伽罗文数字 |
1 SMP | U+11200..U+1124F | 可吉文 | Khojki | 80 | 65 | 可吉文 |
1 SMP | U+11280..U+112AF | 穆尔塔尼文 | Multani | 48 | 38 | 穆尔塔尼文 |
1 SMP | U+112B0..U+112FF | 库达瓦迪文 | Khudawadi | 80 | 69 | 库达瓦迪文 |
1 SMP | U+11300..U+1137F | 古兰塔文 | Grantha | 128 | 86 | 古兰塔文 |
1 SMP | U+11400..U+1147F | 纽瓦字母 | Newa | 128 | 97 | 纽瓦字母 |
1 SMP | U+11480..U+114DF | 底罗仆多文 | Tirhuta | 96 | 82 | 底罗仆多文 |
1 SMP | U+11580..U+115FF | 悉昙文字 | Siddham | 128 | 92 | 悉昙文字 |
1 SMP | U+11600..U+1165F | 莫迪文 | Modi | 96 | 79 | 莫迪文 |
1 SMP | U+11660..U+1167F | 蒙古文补充 | Mongolian Supplement | 32 | 13 | 蒙古文 |
1 SMP | U+11680..U+116CF | 塔克里文 | Takri | 80 | 68 | 塔克里文 |
1 SMP | U+11700..U+1174F | 阿洪姆文 | Ahom | 80 | 65 | 阿洪姆文 |
1 SMP | U+11800..U+1184F | 多格拉文 | Dogra | 80 | 60 | 多格拉文 |
1 SMP | U+118A0..U+118FF | 瓦兰齐地文 | Warang Citi | 96 | 84 | 瓦兰齐地文 |
1 SMP | U+11900..U+1195F | 岛屿字母 | Dhives Akuru (Dives Akuru) | 96 | 72 | 岛屿字母 |
1 SMP | U+119A0..U+119FF | 南迪城文 | Nandinagari | 96 | 65 | 南迪城文 |
1 SMP | U+11A00..U+11A4F | 札那巴札尔方形字母 | Zanabazar Square | 80 | 72 | 札那巴札尔方形字母 |
1 SMP | U+11A50..U+11AAF | 索永布文字 | Soyombo | 96 | 83 | 索永布文字 |
1 SMP | U+11AB0..U+11ABF | 加拿大原住民音节文字扩展-A | Unified Canadian Aboriginal Syllabics Extended-A | 16 | 16 | 加拿大原住民音节文字 |
1 SMP | U+11AC0..U+11AFF | 包钦豪文 | Pau Cin Hau | 64 | 57 | 包钦豪文 |
1 SMP | U+11B00..U+11B5F | 天城文扩展-A | Devanagari Extended-A | 96 | 10 | 天城文 |
1 SMP | U+11C00..U+11C6F | 拜克舒基文 | Bhaiksuki | 112 | 97 | 拜克舒基文 |
1 SMP | U+11C70..U+11CBF | 玛钦文 | Marchen | 80 | 68 | 玛钦文 |
1 SMP | U+11D00..U+11D5F | 马萨拉姆贡德文字 | Masaram Gondi | 96 | 75 | 马萨拉姆贡德文字 |
1 SMP | U+11D60..U+11DAF | 贡贾拉贡德文字 | Gunjala Gondi | 80 | 63 | 贡贾拉贡德文字 |
1 SMP | U+11EE0..U+11EFF | 望加锡文 | Makasar | 32 | 25 | 望加锡文 |
1 SMP | U+11F00..U+11F5F | 卡维文 | Kawi | 96 | 86 | 卡维文 |
1 SMP | U+11FB0..U+11FBF | 老傈僳文补充 | Lisu Supplement | 16 | 1 | 老傈僳文 |
1 SMP | U+11FC0..U+11FFF | 泰米尔文补充 | Tamil Supplement | 64 | 51 | 泰米尔文 |
1 SMP | U+12000..U+123FF | 楔形文字 | Cuneiform | 1,024 | 922 | 楔形文字 |
1 SMP | U+12400..U+1247F | 楔形文字数字和标点符号 | Cuneiform Numbers and Punctuation | 128 | 116 | 楔形文字 |
1 SMP | U+12480..U+1254F | 早期王朝楔形文字 | Early Dynastic Cuneiform | 208 | 196 | 楔形文字 |
1 SMP | U+12F90..U+12FFF | 塞浦路斯-米诺斯文字 | Cypro-Minoan | 112 | 99 | 塞浦路斯-米诺斯文字 |
1 SMP | U+13000..U+1342F | 埃及圣书体 | Egyptian Hieroglyphs | 1,072 | 1,072 | 埃及圣书体 |
1 SMP | U+13430..U+1345F | 埃及圣书体格式控制 | Egyptian Hieroglyph Format Controls | 48 | 38 | 埃及圣书体 |
1 SMP | U+14400..U+1467F | 安纳托利亚象形文字 | Anatolian Hieroglyphs | 640 | 583 | 安纳托利亚象形文字 |
1 SMP | U+16800..U+16A3F | 巴姆穆文字补充 | Bamum Supplement | 576 | 569 | 巴姆穆文字 |
1 SMP | U+16A40..U+16A6F | 默禄文 | Mro | 48 | 43 | 默禄文 |
1 SMP | U+16A70..U+16ACF | 唐萨文 | Tangsa | 96 | 89 | 唐萨文 |
1 SMP | U+16AD0..U+16AFF | 巴萨文 | Bassa Vah | 48 | 36 | 巴萨文 |
1 SMP | U+16B00..U+16B8F | 救世苗文 | Pahawh Hmong | 144 | 127 | 救世苗文 |
1 SMP | U+16E40..U+16E9F | 梅德法伊德林文 | Medefaidrin | 96 | 91 | 梅德法伊德林文 |
1 SMP | U+16F00..U+16F9F | 柏格理苗文 | Miao | 160 | 149 | 柏格理苗文 |
1 SMP | U+16FE0..U+16FFF | 表意符号和标点符号 | Ideographic Symbols and Punctuation | 32 | 7 | 汉字(2个)、契丹小字(1个)、女书(1个)、西夏文(1个)、通用(2个) |
1 SMP | U+17000..U+187FF | 西夏文 | Tangut | 6,144 | 6,136 | 西夏文 |
1 SMP | U+18800..U+18AFF | 西夏文部件 | Tangut Components | 768 | 768 | 西夏文 |
1 SMP | U+18B00..U+18CFF | 契丹小字 | Khitan Small Script | 512 | 470 | 契丹小字 |
1 SMP | U+18D00..U+18D7F | 西夏文补充 | Tangut Supplement | 128 | 9 | 西夏文 |
1 SMP | U+1AFF0..U+1AFFF | 假名扩展-B | Kana Extended-B | 16 | 13 | 片假名 |
1 SMP | U+1B000..U+1B0FF | 假名补充 | Kana Supplement | 256 | 256 | 平假名(255个)、片假名(1个) |
1 SMP | U+1B100..U+1B12F | 假名扩展-A | Kana Extended-A | 48 | 35 | 平假名(32个)、片假名(3个) |
1 SMP | U+1B130..U+1B16F | 小型假名扩展 | Small Kana Extension | 64 | 9 | 平假名 (4个)、片假名 (5个) |
1 SMP | U+1B170..U+1B2FF | 女书 | Nushu | 400 | 396 | 女书 |
1 SMP | U+1BC00..U+1BC9F | 杜普雷速记 | Duployan | 160 | 143 | 杜普雷速记 |
1 SMP | U+1BCA0..U+1BCAF | 速记格式控制符 | Shorthand Format Controls | 16 | 4 | 通用 |
1 SMP | U+1CF00..U+1CFCF | 赞玫尼圣歌音乐符号 | Znamenny Musical Notation | 208 | 185 | 赞玫尼圣歌音乐符号 |
1 SMP | U+1D000..U+1D0FF | 拜占庭音乐符号 | Byzantine Musical Symbols | 256 | 246 | 通用 |
1 SMP | U+1D100..U+1D1FF | 音乐符号 | Musical Symbols | 256 | 233 | 通用(211个)、继承(22个) |
1 SMP | U+1D200..U+1D24F | 古希腊音乐记号 | Ancient Greek Musical Notation | 80 | 70 | 希腊语 |
1 SMP | U+1D2C0..U+1D2DF | 卡克托维克数字 | Kaktovik Numerals | 32 | 20 | 因努伊特数字 |
1 SMP | U+1D2E0..U+1D2FF | 玛雅数字 | Mayan Numerals | 32 | 20 | 通用 |
1 SMP | U+1D300..U+1D35F | 太玄经符号 | Tai Xuan Jing Symbols | 96 | 87 | 通用 |
1 SMP | U+1D360..U+1D37F | 算筹 | Counting Rod Numerals | 32 | 25 | 通用 |
1 SMP | U+1D400..U+1D7FF | 字母和数字符号 | Mathematical Alphanumeric Symbols | 1,024 | 996 | 通用 |
1 SMP | U+1D800..U+1DAAF | 萨顿书写符号 | Sutton SignWriting | 688 | 672 | 萨顿书写符号 |
1 SMP | U+1DF00..U+1DFFF | 拉丁字母扩展-G | Latin Extended-G | 256 | 37 | 拉丁字母 |
1 SMP | U+1E000..U+1E02F | 格拉哥里字母补充 | Glagolitic Supplement | 48 | 38 | 格拉哥里字母 |
1 SMP | U+1E030..U+1E08F | 西里尔字母扩展-D | Cyrillic Extended-D | 96 | 63 | 西里尔字母 |
1 SMP | U+1E100..U+1E14F | 创世纪苗文 | Nyiakeng Puachue Hmong | 80 | 71 | 创世纪苗文 |
1 SMP | U+1E290..U+1E2BF | 投投文 | Toto | 48 | 31 | 投投文 |
1 SMP | U+1E2C0..U+1E2FF | 文乔字母 | Wancho | 64 | 59 | 文乔字母 |
1 SMP | U+1E4D0..U+1E4FF | 蒙达里字母 | Nag Mundari | 48 | 42 | 蒙达里字母 |
1 SMP | U+1E7E0..U+1E7FF | 埃塞俄比亚字母扩展-B | Ethiopic Extended-B | 32 | 28 | 吉兹字母 |
1 SMP | U+1E800..U+1E8DF | 门德基卡库文 | Mende Kikakui | 224 | 213 | 门德基卡库文 |
1 SMP | U+1E900..U+1E95F | 阿德拉姆字母 | Adlam | 96 | 88 | 阿德拉姆字母 |
1 SMP | U+1EC70..U+1ECBF | 印度西亚格数字 | Indic Siyaq Numbers | 80 | 68 | 通用 |
1 SMP | U+1ED00..U+1ED4F | 奥斯曼西亚格数字 | Ottoman Siyaq Numbers | 80 | 61 | 通用 |
1 SMP | U+1EE00..U+1EEFF | 阿拉伯字母数字符号 | Arabic Mathematical Alphabetic Symbols | 256 | 143 | 阿拉伯文 |
1 SMP | U+1F000..U+1F02F | 麻将牌 | Mahjong Tiles | 48 | 44 | 通用 |
1 SMP | U+1F030..U+1F09F | 多米诺骨牌 | Domino Tiles | 112 | 100 | 通用 |
1 SMP | U+1F0A0..U+1F0FF | 扑克牌 | Playing Cards | 96 | 82 | 通用 |
1 SMP | U+1F100..U+1F1FF | 带圈字母数字补充 | Enclosed Alphanumeric Supplement | 256 | 200 | 通用 |
1 SMP | U+1F200..U+1F2FF | 带圈表意文字补充 | Enclosed Ideographic Supplement | 256 | 64 | 平假名(1个)、通用(63个) |
1 SMP | U+1F300..U+1F5FF | 杂项符号和象形文字 | Miscellaneous Symbols and Pictographs | 768 | 768 | 通用 |
1 SMP | U+1F600..U+1F64F | 表情符号 | Emoticons | 80 | 80 | 通用 |
1 SMP | U+1F650..U+1F67F | 装饰符号 | Ornamental Dingbats | 48 | 48 | 通用 |
1 SMP | U+1F680..U+1F6FF | 交通和地图符号 | Transport and Map Symbols | 128 | 118 | 通用 |
1 SMP | U+1F700..U+1F77F | 炼金术符号 | Alchemical Symbols | 128 | 124 | 通用 |
1 SMP | U+1F780..U+1F7FF | 几何图形扩展 | Geometric Shapes Extended | 128 | 103 | 通用 |
1 SMP | U+1F800..U+1F8FF | 追加箭头-C | Supplemental Arrows-C | 256 | 150 | 通用 |
1 SMP | U+1F900..U+1F9FF | 补充符号和象形文字 | Supplemental Symbols and Pictographs | 256 | 256 | 通用 |
1 SMP | U+1FA00..U+1FA6F | 棋类符号 | Chess Symbols | 112 | 98 | 通用 |
1 SMP | U+1FA70..U+1FAFF | 符号和象形文字扩展-A | Symbols and Pictographs Extended-A | 144 | 107 | 通用 |
1 SMP | U+1FB00..U+1FBFF | 遗留计算符号 | Symbols for Legacy Computing | 256 | 212 | 通用 |
2 SIP | U+20000..U+2A6DF | 中日韩统一表意文字扩展区B | CJK Unified Ideographs Extension B | 42,720 | 42,720 | 汉字 |
2 SIP | U+2A700..U+2B73F | 中日韩统一表意文字扩展区C | CJK Unified Ideographs Extension C | 4,160 | 4,154 | 汉字 |
2 SIP | U+2B740..U+2B81F | 中日韩统一表意文字扩展区D | CJK Unified Ideographs Extension D | 224 | 222 | 汉字 |
2 SIP | U+2B820..U+2CEAF | 中日韩统一表意文字扩展区E | CJK Unified Ideographs Extension E | 5,776 | 5,762 | 汉字 |
2 SIP | U+2CEB0..U+2EBEF | 中日韩统一表意文字扩展区F | CJK Unified Ideographs Extension F | 7,488 | 7,473 | 汉字 |
2 SIP | U+2F800..U+2FA1F | 中日韩相容表意文字补充区 | CJK Compatibility Ideographs Supplement | 544 | 542 | 汉字 |
3 TIP | U+30000..U+3134F | 中日韩统一表意文字扩展区G | CJK Unified Ideographs Extension G | 4944 | 4939 | 汉字 |
3 TIP | U+31350..U+323AF | 中日韩统一表意文字扩展区H | CJK Unified Ideographs Extension H | 4192 | 4192 | 汉字 |
14 SSP | U+E0000..U+E007F | 标签 | Tags | 128 | 97 | 通用 |
14 SSP | U+E0100..U+E01EF | 变体选择符补充 | Variation Selectors Supplement | 240 | 240 | 继承 |
15 PUA-A | U+F0000..U+FFFFF | 补充私人使用区-A | Supplementary Private Use Area-A | 65,536 | 65,534 | 未知 |
16 PUA-B | U+100000..U+10FFFF | 补充私人使用区-B | Supplementary Private Use Area-B | 65,536 | 65,534 | 未知 |
a. 代码点包括未分配的代码点(非字符或保留代码点)。
b. 根据文字属性的定义,文字在区段中有一个或多个字符,与区段名称无关
c. “通用”、“未知”(Zyyy) 与“继承”(Zinh 或 Qaai) 参考自ISO 15924的4位代码
d. Unicode区段资料文件,根据 Unicode 13.0
e. UAX 24:Unicode文字属性(4位代码)
f. UAX 24:文字资料档案
g. 在ISO/IEC 10646称为“C0 Controls and Basic Latin”。
h. 在ISO/IEC 10646称为“C1 Controls and Latin-1 Supplement”。
:: --------------------------------------------------------------------------------------------------------------------
Unicode CJK(中文字符) 的范围分布在多个区段中,带有 CJK 的区块名中都拥有汉字。
最常用的范围是 U+4E00~U+9FA5,即名为:CJK Unified Ideographs 的区块,
但 U+9FA6~U+9FFF 之间的字符还属于空码,暂时还未定义,但不能保证以后不会被定义。
注意:
在正则表达式中使用 [\u4e00-\u9fa5] 这种方式属于写死的代码,并不能根据平台所提供的字符集范围不同而改变,
不过对于要求不是很高的话的是可以了。如果对字符集的要求很高,可以采用下面的这种 Unicode 块的方式:
Java code:
String regex = " [\\p{InCJK Unified Ideographs}&&\\P{Cn}]] " ;
在当前的 JDK 版中与 [\u4e00-\u9fa5] 的意义一致。
但这样可以匹配 Java 平台所支持 Unicode 块名为 CJK Unified Ideogrpahs 中已定义的字符,这种方式就属于“活”代码。
今后的 JDK 版本升级了,定义到了 \u9fa6 的字符,同样能够满足匹配。