UCD是Unicode字符数据库(Unicode Character DataBase)的缩写。
UCD由一些描述Unicode字符属性和内部关系的纯文本或html文件组成。
UCD中的文本文件大都是适合于程序分析的Unicode相关数据。其中的html文件解释了数据库的组织,数据的格式和含义。
UCD中最庞大的文件无疑就是描述汉字属性的文件Unihan.txt。
在UCD 5.0,0中,Unihan.txt文件大小有28,221K字节。Unihan.txt中包含了很多有参考价值的索引,例如汉字部首、笔划、拼音、使用频度、四角号码排序等。这些索引都是基于一些比较权威的辞典,但大多数索引只能检索部分汉字。
unicodedata.lookup(name)
通过名称来查找一个字符。如果字符存在就返回相应字符,如果不存在抛出异常KeyError。
>>> import unicodedata
>>> print(unicodedata.lookup('LEFT CURLY BRACKET'))
{
>>> print(unicodedata.lookup('LEFT'))
Traceback (most recent call last):
File "", line 1, in
KeyError: "undefined character name 'LEFT'"
>>>
unicodedata.name(chr[,default])
通过字符来查找它的名称。如果成功返回相应名称,否则抛出异常ValueError。
>>> import