Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案,可容纳的字符总数为17*65536=1114112个,但目前实际应用到的只是其中的一小部分。请注意,这是个编码方案(或者说编码标准),它为世界上目前已存在的所有文字和符号以及将来可能出现的字符都指定(或者说预留)了一个唯一的数字编码,但它并不是具体的实施方式,也就是说Unicode中的数字编码和电脑上的文字编码是不能直接划等号的,UTF-8、UTF-16和UTF-32才是具体的实施方式,其中UTF-8用8位的倍数来表示一个字符,也就是说在UTF-8编码格式中,一个字符可以是8位(一个字节)、16位(两个字节)、24位(三个字节)、32位(四个字节),同理,UTF-16则可以是16位(两个字节)、32位(四个字节),而UTF-32则所有字符都是32位(即四个字节)的。事实上,用三个字节表示一个字符的容量(16777216)已经远远超过Unicode标准中的最大容量(1114112)了。