Java基础——字符编码-白红宇

Java基础——字符编码

阅读量：5315 次

发布时间：2019-06-14

本文共 3798 字，大约阅读时间需要 12 分钟。

一、ASII

美国(国家)信息交换标准(代)码。

计算机中只有数字,一切都是用数字表示,屏幕上显示的一个一个的字符也不例外。

一个字节可表示的数字为0-255,足以显示键盘上的所有的字符例如. a 为97 b为 98。这种数字与字符对应的编码规则,称为Asc11 码,ASC11 码的最高bit位都是0，也就是说,ASC11码的值都在0-127之间。

二、GB2312和GBK（中国的本地字符集）

中国大陆将每个中文字符都用2个字节表示,中文字符第个字节最高bit位都是1。这种编码格式称为 (gb2312) 国标码那么gb2312码对应的数字都是负数。

在此gb2312基础上,又增了一些,比如繁体字 ,称为GBK

附：

GB18030编码是在GBK编码基础上的扩充，因为汉字更多，仅仅使用两位编码已经不能容纳要求的汉字，所以采用了2\4位混和的办法，可以支持更多的汉字编码。

三、ANSI

为了扩充ASCII编码，以用于显示本国的语言，不同的国家和地区制定了不同的标准，由此产生了 GB2312, BIG5, JIS等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式，称为 ANSI 编码，又称为"MBCS（Muilti-Bytes Charecter Set，多字节字符集）"。在简体中文系统下，ANSI 编码代表 GB2312 编码，在日文操作系统下，ANSI 编码代表 JIS 编码，所以在中文 windows下要转码成gb2312,gbk只需要把文本保存为ANSI 编码即可。不同 ANSI 编码之间互不兼容。

四、本地字符集

在中国大陆使用的计算机系统上, GBK和GB2312就被称为该系统的本地字符集。

"中国 " 的中字,在中国大陆的编码是16进制的D6D0,在台湾是 A4A4 台湾的编码称为BIG5 大五码。在一个国家的本地化系统中出现的一个字符,通过电子邮件传到另外一个国家的本地化系统中,看到的就不是那个原始字符了,而是另外一个国家的字符或乱码。

五、Unicode编码

ISO 组织将全世界的符号进行了统一,称之为Unicode编码。

“中”这个符号,在全世界都是16进制的 4e2d。如果所有的计算机都使用Unicode编码,则"中"这个字,在全世界上的计算机上都能显示为"中"，Unicode 编码的字符占用两个字节大小,对于AC11 码所表示的字符,只是简单地在AS11码原来占用的一个字节的前面,增中一个所有bits为0的字节, 它表示的字符的个数不会超过65535 ,实际上,它还保留了2000多个数值没有用于编码。

unicode 一统天下的局面还没有形成,在相当长时间内,本地化字符编码将与Unicode编码共存

java中的字符使用的都是Unicode编码。

java在通过Unicode保证跨平台的特性前提下,也支持本地平台字符集。

六、UTF-8

在java语言和其他程序的开发过程中.特别是XML 还涉及到UTF-8 UTF-16。广义上的unicode也包含 UTF8 和utf-16

UTF-8

--ASC11码字符保持原样,伋然只占用一个字节。

--对于其他国家的字符,UTF-8 使用2个或三个字节来表示。

--使用utf-8 编码的文件,通常都要用 EF BB BF 作为文件开头的三个字节数据。

七、UTF-8和unicode编码之间的转换规则

-- 0001-007f (一个字节)

0xxxxxx

-- 0000或其泛围在 0080 到 07ff之间的字符,

110xxxxx 10xxxxxx (11个有效bit位) (0080-07ff之间)一个unicode有16位，实际上只有11个有效位,其余都是标志。

-- 0800 到 ffff 之间的字符,1110xxxx 10xxxxxx 10xxxxxx (16比特有效位)，软件很容易根据UTF-8 编码中那些固定不变的bit值,来确定一个字符占用的是一个字节,还是两个字节,还是三个字节。

八、UTF-8的优点

-- 不出现ox00 (在c语言中,\0 代表符串的结束结束标志，说明已经到了字符串的末尾)unicode 中对于ACS11 字符,它都要占用两个字节,增加一个内容为空(0x00)的字节,浪费,而且这个字节,在C语言和其他程序有中特殊的应用。

-- 便于应用程序检查数据在传输中是否发生了错误它可以检查出数据传输过程中是否出现了错误。

-- 直接处理使用ASC11的文档

九、联通,联想和联

在记事本中输入联通联想,联,查看.分别会看到一些错误情况

联通 (或联系) 出现乱码

用ue打开,查看一下16进制，分别是C1AA CDA8 C1AA CFE8 //这些都是用的GB2312编码如果是中,则是D6D0，也就是 C1AA 是联 CDA8 是通CFE8是想。可以用以下方式得到它产的二进制表示：

int x=0xCDA8;System.out.println(Integer.toBinaryString(x)  );

//11000001 10101010 联 11001101 10101000 通

记事本中的文件,默认是按中文字符集GB2312来存诸的,所以"联"字就被解析成了 1100 0001 1010 1010 ,通字就被存成了 1100 1101 1010 1000, 打开记事本文档的时候,这些二进制形式,恰好都都对应上了 UTF-8 的规则,所以系统就认为这是一个UTF-8 编码的文件就按UTF-8来解释,出现了乱码,解决的方法:保存的时候,直接按utf-8 保存就不会出现了。

十、用程序查看字符的编码

查看中文字符的GB2312 码

查看中文字符的UTF-8 码

查看中文字符的Unicode 码

public static void main(String[] args) throws UnsupportedEncodingException {          String str="中国";                //查看字符的unicode码,将一个字符转成整数,得到的就是unicode值    /*    for(int i=0;i

附: 域名解析

域名解析是把域名指向网站空间IP，让人们通过注册的域名可以方便地访问到网站一种服务。

IP地址是网络上标识站点的数字地址，为了方便记忆，采用域名来代替IP地址标识站点地址。

域名解析就是域名到IP地址的转换过程。域名的解析工作由DNS服务器完成。

域名解析也叫域名指向、服务器设置、域名配置以及反向IP登记等等。说得简单点就是将好记的域名解析成IP，域名解析需要由专门的域名解析服务器(DNS)来完成。，是把域名解析到一个IP地址，然后在此IP地址的主机上将一个子目录与域名绑定。一个域名对应一个IP地址，一个IP地址可以对应多个域名；所以多个域名可以同时被解析到一个IP地址。就要进行解析，首先在域名注册商那里通过专门的DNS服务器解析到一个WEB服务器的一个固定IP上：211.214.1.***，然后，通过WEB服务器来接收这个域名，把***.com这个域名映射到这台服务器上。那么，输入***.com这个域名就可以实现访问网站内容了.即实现了域名解析的全过程；

hosts文件是Windows系统中一个负责IP地址与域名快递解析的文件，以ASCLL格式保存。

计算机在键入域名（比如www.baidu.com）的时候，首先会去看看hosts文件汇总有没有关于此域名IP地址的记录。如果有，就直接登陆该网站；如果没有再查询DNS服务器，在Windows 2000/XP系统中位于C:\Windows\System32\Drivers\Etc目录中。该文件其实是一个纯文本的文件，用普通的文本编辑软件如记事本等都能打开。用记事本打开hosts文件，首先看见了微软对这个文件的说明。这个文件是根据TCP/IP for Windows 的标准来工作的，它的作用是包含IP地址和Host name?主机名?的映射关系，是一个映射IP地址和Host name?主机名?的规定，规定要求每段只能包括一个映射关系，IP地址要放在每段的最前面，空格后再写上映射的Host name?主机名?。现在有很多网站不经过用户同意就将各种各样的插件安装到你的计算机中，有些说不定就是木马或病毒。对于这些网站我们可以利用Hosts把该网站的域名映射到错误的IP或自己计算机的IP，这样就不用访问了。比如不想访问http://www.163.com，那我们在Hosts写上以下内容： 127.0.0.1 http://www.baidu.com#屏蔽的网站 0.0.0.0 http://www.baidu.com#屏蔽的网站.这样计算机解析域名就解析到本机或错误的IP，达到了屏蔽的目的。

host 文件的位置 win7 和 2003 相同

C:\Windows\system32\drivers\etc\hosts