处理中文乱码和中文部分乱码

news/2024/10/28 23:35:04/

文章转自:http://book.51cto.com/art/201112/306309.htm

在网络操作中,关于中文乱码很多初学者都感到非常困难,如何解决乱码?不要没有目的胡乱转码,笔者访问了几个初学者,他们对于这个问题常用的方法就是一个一个编码去试直到找到为止,但有些情况即使一个一个地去试也不能解决问题。在网络标准接口内容中已经简单解释了一部分,下面用几个例子,对网络操作中的几个典型中文乱码进行讲解。

1.第一种情况

服务器和客户端编码不统一造成中文乱码,当服务器返回数据是UTF-8格式时,客户端在读取输入流时,需要将其转换成UTF-8格式,请看客户端部分代码:

………………..省略部分代码………………  
// 设置URL并且打开连接  
url = new URL("http://192.168.1.7:8080/exa/zh_cn");  
httpurlconnection = (HttpURLConnection) url.openConnection();  
//得到输入流并转换为字符串  
inputStream = httpurlconnection.getInputStream();  
String strResult="";  
byte[] b = new byte[1024];  
int i = 0;  
while ((i = inputStream.read(b)) != -1) {  strResult+=new String(b,"utf-8");  b = new byte[1024];  
}   
//显示到控件上  
textView_1.setText(strResult);  
………………省略部分代码………………  

代码中关键代码是,new String(b,"utf-8"),将byte数组转换成UTF-8格式的字符串,结果如图10-17所示。

当改成new String(b,"gb2312")时得到结果如图10-18所示。


如何避免中文乱码问题,首先,不要频繁转码和漫无目的转码,这样转来转去最后自己也不知道转到哪里去了,其次,尽量使客户端程序的编码和服务器编码统一,再次避免用字节的方式去读取中文和操作中文字符串,因为一个汉字占两个字节,稍不注意开发过程中就会出现读取一个字节,造成读取了半个字,就会出现乱码。

2.第二种情况

中文汉字中出现少部分中文乱码。这种现象看起来很怪异,往往在开发过程中,读者都有可能这样操作了,但没有发现。这种现象是怎么造成的呢?先看例子程序。

实例:

读取文件的核心代码如下(为了测试多一些的汉字,本例将把很多汉字写在test.txt里放在assets文件夹下):

………………..省略部分代码………………  
inputStream = this.getAssets().open("test.txt");  
byte buffer[] = new byte[100];  
StringBuffer sb = new StringBuffer();  
int i = 0;  
while ((i = inputStream.read(buffer)) != -1) {  sb.append(new String(buffer, 0, i));  
}  
textView_1.setText(sb.toString());  
………………..省略部分代码……………… 

由上述代码产生的效果如图10-19所示。

部分乱码的现象出现了,原因我先不讲,先改动代码再看看效果。把byte buffer[] = new byte[100]改成byte buffer[] = new byte[inputStream.available()],运行后得到的效果如图10-20所示。

思考一下:100和inputStream.available()的区别,就会出现中文部分乱码的问题?原因是有可能在读取100个字节的时候正好遇到一个汉字的前半个字节,后100个字节的第一位置的字节也是这个字的后半个字节,半个字节是汉字吗?这样当然会出现乱码了。把字节的数组直接设置成输入流的长度,在读取的时候,一次性读取,那么就不会出现所谓的半个字的现象,当然也不会出现乱码的问题了。


还有一个解决办法,就是不以字节的方式读取文件,以字符的方式读取,一个字符装一个汉字是合法的,看一下代码

………………..省略部分代码………………  
inputStream = this.getAssets().open("test.txt");  
StringBuffer sb = new StringBuffer();  
InputStreamReader isr=new InputStreamReader(inputStream);  
char buf[] = new char[20];  
int nBufLen = isr.read(buf);  
while(nBufLen!=-1){  sb.append(new String(buf, 0, nBufLen));  nBufLen = isr.read(buf);  
}  
textView_1.setText(sb.toString());  
………………..省略部分代码………………  

得到的结果当然是没有乱码的效果。读者在开发过程中遇到中文乱码问题,要认真分析和思考,总能解决问题的。







http://www.ppmy.cn/news/969560.html

相关文章

Qt中文乱码解决办法

目录 一、解决方法&#xff1a;1. QT4版本2. QT5版本 二、QString 为什么会乱码呢三、tr的使用 一、解决方法&#xff1a; 1. QT4版本 中文乱码解决办法是在main.cpp文件加入&#xff1a; #include <QTextCodec> int main(int argc, char **argv) {......// 以下部分解…

PHP界面显示中文乱码

在写一个表单提交的项目中&#xff0c;遇到了PHP界面输出无法显示中文界面。 后来查阅相关资料&#xff0c;得出解决途径。 代码如下&#xff1a; <!DOCTYPE html> <html> <head> <title>123</title> </head> <body><?php he…

中文乱码问题

解决中文乱码问题&#xff0c;出现于解压后中文文件名&#xff0c;中文应用程序即exe 常见的中文乱码及解决一. zip压缩包解压之后中文文件名称乱码1. 系统区域改成中文简体2. 用winar打开的时候&#xff0c;选择名称加密&#xff1a;简体中文 二. 中文应用程序&#xff08;以.…

各种中文乱码的解决方法 (转)

一、Java中文问题的由来 Java的内核和class文件是基于unicode的&#xff0c;这使Java程序具有良好的跨平台性&#xff0c;但也带来了一些中文乱码问题的麻烦。原因主要有两方面&#xff0c;Java和JSP文件本身编译时产生的乱码问题和Java程序于其他媒介交互产生的乱码问题。 首先…

推荐中文乱码的几种解决方法(非常实用)

首先说明我的特殊情况&#xff1a; 在前台jsp中&#xff0c;我使用了form post请求&#xff0c;设置enc&#xff0c;页面编码格式为utf-8。 后台我用的是commons-fileUpload组件&#xff0c;ServletFileUpload解析表单表单和文件。 设置 request.setCharacterEncoding(“UTF-…

零代码编程:用ChatGPT爬取网页数据遇到乱码怎么办?

今天用ChatGPT写了一段代码&#xff0c;爬取中文网站数据&#xff0c;提示词如下&#xff1a; 写一段Python程序&#xff0c;爬取网页数据并保存到excel表格。 具体步骤&#xff1a; 打开网站https://www.zhenfund.com/Case/?id3&#xff0c;解析源代码&#xff1b; 定位 …

解决各种中文乱码问题

tomcat出现中文乱码问题有以下几种情况&#xff1a; 1.通过cmd启动tomcat出现中文乱码&#xff08;tomcat日志输出编码与cmd编码不一致&#xff09; cmd启动tomcat出现中文乱码 乱码原因&#xff1a;这是由于windows下的cmd的默认编码是GBK编码&#xff0c;Tomcat控制台默认输…

Python 乱码原理及其解决办法

最近在爬虫过程中爬下来的HTML文件中出现了不认识的字符&#xff0c;也就是“乱码”&#xff08;之前也遇到了系统之间文件显示“乱码”的问题&#xff09;&#xff0c;花了点时间学习Python编码相关的问题&#xff0c;主要参考了以下几位的文章&#xff1a;Unicode编码底层描述…