- 浏览: 7254030 次
- 性别:
- 来自: 上海
文章分类
- 全部博客 (1546)
- 企业中间件 (236)
- 企业应用面临的问题 (236)
- 小布Oracle学习笔记汇总 (36)
- Spring 开发应用 (54)
- IBatis开发应用 (16)
- Oracle基础学习 (23)
- struts2.0 (41)
- JVM&ClassLoader&GC (16)
- JQuery的开发应用 (17)
- WebService的开发应用 (21)
- Java&Socket (44)
- 开源组件的应用 (254)
- 常用Javascript的开发应用 (28)
- J2EE开发技术指南 (163)
- EJB3开发应用 (11)
- GIS&Mobile&MAP (36)
- SWT-GEF-RCP (52)
- 算法&数据结构 (6)
- Apache开源组件研究 (62)
- Hibernate 学习应用 (57)
- java并发编程 (59)
- MySQL&Mongodb&MS/SQL (15)
- Oracle数据库实验室 (55)
- 搜索引擎的开发应用 (34)
- 软件工程师笔试经典 (14)
- 其他杂项 (10)
- AndroidPn& MQTT&C2DM&推技术 (29)
- ActiveMQ学习和研究 (38)
- Google技术应用开发和API分析 (11)
- flex的学习总结 (59)
- 项目中一点总结 (20)
- java疑惑 java面向对象编程 (28)
- Android 开发学习 (133)
- linux和UNIX的总结 (37)
- Titanium学习总结 (20)
- JQueryMobile学习总结 (34)
- Phonegap学习总结 (32)
- HTML5学习总结 (41)
- JeeCMS研究和理解分析 (9)
最新评论
-
lgh1992314:
[u][i][b][flash=200,200][url][i ...
看看mybatis 源代码 -
尼古拉斯.fwp:
图片根本就不出来好吧。。。。。。
Android文件图片上传的详细讲解(一)HTTP multipart/form-data 上传报文格式实现手机端上传 -
ln94223:
第一个应该用排它网关吧 怎么是并行网关, 并行网关是所有exe ...
工作流Activiti的学习总结(八)Activiti自动执行的应用 -
ZY199266:
获取不到任何消息信息,请问这是什么原因呢?
ActiveMQ 通过JMX监控Connection,Queue,Topic的信息 -
xiaoyao霄:
DestinationSourceMonitor 报错 应该导 ...
ActiveMQ 通过JMX监控Connection,Queue,Topic的信息
在项目中使用汉字转换拼音,别人写的代码,不知道部分算法,在google查看一些东东,看一下大致明白为什么这样计算了,算法重重之重呀。
1 引言
应用系统中涉及大量数据字典的检索问题,数据字典检索一般方式包括:按编码检索、按汉字检索、按汉字拼音声母检索和直接列表选择等方式。其中,按汉字拼音声母进行检索具有易用、方便的特点,与使用编码检索方式比较具有易记忆的优点,与使用汉字检索方式比较具有输入简单、方便、快捷的优点,是一种符合汉语使用习惯的较综合性、折中的字典检索方式。要使用汉字拼音声母进行字典检索,关键问题是需要在建立数据字典时,根据用户输入的中文信息自动计算出对应的声母,即自动进行汉字对应声母的编码,以透明的方式提供这一转换过程。
2 实现思路
2.1计算汉字的ASCII码
汉字字符在操作环境下是以Unicode双字节编码方式存在,每个汉字字符对应一个整数,在C# 中已经没有直接计算汉字ASCII码的函数,需要通过利用Encoding类的GetBytes进行间接计算:如下:
重点原理必须知道的东东!!!!
Byte[] b=Encoding.Default.GetBytes(“啊”)
b[0]: 176
b[1]: 161
ASCII码的函数获取ASCII的方法:将汉字转换为直接数组时,将第一位字节数值乘以256加上第二个字节数减65536即的ASCII码的函数值:(备注256*256等于65535)
int i=b[0]*256+b[1]-65536
2.2根据汉字字符编码国标GB2312-80规则确定ASCII码对应的声母
GB2312-80《信息交换用汉字编码字符集 基本集》,1980年发布,是中文信息处理的国家标准,在大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯一中文编码。GB码共收录6763个简体汉字、682个符号,其中汉字部分:一级字3755,以拼音排序,二级字3008,以偏旁排序。
一级字计算根据汉字ASCII码值可以方便地计算出来:其中
声母A对应ASCII码范围是:-20319至-20284
声母B对应ASCII码范围是:-19775 至-19219
……
声母Z对应ASCII码范围是:-11055 至-10247
二级字计算通过编码为固定的声母字符串,当汉字ASCII码值>-10079时,通过对应字符串获取。
3 实现方法
3.1 定义
引用命名空间:System.Text
定义类:Encoding
自定义方法:
(1)计算字符ASCII值函数:Asc
参数:pStr, 字符串型
返回值:Int,字符的ASC码
(2)计算汉字声母函数:Hzpy
参数:pStr,字符串型
返回值:String, 转换后的汉字声母字符串
3.2 算法流程图
3.3 算法描述
(1)判断输入参数字符串是否为空,若为空,则结束。
(2)初始化局部变量。
(3)使用For循环,逐字符进行计算。
(4)利用Asc函数计算当前字符的ASCII码。
(5)根据ASCII值分别计算字符的声母,其中:ASCII值在-10247到-20319,属于一级字库,按拼音顺序排列,可以通过判定值直接得到声母;ASCII值大于0,则取字母“A”到“Z”;ASCII值在0到-10079之间,则从预定义的声母表中获取。
3.4 主要程序段
//计算字符串首字符的ASCII码值
public int Asc(string pStr)
{ int _i=0;
if (pStr.Length > 0)
{ string _s = pStr.Substring (0,1);//取首字符
byte[] _b = System.Text.Encoding.Default.GetBytes (_s); //计算字符的Unicode码
if (_b.Length == 1)
_i = _b[0]; //西文ASCII
else
_i = _b[0]*256+_b[1]-65536; //汉字ASCII-65536 }
return _i; }
//计算字符串对应的声母
public string Hzpy(string pStr)
{ if (pStr.Length == 0){ return "" ;}//参数是空串
string sResult = ""; //定义返回字符串变量
int t; //字符的Ascii码
string gH0="";
gH0 = InputAscii2();//从文件中加载二级字库汉字声母表
pStr = pStr.ToUpper ();
for (int i = 0 ; i < pStr.Length; i++)
{ t = Asc(pStr.Substring (i, 1));
if (t < 0)
{ if ( t >= -10079) //计算二级字库汉字声母
if (gH0.Length > 10079+t)
sResult = sResult + gH0.Substring (10079 + t,1);
else
sResult = sResult + " ";
else //计算一级字库汉字声母
{ if (t>=-20319 && t<=-20284) sResult = sResult + "A";
else if (t>=-20283 && t<=-19776) sResult = sResult + "B";
else if (t>=-19775 && t<=-19219) sResult = sResult + "C";
else if (t>=-19218 && t<=-18711) sResult = sResult + "D";
else if (t>=-18710 && t<=-18527) sResult = sResult + "E";
else if (t>=-18526 && t<=-18240) sResult = sResult + "F";
else if (t>=-18239 && t<=-17923) sResult = sResult + "G";
else if (t>=-17922 && t<=-17418) sResult = sResult + "H";
else if (t>=-17417 && t<=-16475) sResult = sResult + "J";
else if (t>=-16474 && t<=-16213) sResult = sResult + "K";
else if (t>=-16212 && t<=-15641) sResult = sResult + "L";
else if (t>=-15640 && t<=-15166) sResult = sResult + "M";
else if (t>=-15165 && t<=-14923) sResult = sResult + "N";
else if (t>=-14922 && t<=-14915) sResult = sResult + "O";
else if (t>=-14914 && t<=-14631) sResult = sResult + "P";
else if (t>=-14630 && t<=-14150) sResult = sResult + "Q";
else if (t>=-14149 && t<=-14091) sResult = sResult + "R";
else if (t>=-14090 && t<=-13319) sResult = sResult + "S";
else if (t>=-13318 && t<=-12839) sResult = sResult + "T";
else if (t>=-12838 && t<=-12557) sResult = sResult + "W";
else if (t>=-12556 && t<=-12081) sResult = sResult + "X";
else if (t==-12080) sResult = sResult + "H";
else if (t>=-12079 && t<=-11848) sResult = sResult + "X";
else if (t>=-11847 && t<=-11056) sResult = sResult + "Y";
else if (t>=-11055 && t<=-10247) sResult = sResult + "Z";
}}
else //字母和数字
{ if (t>=65 && t<=90|| t>=48 && t<=57)
sResult = sResult + pStr.Substring (i, 1); } }
return sResult; }
4 实现结果
输入:Hzpy(“ab”) , 输出:“AB“
输入:Hzpy(“我们”),输出:“WM”
输入:Hzpy(“驽一孥”),输出:“NYN”
5 小结
通过这种方法计算汉字对应声母,其中一级字库近7000个汉字,只需要通过条件判断语句即可计算出来,二级字库3000多个汉字通过预编码,直接一一对应产生。与过去通过一个汉字对应一个字符的方式相比,这种方法不需要专门的数据文件进行存储,不仅大大提高了计算速度,而且十分容易在不同的开发语言中进行移植,具有非常显著的实用性。
发表评论
-
[转] J2EE集群原理
2013-07-23 09:57 4475J2EE集群原理 什么是集群呢?总的来说,集群包括两个概念 ... -
[转]J2EE 中间件 JVM 集群
2013-07-23 09:51 24681 前言越来越多的关键任务和大型应用正运行在J2EE平台上,象 ... -
[转]通过 Terracotta实现基于Tomcat的Web应用集群
2013-07-23 09:45 5081转载自: http://blog.csdn.n ... -
Terrocotta - 基于JVM的Java应用集群解决方案
2013-07-23 09:47 2456前言 越来越多的企业 ... -
Quartz与Terracotta的集成
2013-07-22 20:39 2732Quartz与Terracotta的集成 • 综述 • 配置 ... -
Terracotta服务器的不同配置方式
2013-07-22 20:37 2102Terracotta Server有4类配置方式:1、单机,无 ... -
Terracotta 3.2.1简介 (一)
2013-07-22 20:25 2438Terracotta开源项目以及Terracotta公司 ... -
Jvm级别的集群(转)
2013-07-22 20:14 2292Java的垃圾回收机制( ... -
【转】java并发编程-Executor框架
2012-11-28 13:20 3670转载自 http://www.iteye.com/topic ... -
【转】互联网常见Open API文档资源
2012-07-17 17:22 2370原文出处:http://www.williamlong.i ... -
最近项目开发中遇到几个问题
2011-11-25 18:49 17901.JDK1.60安装之后与Apache CXF开发WebSe ... -
Java 文件合并功能
2011-08-25 08:44 3715在项目中在一个文件目录中存放多个临时文件合并文件功 ... -
Java 分割功能实现
2011-08-25 08:39 2744在项目针对比较大的文件需要文件的分割功能,特意写了一个 ... -
在JVM关闭的时候线程该怎么关闭呢
2011-08-21 13:11 2185在编写线程类的时候设置一个标志,用于表示是否开始执行 ... -
Java获取系统IP地址
2011-08-21 13:01 5997在一个项目中如果你想获取系统的ip地址那么可能许多同 ... -
java 网络编程,RMI,EJB之间那些屁事(二)
2010-12-12 14:40 1876使用RMI和EJB的童鞋,都知道EJB有客户端 ... -
java 网络编程,RMI,EJB之间那些屁事(一)
2010-12-12 14:18 2994在java的开发中不可避免的遇到java ... -
JMX 和系统管理
2010-12-04 16:03 5565检测 ... -
关于JDK1.5不支持创建泛型数组的解决方案
2009-12-05 14:59 3775在项目中需要 ... -
JDK1.5中的打印服务
2009-12-01 13:23 2540package com.unutrip.print; imp ...
相关推荐
中文 汉字 拼音 声母 源码 源代码
得到汉字的声母的SQL语句得到汉字的声母的SQL语句 得到汉字的声母的SQL语句得到汉字的声母的SQL语句
本文详细介绍了SQL Server如何得到汉字的声母。
易语言汉字转拼音声母源码,汉字转拼音声母,自动取汉字声母
汉字转拼音声母首字母 dll delphi
delphi里的轻松查询汉字拼音声母我在程序里经常使用的
易语言多汉字取声母模块源码,多汉字取声母模块,多汉字取声母
生成汉字声母的SQL语句生成汉字声母的SQL语句
单汉字转拼音,多汉字转拼音,拼音转汉字,全拼互转,
现代汉语:声母的发音方法描写.pdf
易语言-取汉字声母-源码 转自:开源中国社区 作者:起个名真难
还等什么快点下了啦, 汉字转声母DLL+实例,方便实用
资源介绍:。多汉字取声母。易语言多汉字取声母模块源码。资源作者:。易语言在线自学。资源界面:。资源下载:。
声母 拼音 拼音调 汉字 a a ā 阿 a a ā 啊 a a ā 吖 a a ā 腌 a a ā 錒 a a ā 锕 。。。 z zuo zuò 葄 z zuo zuò 葃 z zuo zuò 酢 z zuo zuò 諎 不求什么,资源免费下载,如果好用,请留言赞一个
声母的发音部位与发音方法教案资料.doc
易语言多汉字取声母模块源码.zip易语言项目例子源码下载易语言多汉字取声母模块源码.zip易语言项目例子源码下载 1.合个人学习技术做项目参考 2.适合学生做毕业设计参考 3.适合小团队开发项目参考
易语言源码多汉字取声母模块源码.rar
易语言源码易语言汉字转拼音声母源码.rar 易语言源码易语言汉字转拼音声母源码.rar 易语言源码易语言汉字转拼音声母源码.rar 易语言源码易语言汉字转拼音声母源码.rar 易语言源码易语言汉字转拼音声母源码.rar ...
易语言汉字转拼音声母源码。@易语言资源论坛。