文档章节

Java 汉字转拼音

yehun
 yehun
发布于 2017/03/30 19:15
字数 1430
阅读 14
收藏 0

Java 汉字转拼音需要安装一个包, 引入包后再运行代码

pinyin4j-2.5.0 下载(密码:4YgE)

import net.sourceforge.pinyin4j.PinyinHelper;
import net.sourceforge.pinyin4j.format.HanyuPinyinCaseType;
import net.sourceforge.pinyin4j.format.HanyuPinyinOutputFormat;
import net.sourceforge.pinyin4j.format.HanyuPinyinToneType;
import net.sourceforge.pinyin4j.format.HanyuPinyinVCharType;
import net.sourceforge.pinyin4j.format.exception.BadHanyuPinyinOutputFormatCombination;


public class GetPinyin {

    /**
     * 得到 全拼
     * 
     * @param src
     * @return
     */
    public static String getPingYin(String src) {
        char[] t1 = null;
        t1 = src.toCharArray();
        String[] t2 = new String[t1.length];
        HanyuPinyinOutputFormat t3 = new HanyuPinyinOutputFormat();
        t3.setCaseType(HanyuPinyinCaseType.LOWERCASE);
        t3.setToneType(HanyuPinyinToneType.WITHOUT_TONE);
        t3.setVCharType(HanyuPinyinVCharType.WITH_V);
        String t4 = "";
        int t0 = t1.length;
        try {
            for (int i = 0; i < t0; i++) {
                // 判断是否为汉字字符
                if (java.lang.Character.toString(t1[i]).matches(
                        "[\\u4E00-\\u9FA5]+")) {
                    t2 = PinyinHelper.toHanyuPinyinStringArray(t1[i], t3);
                    t4 += t2[0];
                } else {
                    t4 += java.lang.Character.toString(t1[i]);
                }
            }
            return t4;
        } catch (BadHanyuPinyinOutputFormatCombination e1) {
            e1.printStackTrace();
        }
        return t4;
    }

    /**
     * 得到中文首字母
     * 
     * @param str
     * @return
     */
    public static String getPinYinHeadChar(String str) {

        String convert = "";
        for (int j = 0; j < str.length(); j++) {
            char word = str.charAt(j);
            String[] pinyinArray = PinyinHelper.toHanyuPinyinStringArray(word);
            if (pinyinArray != null) {
                convert += pinyinArray[0].charAt(0);
            } else {
                convert += word;
            }
        }
        return convert;
    }

    /**
     * 将字符串转移为ASCII码
     * 
     * @param cnStr
     * @return
     */
    public static String getCnASCII(String cnStr) {
        StringBuffer strBuf = new StringBuffer();
        byte[] bGBK = cnStr.getBytes();
        for (int i = 0; i < bGBK.length; i++) {
            // System.out.println(Integer.toHexString(bGBK[i]&0xff));
            strBuf.append(Integer.toHexString(bGBK[i] & 0xff));
        }
        return strBuf.toString();
    }

    public static void main(String[] args) {

        String cnStr = "测试下";
        System.out.println(getPingYin(cnStr));
        System.out.println(getPinYinHeadChar(cnStr));
    }

}

不依赖库, 请继续往下看

public class Pinyin {
	private final static String[] NAME = {
			"zuo", "zun", "zui", "zuan", "zu", "zou", "zong", "zi", "zhuo", "zhun", "zhui", "zhuang",
			"zhuan", "zhuai", "zhua", "zhu", "zhou", "zhong", "zhi", "zheng", "zhen", "zhe", "zhao", "zhang", "zhan",
			"zhai", "zha", "zeng", "zen", "zei", "ze", "zao", "zang", "zan", "zai", "za", "yun", "yue", "yuan", "yu",
			"you", "yong", "yo", "ying", "yin", "yi", "ye", "yao", "yang", "yan", "ya", "xun", "xue", "xuan", "xu",
			"xiu", "xiong", "xing", "xin", "xie", "xiao", "xiang", "xian", "xia", "xi", "wu", "wo", "weng", "wen",
			"wei", "wang", "wan", "wai", "wa", "tuo", "tun", "tui", "tuan", "tu", "tou", "tong", "ting", "tie", "tiao",
			"tian", "ti", "teng", "te", "tao", "tang", "tan", "tai", "ta", "suo", "sun", "sui", "suan", "su", "sou",
			"song", "si", "shuo", "shun", "shui", "shuang", "shuan", "shuai", "shua", "shu", "shou", "shi", "sheng",
			"shen", "she", "shao", "shang", "shan", "shai", "sha", "seng", "sen", "se", "sao", "sang", "san", "sai",
			"sa", "ruo", "run", "rui", "ruan", "ru", "rou", "rong", "ri", "reng", "ren", "re", "rao", "rang", "ran",
			"qun", "que", "quan", "qu", "qiu", "qiong", "qing", "qin", "qie", "qiao", "qiang", "qian", "qia", "qi",
			"pu", "po", "ping", "pin", "pie", "piao", "pian", "pi", "peng", "pen", "pei", "pao", "pang", "pan", "pai",
			"pa", "ou", "o", "nuo", "nue", "nuan", "nv", "nu", "nong", "niu", "ning", "nin", "nie", "niao", "niang",
			"nian", "ni", "neng", "nen", "nei", "ne", "nao", "nang", "nan", "nai", "na", "mu", "mou", "mo", "miu",
			"ming", "min", "mie", "miao", "mian", "mi", "meng", "men", "mei", "me", "mao", "mang", "man", "mai", "ma",
			"luo", "lun", "lue", "luan", "lv", "lu", "lou", "long", "liu", "ling", "lin", "lie", "liao", "liang",
			"lian", "lia", "li", "leng", "lei", "le", "lao", "lang", "lan", "lai", "la", "kuo", "kun", "kui", "kuang",
			"kuan", "kuai", "kua", "ku", "kou", "kong", "keng", "ken", "ke", "kao", "kang", "kan", "kai", "ka", "jun",
			"jue", "juan", "ju", "jiu", "jiong", "jing", "jin", "jie", "jiao", "jiang", "jian", "jia", "ji", "huo",
			"hun", "hui", "huang", "huan", "huai", "hua", "hu", "hou", "hong", "heng", "hen", "hei", "he", "hao",
			"hang", "han", "hai", "ha", "guo", "gun", "gui", "guang", "guan", "guai", "gua", "gu", "gou", "gong",
			"geng", "gen", "gei", "ge", "gao", "gang", "gan", "gai", "ga", "fu", "fou", "fo", "feng", "fen", "fei",
			"fang", "fan", "fa", "er", "en", "e", "duo", "dun", "dui", "duan", "du", "dou", "dong", "diu", "ding",
			"die", "diao", "dian", "di", "deng", "de", "dao", "dang", "dan", "dai", "da", "cuo", "cun", "cui", "cuan",
			"cu", "cou", "cong", "ci", "chuo", "chun", "chui", "chuang", "chuan", "chuai", "chu", "chou", "chong",
			"chi", "cheng", "chen", "che", "chao", "chang", "chan", "chai", "cha", "ceng", "ce", "cao", "cang", "can",
			"cai", "ca", "bu", "bo", "bing", "bin", "bie", "biao", "bian", "bi", "beng", "ben", "bei", "bao", "bang",
			"ban", "bai", "ba", "ao", "ang", "an", "ai", "a" 
	};
	
	private final static int[] CODE = { 
			-10254, -10256, -10260, -10262, -10270, -10274, -10281, -10296, -10307, -10309, -10315, -10322, -10328, 
			-10329, -10331, -10519, -10533, -10544, -10587, -10764, -10780, -10790, -10800, -10815, -10832, -10838, 
			-11014, -11018, -11019, -11020, -11024, -11038, -11041, -11045, -11052, -11055, -11067, -11077, -11097, 
			-11303, -11324, -11339, -11340, -11358, -11536, -11589, -11604, -11781, -11798, -11831, -11847, -11861, 
			-11867, -12039, -12058, -12067, -12074, -12089, -12099, -12120, -12300, -12320, -12346, -12359, -12556,
			-12585, -12594, -12597, -12607, -12802, -12812, -12829, -12831, -12838, -12849, -12852, -12858, -12860, 
			-12871, -12875, -12888, -13060, -13063, -13068, -13076, -13091, -13095, -13096, -13107, -13120, -13138, 
			-13147, -13318, -13326, -13329, -13340, -13343, -13356, -13359, -13367, -13383, -13387, -13391, -13395,
			-13398, -13400, -13404, -13406, -13601, -13611, -13658, -13831, -13847, -13859, -13870, -13878, -13894,
			-13896, -13905, -13906, -13907, -13910, -13914, -13917, -14083, -14087, -14090, -14092, -14094, -14097, 
			-14099, -14109, -14112, -14122, -14123, -14125, -14135, -14137, -14140, -14145, -14149, -14151, -14159, 
			-14170, -14345, -14353, -14355, -14368, -14379, -14384, -14399, -14407, -14429, -14594, -14630, -14645,
			-14654, -14663, -14668, -14670, -14674, -14678, -14857, -14871, -14873, -14882, -14889, -14894, -14902,
			-14908, -14914, -14921, -14922, -14926, -14928, -14929, -14930, -14933, -14937, -14941, -15109, -15110, 
			-15117, -15119, -15121, -15128, -15139, -15140, -15141, -15143, -15144, -15149, -15150, -15153, -15158,
			-15165, -15180, -15183, -15362, -15363, -15369, -15375, -15377, -15385, -15394, -15408, -15416, -15419,
			-15435, -15436, -15448, -15454, -15625, -15631, -15640, -15652, -15659, -15661, -15667, -15681, -15701, 
			-15707, -15878, -15889, -15903, -15915, -15920, -15933, -15944, -15958, -15959, -16155, -16158, -16169, 
			-16171, -16180, -16187, -16202, -16205, -16212, -16216, -16220, -16393, -16401, -16403, -16407, -16412, 
			-16419, -16423, -16427, -16429, -16433, -16448, -16452, -16459, -16465, -16470, -16474, -16647, -16657,
			-16664, -16689, -16706, -16708, -16733, -16915, -16942, -16970, -16983, -17185, -17202, -17417, -17427, 
			-17433, -17454, -17468, -17482, -17487, -17496, -17676, -17683, -17692, -17697, -17701, -17703, -17721, 
			-17730, -17733, -17752, -17759, -17922, -17928, -17931, -17947, -17950, -17961, -17964, -17970, -17988,
			-17997, -18012, -18181, -18183, -18184, -18201, -18211, -18220, -18231, -18237, -18239, -18446, -18447, 
			-18448, -18463, -18478, -18490, -18501, -18518, -18526, -18696, -18697, -18710, -18722, -18731, -18735, 
			-18741, -18756, -18763, -18773, -18774, -18783, -18952, -18961, -18977, -18996, -19003, -19006, -19018,
			-19023, -19038, -19212, -19218, -19224, -19227, -19235, -19238, -19242, -19243, -19249, -19261, -19263, 
			-19270, -19275, -19281, -19288, -19289, -19467, -19479, -19484, -19500, -19515, -19525, -19531, -19540, 
			-19715, -19725, -19728, -19739, -19741, -19746, -19751, -19756, -19763, -19774, -19775, -19784, -19805,
			-19976, -19982, -19986, -19990, -20002, -20026, -20032, -20036, -20051, -20230, -20242, -20257, -20265,
			-20283, -20292, -20295, -20304, -20317, -20319 
	};

	public static String getPinyin(String gb2312, String spacer) {
		if (null == gb2312 || "".equals(gb2312.trim())) {
			return gb2312;
		}
		char[] chars = gb2312.toCharArray();
		StringBuffer retuBuf = new StringBuffer();
		String pinyin;
		for (int i = 0; i < chars.length; i++) {
			pinyin = getPinyin(chars[i]);
			retuBuf.append(spacer == null || spacer.isEmpty() ? pinyin : pinyin + spacer);
		}
		return spacer == null || spacer.isEmpty() ? retuBuf.toString() : retuBuf.length() > 0 ? retuBuf.substring(0, retuBuf.length() - 1) : retuBuf.toString();
	}

	public static String getPinyin(char gb2312) {
		int ascii = getCnAscii(gb2312);
		if (ascii == 0) {
			return String.valueOf(gb2312);
		} else {
			String spell = getSpellByAscii(ascii);
			if (spell == null) {
				return String.valueOf(gb2312);
			} else {
				return spell;
			}

		}
	}

	/**
	 * 获取汉语字符串的声母组合,每个汉字取拼音的第一个字符组成的一个字符串. 除汉字以外的字符不进行转换
	 * 
	 * @param cnStr
	 *            汉字的字符串
	 * @return 每个汉字拼音的第一个字母所组成的汉字
	 */
	public static String getFirstPinyin(String gb2312) {
		if (null == gb2312 || "".equals(gb2312.trim())) {
			return gb2312;
		}

		char[] chars = gb2312.toCharArray();
		StringBuffer retuBuf = new StringBuffer();
		for (int i = 0, Len = chars.length; i < Len; i++) {
			Integer ascii = getCnAscii(chars[i]);
			if (ascii.toString().length() == 1) { // 取ascii时出错
				retuBuf.append(chars[i]);
			} else {
				String spell = getSpellByAscii(ascii).substring(0, 1);
				if (spell == null) {
					retuBuf.append(chars[i]);
				} else {
					retuBuf.append(spell);
				} // end of if spell == null
			} // end of if ascii <= -20400
		}
		return retuBuf.toString();
	}

	private static int getCnAscii(char cn) {

		byte[] bytes = null;
		try {
			bytes = (String.valueOf(cn)).getBytes("GB2312");
		} catch (Exception e) {
			e.printStackTrace();
		}
		if (bytes == null || bytes.length > 2 || bytes.length <= 0) {
			return 0;
		}
		if (bytes.length == 1) {
			return bytes[0];
		} else {
			int hightByte = 256 + bytes[0];
			int lowByte = 256 + bytes[1];
			int ascii = (256 * hightByte + lowByte) - 256 * 256;
			return ascii;
		}
	}

	private static String getSpellByAscii(int ascii) {
		if (ascii > 0 && ascii < 160) { // 单字符
			return String.valueOf((char) ascii);
		}
		if (ascii < -20319 || ascii > -10247) { // 不知道的字符
			return "?";
		}
		int ind;

		for (ind = 0; ind < CODE.length; ind++) {
			if (ascii >= CODE[ind]) {
				break;
			}
		}
		return NAME[ind];
	}

	public static void main(String... args) {
		String pinyin = Pinyin.getPinyin("龙吟我是你的神", "|");
		System.out.println(pinyin);
		String firstpinyin = Pinyin.getFirstPinyin("龙吟");
		System.out.println(firstpinyin);
	}
}

//long|yin|wo|shi|ni|de|shen
//ly

 

 

© 著作权归作者所有

yehun
粉丝 8
博文 218
码字总数 137315
作品 0
长宁
高级程序员
私信 提问
纯 Java 汉字转拼音库 - Bopomofo4j

Bopomofo4j是一个零依赖、纯Java开发的汉字转拼音库,具备沙盒运行模式。 实现汉字转拼音 实现汉语单词转拼音 实现汉语句子转拼音,在一定程度解决多音字问题 实现简体,繁体互转 词库实现沙...

氡氪网络科技
09/20
5.7K
24
纯 Java 汉字转拼音库 Bopomofo4j

Bopomofo4j是一个零依赖、纯Java开发的汉字转拼音库,具备沙盒运行模式。 实现汉字转拼音 实现汉语单词转拼音 实现汉语句子转拼音,在一定程度解决多音字问题 实现简体,繁体互转 词库实现沙...

sunhan1225
09/29
43
0
java如何获得汉字的拼音?

@红薯 在java语言中如何获得汉字的拼音呢? 例如我在中输入的value是北京,在java语言中有没有开源的工具可以获得北京的拼音呢?beijing

整俩硬菜
2012/12/02
587
6
pyhanlp 繁简转换之拼音转换与字符正则化

繁简转换 HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。 ·说明 ...

左手的倒影
06/28
11
0
终于可以在html上自动显示汉字拼音了

在上一篇讲在html显示拼音标签的文章里面,我最开始也误会了,只要加了<ruby>标签,就能自动显示汉字的拼音,但显然,这只是一个美好的想法,实际上拼音什么的还得靠自己手工来,但在程序员的...

wphmoon
05/21
36
2

没有更多内容

加载失败,请刷新页面

加载更多

重新开始学Java——反射

概念 reflection:自省 反射:镜子可以反射阳光一个java类 或 对象 通过照"镜子"来认知自己 Java语言中是怎么实现照镜子? java.lang.reflect 包 提供了"照镜子"API(应用程序接口) 如果要...

大家都是低调来的
21分钟前
6
0
爬取720万条城市历史天气数据

内容爬虫完毕,校验完毕,缺失信息暂未统计。总数据720万,地区3200个,年份从2011-2019,大小950Mb,原始数据已丢失,需要的朋友可以自己运行脚本挂一晚上。中间遇到了很多坑,有机会我再写...

八音弦
24分钟前
15
0
python的字典类型

1、新建字典 通过键值对 dict_1 = {'a':1,'b':2,'c':3} 通过dict()函数 list_1 = ['adam', 'bob', 'cathy', 'david', 'emma'] list_2 = [1,2,3,4,5] dict_2 = dict(zip(list_1,list_2)) 2、字......

davidwbnu
26分钟前
5
0
springcloud vue.js 前后分离 activiti工作流

本商品为 :springcloud + Springboot 微服务\分布式 工作流 前后分离 + 跨域 版本 (权限控制到菜单和按钮) 后台框架 :springcloud Greenwich.SR1 + springboot 2.1.4 + activiti6.0.0 + ...

java框架开发者
33分钟前
11
0
【jQuery基础学习】07 jQuery表单插件-Form

本文转载于:专业的前端网站➦【jQuery基础学习】07 jQuery表单插件-Form 作用:jQuery Form插件的作用是为了让我们可以很方便地用ajax的方式提交表单,从而使我们提交表单的时候页面不用进行...

前端老手
42分钟前
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部