文档章节

词语搜索算法思想 - 第三步 词语拼音

方旭
 方旭
发布于 2012/02/25 00:01
字数 389
阅读 384
收藏 2

第二步中,我们需要解决一个问题,就是把词语翻译成拼音。在osc中搜索:pinyin,http://pinyin4j.sourceforge.net/,download下来,直接使用:

public static void main(String[] args) {
	String item = "娱乐八卦";
//	System.out.println(Arrays.toString(split(item)));
//	System.out.println(Arrays.toString(split("ylbg")));
//	System.out.println(Arrays.toString(split("yu,le,ba,gua")));
	ArrayList<String[]> list = pinyin(item);
	for (String[] arr : list) {
		System.out.println(Arrays.toString(arr));
	}
}

/**
 * 词语拼音
 */
public static ArrayList<String[]> pinyin(String s) {
        HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();
        defaultFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE); // 小写
        defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE); // 不用声标
        String[] pinyinArray = null;
        ArrayList<String[]> list = new ArrayList<String[]>();
        for (char c : s.toCharArray()) {
		try {
			pinyinArray = PinyinHelper.toHanyuPinyinStringArray(c, defaultFormat);
		} catch (BadHanyuPinyinOutputFormatCombination e) {
			e.printStackTrace();
		}
		if (pinyinArray == null) {
			list.add(new String[] {String.valueOf(c)});
		} else {
			list.add(pinyinArray);
		}
	}
    return list;
}

输出:

[yu]
[le, yue]
[ba, ba]
[gua]

发现“乐”是多音字,[le, yue],“八”也是多音字,[ba, ba],分别是第一声、第二声,可以把

//defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE); // 不用声标

这行注释掉,“八”输出的是[ba1, ba2]。

但是这个不符合我们要求,因为用户输入不会区分第一声还是第二声,于是我们要进行一个过滤:

/**
 * 词语拼音
 */
public static ArrayList<String[]> pinyin(String s) {
        HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();
        defaultFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE); // 小写
        defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE); // 不用声标
        String[] pinyinArray = null;
        ArrayList<String> temp;
        ArrayList<String[]> list = new ArrayList<String[]>();
        for (char c : s.toCharArray()) {
		try {
			pinyinArray = PinyinHelper.toHanyuPinyinStringArray(c, defaultFormat);
		} catch (BadHanyuPinyinOutputFormatCombination e) {
			e.printStackTrace();
		}
		if (pinyinArray == null) {
			list.add(new String[] {String.valueOf(c)});
		} else {
			temp = new ArrayList<String>();
			for (String p : pinyinArray) {
				if (!temp.contains(p)) {
					temp.add(p);
				}
			}
			list.add(temp.toArray(new String[temp.size()]));
		}
	}
    return list;
}

输出:

[yu]
[le, yue]
[ba]
[gua]

到这里,一个棘手问题马上就上来了,多音字组合。大家一看,很容易就知道有两个组合:

yu,le,ba,gua 和 yu,yue,ba,gua

那怎样让机器自己组合呢?

© 著作权归作者所有

方旭
粉丝 50
博文 25
码字总数 15531
作品 0
海口
高级程序员
私信 提问
加载中

评论(0)

编程珠玑 - 算法思想 - 词语搜索算法思想

词语搜索算法思想 - 第一步 问题描述 词语搜索算法思想 - 第二步 算法思想 词语搜索算法思想 - 第三步 词语拼音 词语搜索算法思想 - 第四步 拼音组合 词语搜索算法思想 - 第五步 结构实现 自...

方旭
2012/02/25
580
4
词语搜索算法思想 - 第五步 结构实现

第四步我们完成了组合的数组,现在我们需要对接第二步的方法,先做一个数组结合成字符串方法: public static void main(String[] args) {String item = "娱乐八卦";// System.out.println(A...

方旭
2012/02/25
238
2
拼音搜索 -- 自动解析拼音汉子组合(包含多音字,拼音缩写)

最近在工作中用到拼音搜索,目前参考靠网上的例子做出一套,在这跟大家分享一下。 这套代码可以识别包快拼音缩写在内的拼音与汉字混合的字符串(例如:xiug手机h --> 修改手机号) 话不多说,...

Swimmer
2016/11/08
2.5K
2
拼音声母汉字 搜索提示匹配

现在需要做一个搜索的关键字提示,例如有如下关键字 长大 输入cd/changda/zd/z大 等提示 长大 我现在的做法是将关键字词库按照拼音+声母的的混合组合 如 长大 拆分拼音为 cd/changda/changd/...

cswy
2014/04/04
1K
5
如何在Elasticsearch中安装中文分词器(IK+pinyin)

如果直接使用Elasticsearch的朋友在处理中文内容的搜索时,肯定会遇到很尴尬的问题——中文词语被分成了一个一个的汉字,当用Kibana作图的时候,按照term来分组,结果一个汉字被分成了一组。...

青夜之衫
2017/12/05
0
0

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周三乱弹 —— 提高不了工作效率和脸有关系

Osc乱弹歌单(2020)请戳(这里) 【今日歌曲】 @薛定谔的兄弟 :分享洛神有语创建的歌单「我喜欢的音乐」: 1 《夏令时记录(piano.ver)》- ゆめこ 手机党少年们想听歌,请使劲儿戳(这里) ...

小小编辑
今天
67
2
List的一波操作

public static void main(String[] args) { List<Entity> list = new ArrayList<>(); list.add(new Entity(1)); list.add(new Entity(2)); list.add(new Entity(3)); ......

那个猩猩很亮
今天
75
0
Spring基础

主要用于service层; 轻量级java开发框架; 各层 web层:struts,spring-MVC service层:spring dao层:hibernate,mybatis , jdbcTemplate --> spring-data Spring核心:控制反转IOC 切面编...

七宝1
今天
30
0
解决overflow+border-radius+transform圆角问题

网上还有其他版本,但是对我来说都不好使,下面是我在Chrome上的代码。overflow:hidden依然是不能正常使用,换成unset就可以,读者如果有更好的解决方案,请留言,谢谢。 <figure> <img...

hi懒喵
今天
53
0
《C语言》—— 数组

书籍使我变成了一个幸福的人,使我的生活变成轻松而舒适的诗。——高尔基 本文已经收录至我的GitHub,欢迎大家踊跃star 和 issues。 https://github.com/midou-tech/articles 点关注,不迷路!...

龙跃十二
今天
84
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部