文档章节

java --敏感词汇过滤

求是科技
 求是科技
发布于 2016/09/29 18:14
字数 1559
阅读 73
收藏 3
点赞 1
评论 0

每个app的评论(或提问等)功能都会做敏感词过滤。
#1.常规做法

	/**
	 * flag:0(不是敏感词) 1(敏感词)
	 */
	public int checkWord() {
		int flag = 0;		
		String content = "用户评论的内容";
		java.util.List<String> list = new ArrayList<>();
		//从数据库取出敏感词汇列表
		list.add("习dd");
		list.add("彭mm");
		list.add("网络流行语");
		
		for (int i = 0; i < list.size(); i++) {
			if (content.contains(list.get(i))) {
				flag = 1;
				break;
			}
		}
		return flag;
	}

当数据量很大的时候,如上的方法执行效率特别慢,因此需要找改进的方法,如下有一篇文章写的不错
http://www.cnblogs.com/chenssy/p/3751221.html#2966041
#2.改进方法
将敏感词加入到HashMap中,构建DFA算法模型

public class SensitiveWordInit {
	
	/**
	 * @Description: 初始化敏感词库,将敏感词加入到HashMap中,构建DFA算法模型
	 * @param list:从数据库获取到的敏感词汇列表
	 * @return 敏感词汇HashMap
	 * 备注:原作者的入参是Set<String>,我改成了List.
	 * 改完后才发现作者的用心,Set的效率比List高
	 */
	public HashMap getSensitiveWordToHashMap(List<String> list){
		
		//敏感词汇map
		HashMap sensitiveWordMap = new HashMap<>();
		//关键字
		String key = "";
		//转换map
		Map tempMap = null;
		//给临时map赋值
		Map newMap = null;
		
		//迭代器
		Iterator<String> it = list.iterator();
		while (it.hasNext()) {
			//取出关键词
			key = it.next();
			//这里给输出map赋值
			tempMap = sensitiveWordMap;
			
			//拆分关键词,存入map
			for (int i = 0; i < key.length(); i++) {
				//由于key是字符串型,所以里面存放的是字符型,因此存在如下取法
				//备注:其实这里可以将key转成array,用array[i]取还是一样
				char keyChar = key.charAt(i);
				
				//从转换map里面取出单个"关键字",多个关键字组成关键词
				//备注:这里可以使用String类型来接收
				Object tmpKey = tempMap.get(keyChar);
				//如果tmpKey里面存在该key,直接赋值
				if (tmpKey != null) {
					tempMap = (Map)tmpKey;
				}else
				{
					/**
					 * 如果不存在该key,则添加进去
					 */
					//新构建一个map,将isEnd设值0,因为它不是最后一个
					newMap = new HashMap<>();
					//不是最后一个
					newMap.put("isEnd", 0);
					//将该key添加到tempMap,实际上是添加到sensitiveWordMap中
					//这里涉及到一个地址引用的知识点
					tempMap.put(keyChar, newMap);
					//重新使tempMap指向newMap
					tempMap = newMap;
				}
				//最后一个
				if(i == key.length() - 1){
					tempMap.put("isEnd", "1");    
				}
			}
		}
		
		//返回敏感词汇map
		return sensitiveWordMap;
	}
}

敏感词汇过滤类

/**
 * 敏感词汇过滤类
 * 包含三个主要方法
 * 1.isContaintSensitiveWord,判断输入的内容是不是包含敏感词汇
 * 2.getSensitiveWord,获取输入内容的敏感词
 * 3.replaceSensitiveWord,替换敏感词汇字符
 */
public class SensitiveWordFilter {
	
	//敏感词汇map
	private HashMap sensitiveWordMap;
	//最小匹配规则
	//一旦匹配到,不继续匹配,直接返回
	private static int minMatchTYpe = 1;
	//最大匹配规则
	//匹配所有的
	private static int maxMatchType = 2;
	//关键词汇集合
	public List<String> list = new ArrayList<>();
	
	
	/**
	 * 构造函数,初始化敏感词汇库
	 * @param list
	 */
	public SensitiveWordFilter(List<String> list) {
		sensitiveWordMap = new SensitiveWordInit().getSensitiveWordToHashMap(list);
	}
	
	/**
	 * 判断输入的内容是不是包含敏感词汇
	 * @param content:输入的内容
	 * @param matchType:匹配规则
	 * @return true or false
	 */
	public boolean isContaintSensitiveWord(String content,int matchType){
		boolean flag = false;
		
		for (int i = 0; i < content.length(); i++) {
			//循环匹配
			int matchFlag = CheckSensitiveWord(content, i, matchType);
			//大于0存在,返回true
			if(matchFlag > 0){    
				flag = true;
			}
		}
		
		return flag;
	}
	/**
	 * 获取输入内容的敏感词
	 * @param content:输入内容
	 * @param matchType:匹配类型
	 * @return 匹配到的敏感词列表
	 */
	public List<String> getSensitiveWord(String content,int matchType){
		List<String> sensitiveWordList = new ArrayList<>();
		
		//判断是否存在敏感词汇,不存在为0
		int length = 0;
		for (int i = 0; i < content.length(); i++) {
			//判断是否包含敏感词汇
			length = CheckSensitiveWord(content, i, matchType);
			//如果存在
			if (length > 0) {
				//截取输入内容的i到i+length
				sensitiveWordList.add(content.substring(i, i+length));
				//减1的原因,是因为for会自增
				/**
				 * 举例:假设i从0开始,length=5,则匹配了0~4共5个字符
				 * 因此,下一次匹配时,i应该从5开始
				 * 注意:这一次匹配完了之后,会执行i++,因此i++的值应该是5
				 * 所以这里需要将i的值设成0+5-1=4
				 * 这一次执行完了后,i的值变成5
				 */
				i = i + length - 1;
			}
		}
		return sensitiveWordList;
	}
	
	/**
	 * 替换敏感词汇字符
	 * @param content:输入的内容
	 * @param matchType:匹配规则
	 * @param replaceChar:替换字符,例如:*
	 * @return 输入字符串,敏感词汇被替换成*
	 */
	public String replaceSensitiveWord(String content,int matchType,String replaceChar){
		String resultTxt = content;
		//获取所有的敏感词汇
		List<String> replaceSensitiveWordList = getSensitiveWord(content, matchType);
		//临时变量
		String word = null;
		//替换字符串
		String replaceString = null;
		//迭代器
		Iterator<String> it = replaceSensitiveWordList.iterator();
		while (it.hasNext()) {
			//敏感词汇(多个字符,假设5个字符)
			word = it.next();
			//这是替换后的字符(假设5个)
			replaceString = getReplaceChars(replaceChar, word.length());
			//替换后的字符串
			resultTxt = resultTxt.replaceAll(word, replaceString);
		}
		
		return resultTxt;
	}
	
	/**
	 * 获取替换字符串
	 * @param replaceChar:替换成什么字符,例如:*
	 * @param length:需要将几个字符替换成*
	 * @return 多少个*
	 */
	private String getReplaceChars(String replaceChar,int length){
		String resultReplace = replaceChar;
		for(int i = 1 ; i < length ; i++){
			resultReplace += replaceChar;
		}
		return resultReplace;
	}
	
	/**
	 * 检查输入内容是否包含敏感词汇
	 * @param content:输入内容
	 * @param beginIndex:匹配位置
	 * @param matchType:匹配规则
	 * @return true or false
	 */
	public int CheckSensitiveWord(String content,int beginIndex,int matchType){
		
		//敏感词汇结束标识符,默认为没有匹配到
		boolean  flag = false;
		//匹配到敏感词汇的次数
		int matchFlag = 0;
		//临时变量
		char word = 0;
		Map tmpMap = sensitiveWordMap;
		for (int i = beginIndex; i < content.length(); i++) {
			//取出输入内容的字符
			word = content.charAt(i);
			//获取key
			tmpMap = (Map) tmpMap.get(word);
			//如果存在
			if (tmpMap != null) {
				//匹配标识加1
				matchFlag++;
				//匹配到了最后,结束循环,返回匹配数
				if ("1".equals(tmpMap.get("isEnd"))) {
					//结束标志位为true 
					flag = true;
					//最小规则,退出for循环;最大规则,继续for循环
					if (SensitiveWordFilter.minMatchTYpe == matchType) {
						break;
					}
				}
			}else
			{
				//不存在,直接退出for循环
				break;
			}
		}
		//词至少由两个字符组成
		//1.仅仅匹配到单个字符,它不能构成词,因此匹配失败
		//2.flag=false,说明匹配失败
		if (matchFlag < 2 || !flag) {
			matchFlag = 0;
		}
		return matchFlag;
	}
	
	//测试
	public static void main(String[] args) {
		List<String> list = new ArrayList<>();
		list.add("张三");
		list.add("李四");
		list.add("王五");
		list.add("赵六");
		SensitiveWordFilter swf = new SensitiveWordFilter(list);
		System.out.println("敏感词的数量:" + swf.sensitiveWordMap.size());
		//输入字符串
		String content = "张三丰李四毛王五怪";
		//测试1:匹配输出所有的关键词(最小匹配规则)
		List<String> list2 = swf.getSensitiveWord(content, 1);
		System.out.println(list2);
		//测试2:isContaintSensitiveWord
		boolean exite = swf.isContaintSensitiveWord(content, 1);
		System.out.println(exite);
		//测试3:将敏感词汇替换成*
		String replaceString = swf.replaceSensitiveWord(content, 1, "*");
		System.out.println(replaceString);
	}
}

测试结果

敏感词的数量:4
[张三, 李四, 王五]
true
**丰**毛**怪

© 著作权归作者所有

共有 人打赏支持
求是科技
粉丝 89
博文 453
码字总数 228281
作品 0
成都
后端工程师
java编程新手入门学习的基础语法

Java是一种可以撰写跨平台应用软件的面向对象的程序设计语言。Java 技术具有卓越的通用性、高效性、平台移植性和安全性,广泛应用于PC、数据中心、游戏控制台、科学超级计算机、移动电话和互...

Java小辰 ⋅ 05/28 ⋅ 0

maven打jar包,配置文件没有被打入

今天在给common项目打包的过程中,发现打出的包中(jar文件)不包含.properties文件,我们项目在读取一些配置时,把信息写在了weifutong.properties 文件中,地址为:XXX_common/src/main/j...

小学生学习 ⋅ 04/26 ⋅ 0

主流Java数据库连接池比较及前瞻

本文转载自微信公众号「工匠小猪猪的技术世界」 主流数据库连接池 常用的主流开源数据库连接池有C3P0、DBCP、Tomcat Jdbc Pool、BoneCP、Druid等 C3p0: 开源的JDBC连接池,实现了数据源和JND...

渣渣(Charles) ⋅ 04/30 ⋅ 0

加强Docker容器与Java 10集成

很多运行在Java虚拟机(JVM)中的应用,包括数据服务如Apache Spark和Kafka以及传统企业应用,都运行在容器中。最近,运行在容器里的JVM出现了由于内存和CPU资源限制和使用率导致性能损失问题...

java高级架构牛人 ⋅ 06/04 ⋅ 0

Java序列化之Serializable

1.需求 1.什么是Java序列化 2.详解 1.序列化 理解为"打碎"即可 2.在书本上序列化的意思是将Java对象转为二进制 3.java平台允许我们在内存中创建对象,当JVM运行时对象才能存在,如果JVM停止,对...

村长大神 ⋅ 05/08 ⋅ 0

【java8】java新特性(二)——lambda表达式

一,前言 在上一篇博客中,小编向大家抛转引玉,简单说明了[ Java8 ](http://blog.csdn.net/kisscatforever/article/details/79572194 ),其实Java 8在2014年3月18日,就发布了。可以说程序...

kisscatforever ⋅ 03/20 ⋅ 0

如何在云上安全高效地存放您的配置 - 代码示例

概述 在之前文章 如何在阿里云上安全的存放您的配置 - 续 中,我们讲述了云上安全存放配置的方法。基于前文原理,本文将以代码示例方式讲解如何基于配置中心产品 ACM 将应用配置(如 数据库连...

中间件小哥 ⋅ 06/01 ⋅ 0

Java 5 、6、 7中新特性

JDK5新特性(与1.4相比)【转】 1 循环 for (type variable : array){ body} for (type variable : arrayList){body} 而1.4必须是: for (int i = 0; i < array.length; i++){ type variabl......

thinkyoung ⋅ 2014/10/14 ⋅ 0

【Canal源码分析】Sink及Store工作过程

一、序列图 二、源码分析 2.1 Sink Sink阶段所做的事情,就是根据一定的规则,对binlog数据进行一定的过滤。我们之前跟踪过parser过程的代码,发现在parser完成后,会把数据放到一个环形队列...

端木轩 ⋅ 05/25 ⋅ 0

分享几个JAVA程序员们最容易犯的错误,你中了几枪?

都说Java语言是一门简单的编程语言,基于C++演化而来,剔除了很多C++中的复杂特性,但这并不能保证Java程序员不会犯错。那么对于广大的Java程序员来说,它们最常犯的几个错误都是什么样的呢?...

启示录是真的 ⋅ 05/25 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

熊掌号收录比例对于网站原创数据排名的影响[图]

从去年下半年开始,我在写博客了,因为我觉得业余写写博客也还是很不错的,但是从2017年下半年开始,百度已经推出了原创保护功能和熊掌号平台,为此,我也提交了不少以前的老数据,而这些历史...

原创小博客 ⋅ 43分钟前 ⋅ 0

LVM讲解、磁盘故障小案例

LVM LVM就是动态卷管理,可以将多个硬盘和硬盘分区做成一个逻辑卷,并把这个逻辑卷作为一个整体来统一管理,动态对分区进行扩缩空间大小,安全快捷方便管理。 1.新建分区,更改类型为8e 即L...

蛋黄Yolks ⋅ 今天 ⋅ 0

Hadoop Yarn调度器的选择和使用

一、引言 Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。 上图是Yarn的基本架构,其中ResourceManager是整个架构的核心组件,它负...

p柯西 ⋅ 今天 ⋅ 0

uWSGI + Django @ Ubuntu

创建 Django App Project 创建后, 可以看到路径下有一个wsgi.py的问题 uWSGI运行 直接命令行运行 利用如下命令, 可直接访问 uwsgi --http :8080 --wsgi-file dj/wsgi.py 配置文件 & 运行 [u...

袁祾 ⋅ 今天 ⋅ 0

JVM堆的理解

在JVM中,我们经常提到的就是堆了,堆确实很重要,其实,除了堆之外,还有几个重要的模块,看下图: 大 多数情况下,我们并不需要关心JVM的底层,但是如果了解它的话,对于我们系统调优是非常...

不羁之后 ⋅ 昨天 ⋅ 0

推荐:并发情况下:Java HashMap 形成死循环的原因

在淘宝内网里看到同事发了贴说了一个CPU被100%的线上故障,并且这个事发生了很多次,原因是在Java语言在并发情况下使用HashMap造成Race Condition,从而导致死循环。这个事情我4、5年前也经历...

码代码的小司机 ⋅ 昨天 ⋅ 1

聊聊spring cloud gateway的RetryGatewayFilter

序 本文主要研究一下spring cloud gateway的RetryGatewayFilter GatewayAutoConfiguration spring-cloud-gateway-core-2.0.0.RC2-sources.jar!/org/springframework/cloud/gateway/config/G......

go4it ⋅ 昨天 ⋅ 0

创建新用户和授予MySQL中的权限教程

导读 MySQL是一个开源数据库管理软件,可帮助用户存储,组织和以后检索数据。 它有多种选项来授予特定用户在表和数据库中的细微的权限 - 本教程将简要介绍一些选项。 如何创建新用户 在MySQL...

问题终结者 ⋅ 昨天 ⋅ 0

android -------- 颜色的半透明效果配置

最近有朋友问我 Android 背景颜色的半透明效果配置,我网上看资料,总结了一下, 开发中也是常常遇到的,所以来写篇博客 常用的颜色值格式有: RGB ARGB RRGGBB AARRGGBB 这4种 透明度 透明度...

切切歆语 ⋅ 昨天 ⋅ 0

CentOS开机启动subversion

建立自启动脚本: vim /etc/init.d/subversion 输入如下内容: #!/bin/bash## subversion startup script for the server## chkconfig: 2345 90 10# description: start the subve......

随风而飘 ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部