文档章节

DFA算法实现过滤多家公司自定义敏感字

jack__0023
 jack__0023
发布于 2017/08/24 10:45
字数 931
阅读 571
收藏 44

背景

因为最近有通讯有个需求,说需要让多家客户公司可以自定义敏感词过滤掉他们自定义的规则,选择了DFA算法来做,不过和以前传统了DFA写法不太一样了

模式图

输入图片说明

直接上代码

public class KeywordFilter {
//	private static ReentrantReadWriteLock lock = new ReentrantReadWriteLock();
	public static Map<String, HashMap> currentMap = new ConcurrentHashMap<String, HashMap>();
	public static Map nowhash = null;
	public static Object wordMap;// map子节点

	// 不建立对象
	private KeywordFilter() {
	}

	private static String getKey(int companyId) {
		return "companyId" + companyId;
	}

	/*
	 * <p>说明:清扫内容</p>
	 * 
	 * @author:姚旭民
	 * 
	 * @data:2017-8-22 上午10:13:11
	 */
	public static void clear() {
		try {
			currentMap.clear();
		} catch (Exception e) {
			e.printStackTrace();
		} finally {
		}

	}

	/*
	 * <p>说明:各个渠道的过滤字符</p>
	 * 
	 * @author:姚旭民
	 * 
	 * @data:2017-8-20 下午2:55:06
	 */
	public static void saveKeywords(int companyId, List<String> keywords) {
		try {
			Map tempAllMap = currentMap;
			String key = getKey(companyId);
			int l = keywords.size();
			int il;
			Map tempMap;
			for (int i = 0; i < l; i++) {
				String key2 = keywords.get(i).trim();// 去掉空白
				nowhash = currentMap;
				il = key2.length();
				for (int j = 0; j < il; j++) {
					char word = key2.charAt(j);
					tempMap = (Map) nowhash.get(word);
					wordMap = nowhash.get(word);
					if (wordMap != null) {// 检查数据
						if (!tempMap.containsKey(key)) {
							nowhash.put(key, 0);
						}
						nowhash = (HashMap) wordMap;
					} else {
						HashMap<String, String> newWordHash = new HashMap<String, String>();
						newWordHash.put(key, "0");
						nowhash.put(word, newWordHash);
						nowhash = newWordHash;
					}
					if (j == il - 1) {
						nowhash.put(key, "1");
					}
				}
			}
		} catch (Exception e) {
			e.printStackTrace();
		} finally {
			nowhash = null;
			wordMap = null;
		}
	}

	/*
	 * <p>说明:替换掉对应的渠道规定掉敏感字</p>
	 * 
	 * @author:姚旭民
	 * 
	 * @data:2017-8-20 上午11:41:47
	 */
	public static List<String> repword(int companyId, String txt) {
		Map tempMap = currentMap;
		List<String> result = new ArrayList<String>();
		String key = getKey(companyId);
		nowhash = currentMap;
		int l = txt.length();
		char word;
		String keywordStr = "";
		String keyStatu;
		StringBuilder keyword = new StringBuilder();// 敏感字
		for (int i = 0; i < l; i++) {
			word = txt.charAt(i);
			wordMap = nowhash.get(word);
			if (wordMap != null) {// 找到类似敏感字的字体,开始查询
				keyword.append(word);
				Object te = nowhash = (HashMap) wordMap;
				// 遍历到这一步,就符合完整的关键字模板
				if (nowhash.get(key) != null
						&& nowhash.get(key).toString().equals("1")) {// 确定是敏感字,开始替换
					if (i < l - 1 && nowhash.get(txt.charAt(i + 1)) != null) {// 优先过滤长敏感词,去掉就槟城了优先过滤段敏感词
						continue;
					}
					txt = txt.replaceAll(keyword.toString(), "*");
					nowhash = currentMap;
					keywordStr += keyword.toString() + ",";
					i = i - keyword.length() + 1;
					l = txt.length();// 重新获取字符长度
					keyword.delete(0, keyword.length());// 清空数据
				}
			} else {// 这个字不是敏感字,直接排除
				nowhash = currentMap;
				keyword.delete(0, keyword.length());// 清空数据
				continue;
			}
		}
		// 清除内存指向
		nowhash = null;
		wordMap = null;
		result.add(txt);
		result.add(keywordStr.length() - 1 > 0 ? keywordStr.substring(0,
				keywordStr.length() - 1) : keywordStr);
		return result;

	}

	/*
	 * <p>说明:检查是否存在敏感字</p>
	 * 
	 * @author:姚旭民
	 * 
	 * @data:2017-8-20 下午3:00:06 专门设计成私有的,如果没有理由,别改动他
	 */
	private static int checkKeyWords(String txt, int companyId, int begin) {
		int result = 0;
		String key = getKey(companyId);
		try {
			nowhash = currentMap;
			int l = txt.length();
			char word = 0;
			for (int i = begin; i < l; i++) {
				word = txt.charAt(i);
				wordMap = nowhash.get(word);
				if (wordMap != null) {
					result++;
					nowhash = (HashMap) wordMap;
					if (((String) nowhash.get(key)).equals("1")) {
						nowhash = null;
						wordMap = null;
						return result;
					}
				} else {
					result = 0;
					break;
				}
			}
		} catch (Exception e) {
			e.printStackTrace();
		} finally {
			nowhash = null;
			wordMap = null;
			return result;
		}
	}

	/*
	 * <p>说明:返回检查的文本中包含的敏感字</p>
	 * 
	 * @author:姚旭民
	 * 
	 * @data:2017-8-20 下午3:32:53
	 */
	public static String getTxtKeyWords(String txt, int companyId) {
		String result = null;
		StringBuilder temp = new StringBuilder();
		String key;
		int l = txt.length();
		for (int i = 0; i < l;) {
			int len = checkKeyWords(txt, companyId, i);
			if (len > 0) {
				key = (txt.substring(i, i + len));// 挑选出来的关键字
				temp.append(key + ",");
				txt = txt.replaceAll(key, "");// 挑选出来的关键字替换成空白,加快挑选速度
				l = txt.length();
			} else {
				i++;
			}
		}
		if (temp.length() > 0) {
			result = temp.substring(0, temp.length() - 1);
		}
		return result;
	}

	/*
	 * <p>说明:判断文中是否包含渠道规定的敏感字</p>
	 * 
	 * @author:姚旭民
	 * 
	 * @data:2017-8-20 下午3:33:19
	 */
	public boolean isKeyWords(String txt, int companyId) {
		for (int i = 0; i < txt.length(); i++) {
			int len = checkKeyWords(txt, companyId, i);
			if (len > 0) {
				return true;
			}
		}
		return false;
	}

	public static void main(String[] arg) {
		List<String> keywords = new ArrayList<String>();
		keywords.add("傻×");
		keywords.add("汉奸");
		keywords.add("草");
		keywords.add("草泥马");
		KeywordFilter.saveKeywords(1, keywords);
		String txt = "是傻×汉奸傻A傻B傻C傻D汉奸傻×草泥马";
		List<String> list = repword(1, txt);
		System.out.println("文中包含的敏感字为:" + list.get(1));
		System.out.println("原文:" + txt);
		System.out.println("敏感字过滤后:" + list.get(0));
	}
}


© 著作权归作者所有

jack__0023
粉丝 12
博文 19
码字总数 21424
作品 0
深圳
程序员
私信 提问
加载中

评论(10)

jack__0023
jack__0023 博主

引用来自“漆黑的烈焰使”的评论

引用来自“jack-0023”的评论

引用来自“漆黑的烈焰使”的评论

引用来自“jack-0023”的评论

引用来自“漆黑的烈焰使”的评论

引用来自“jack-0023”的评论

引用来自“漆黑的烈焰使”的评论

有干扰可以过滤吗?
具体指什么?

回复@jack-0023 : 例如过滤王八,但是输入的文字是王XXXXXXXXXX.....XXXXX八
哥们,你想想。。。这是干扰吗。。。。例如我这样写,你要过滤“英语”,但是有一句话是这样, “英语是一门国际性语言”,这时候你要过滤"英"字和"语"字吗?是吧

回复@jack-0023 : 但是那些是重复性的,例如王a八a
。。。。。。你如果有写"王a"或者"八a",是可以被过滤,你有没有了解明白我刚才回复你的意思??

回复@jack-0023 : 我理解,我的意思是,我要过滤王八,但是别人的生成器生成的是王a八a哈a哈a,或者等一下生成器会生成王b八b哈b哈b,这种中间加入重复字来扰乱敏感词。。。
你是不是混乱了。。。。这个是过滤器,负责帮你过滤你指定的敏感词,而你提出来的这些东西,属于你编写指定敏感词的范畴。。因为你这种需求,产生的变化极多,我记得腾讯的游戏过滤都没做到这地步。。。
开源中国首席罗纳尔多
开源中国首席罗纳尔多

引用来自“jack-0023”的评论

引用来自“漆黑的烈焰使”的评论

引用来自“jack-0023”的评论

引用来自“漆黑的烈焰使”的评论

引用来自“jack-0023”的评论

引用来自“漆黑的烈焰使”的评论

有干扰可以过滤吗?
具体指什么?

回复@jack-0023 : 例如过滤王八,但是输入的文字是王XXXXXXXXXX.....XXXXX八
哥们,你想想。。。这是干扰吗。。。。例如我这样写,你要过滤“英语”,但是有一句话是这样, “英语是一门国际性语言”,这时候你要过滤"英"字和"语"字吗?是吧

回复@jack-0023 : 但是那些是重复性的,例如王a八a
。。。。。。你如果有写"王a"或者"八a",是可以被过滤,你有没有了解明白我刚才回复你的意思??

回复@jack-0023 : 我理解,我的意思是,我要过滤王八,但是别人的生成器生成的是王a八a哈a哈a,或者等一下生成器会生成王b八b哈b哈b,这种中间加入重复字来扰乱敏感词。。。
jack__0023
jack__0023 博主

引用来自“漆黑的烈焰使”的评论

引用来自“jack-0023”的评论

引用来自“漆黑的烈焰使”的评论

引用来自“jack-0023”的评论

引用来自“漆黑的烈焰使”的评论

有干扰可以过滤吗?
具体指什么?

回复@jack-0023 : 例如过滤王八,但是输入的文字是王XXXXXXXXXX.....XXXXX八
哥们,你想想。。。这是干扰吗。。。。例如我这样写,你要过滤“英语”,但是有一句话是这样, “英语是一门国际性语言”,这时候你要过滤"英"字和"语"字吗?是吧

回复@jack-0023 : 但是那些是重复性的,例如王a八a
。。。。。。你如果有写"王a"或者"八a",是可以被过滤,你有没有了解明白我刚才回复你的意思??
开源中国首席罗纳尔多
开源中国首席罗纳尔多

引用来自“jack-0023”的评论

引用来自“漆黑的烈焰使”的评论

引用来自“jack-0023”的评论

引用来自“漆黑的烈焰使”的评论

有干扰可以过滤吗?
具体指什么?

回复@jack-0023 : 例如过滤王八,但是输入的文字是王XXXXXXXXXX.....XXXXX八
哥们,你想想。。。这是干扰吗。。。。例如我这样写,你要过滤“英语”,但是有一句话是这样, “英语是一门国际性语言”,这时候你要过滤"英"字和"语"字吗?是吧

回复@jack-0023 : 但是那些是重复性的,例如王a八a
jack__0023
jack__0023 博主

引用来自“漆黑的烈焰使”的评论

引用来自“jack-0023”的评论

引用来自“漆黑的烈焰使”的评论

有干扰可以过滤吗?
具体指什么?

回复@jack-0023 : 例如过滤王八,但是输入的文字是王XXXXXXXXXX.....XXXXX八
哥们,你想想。。。这是干扰吗。。。。例如我这样写,你要过滤“英语”,但是有一句话是这样, “英语是一门国际性语言”,这时候你要过滤"英"字和"语"字吗?是吧
开源中国首席罗纳尔多
开源中国首席罗纳尔多

引用来自“jack-0023”的评论

引用来自“漆黑的烈焰使”的评论

有干扰可以过滤吗?
具体指什么?

回复@jack-0023 : 例如过滤王八,但是输入的文字是王XXXXXXXXXX.....XXXXX八
jack__0023
jack__0023 博主

引用来自“路小磊”的评论

Hutool dfa算法中还有去除特殊符号的流程,不过分组这个大赞��
谢谢,要去学习一下Hutool
jack__0023
jack__0023 博主

引用来自“漆黑的烈焰使”的评论

有干扰可以过滤吗?
具体指什么?
路小磊
路小磊
Hutool dfa算法中还有去除特殊符号的流程,不过分组这个大赞��
开源中国首席罗纳尔多
开源中国首席罗纳尔多
有干扰可以过滤吗?
层级hashmap过滤敏感词思路

https://blog.csdn.net/gotohailang/article/details/38257627 敏感词过滤-使用hashmap实现dfa算法 假设敏感词有 中国人 中国男人 法轮 1、构建一个如下的数据结构 2、使用敏感词数据结构过滤...

ka_ko
2018/08/25
0
0
基于DFA敏感词查询的算法简析

文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/ 1.背景 项目中需要对敏感词做一个过滤,首先有几个方案可以选择: a.直接将敏感词组织成S...

李晓晖
2016/10/14
0
0
python实现敏感词过滤的几种方法

1.replace过滤 最简单也是最直接的就是直接循环敏感词,然后使用replace过滤关键词,文章和敏感词少的时候还可以,多的时候效率就真的很一般了。 2.使用正则过滤 有两个技术要点, 1.使用Pyt...

俊采星驰_87e0
2018/11/21
0
0
java+html实现弹幕功能并集成敏感词过滤功能,实现思路

即时评论和即时弹幕功能架构设计: 后端数据存储 前端弹幕展示方式 前后台即时通讯方式 敏感词过滤系统 数据存储 弹幕数据庞大,一般是无用数据,存储的话纯文本就行,结构化要求不强,数据不...

两毛五哥哥
2017/11/16
0
0
双数组字典树关键词查询匹配和替换

大家在进行关键词匹配和替换的时候都是用的什么算法?很多人都可能有这样的需求,比如聊天文本中的敏感词替换、html文本中的关键词加超链接等。不深入技术算法和时刻关注程序性能的人来说,就...

银杏果果
2016/12/24
285
1

没有更多内容

加载失败,请刷新页面

加载更多

oracle ORA-39700: database must be opened with UPGRADE option

ORA-01092: ORACLE instance terminated. Disconnection forced ORA-00704: bootstrap process failure ORA-39700: database must be opened with UPGRADE option 进程 ID: 3650 会话 ID: 29......

Tank_shu
今天
1
0
分布式协调服务zookeeper

ps.本文为《从Paxos到Zookeeper 分布式一致性原理与实践》笔记之一 ZooKeeper ZooKeeper曾是Apache Hadoop的一个子项目,是一个典型的分布式数据一致性的解决方案,分布式应用程序可以基于它...

ls_cherish
今天
4
0
聊聊DubboDefaultPropertiesEnvironmentPostProcessor

序 本文主要研究一下DubboDefaultPropertiesEnvironmentPostProcessor DubboDefaultPropertiesEnvironmentPostProcessor dubbo-spring-boot-project-2.7.3/dubbo-spring-boot-compatible/au......

go4it
昨天
2
0
redis 学习2

网站 启动 服务端 启动redis 服务端 在redis 安装目录下 src 里面 ./redis-server & 可以指定 配置文件或者端口 客户端 在 redis 的安装目录里面的 src 里面 ./redis-cli 可以指定 指定 连接...

之渊
昨天
2
0
Spring boot 静态资源访问

0. 两个配置 spring.mvc.static-path-patternspring.resources.static-locations 1. application中需要先行的两个配置项 1.1 spring.mvc.static-path-pattern 这个配置项是告诉springboo......

moon888
昨天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部