中英文组织机构名过滤

原创
2012/04/10 21:11
阅读数 108
需求:用统计方法抽取出的机构名有很小一部分是错误的,可能包含各种特殊字符或者其他错误情况,需要过滤掉非法的机构。

方法:网上关于机构名过滤的资料很少,再者组织机构命名方式非常多样化,没有固定的规律可循。因此使用排除法,排除包含非法字符或者构造不合理的机构,尽量减少误过滤的数量。从已有的近10万个机构中提取所有包含特殊字符(除汉字,字母,数字和空格以外)的机构名,总结过滤规则。

过滤规则:
1. 可以包含的ASCII字符
字母 数字 空格,. ' & ( ) / # - ", 
示例:
Lewis & Clark College
73026部队
Bell Labs (Lucent Technologies Inc.)
People's Bank of China
CAD/CAM中心
秦皇岛燕山大学524#
French-American Foundation

2. 可以包含的非ASCII字符
汉字 《 》“ ”(), 、 ·  ○  〇  ; : &
示例:
《计算机学报》编辑部
华南师范大学“三农”与城镇化研究所
联想(沈阳)有限公司
中国航天科工集团第二研究院二〇一所
解放军第三○三医院
浙江大学工业控制技术国家重点实验室、先进控制研究所
中国科学院遥感应用研究所,遥感信息科学开放研究实验室

3. 名称中出现的各种括号,书名号,引号需要配对
示例:
俄罗斯世界”基金会
U)Xiaorong(四川农业大学信息技术工程学院
中国企业家杂志》社

4. 除括号,引号,点,#之外,其他特殊字符不能出现在首尾
示例:
*Canon Research Centre Europe Ltd.
】叙利亚外交部

5. 出现其他字符均视为非法名称
示例:
École Nationale Supérieure des Telecommunications de Bretagne
Ernst ☀ Young
ꀀꀀꀀꀀ特区政府教育局新高中学
 
展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部