文档章节

老司机谈鉴黄,新一代“鉴黄师”是如何养成的?

阿里聚安全
 阿里聚安全
发布于 2017/07/31 14:56
字数 1526
阅读 19
收藏 0

在互联网高速发展的今天,直播平台,内容社区,视频网站等UGC/PGC平台蓬勃发展,如雨后春笋般出现。但巨大的安全隐患也接踵而至,内容审核成为企业最关键的一道防火墙。企业招聘大量的内容审核专员来应对包括色情、暴力、犯罪等多个方面的不良内容。其中鉴黄师可能是最神秘也最令人遐想的岗位了。

 

说起鉴黄师,大家会心一笑,看看黄图还有高收入,简直没天理。但是在从业人员看来,它真的那么令人向往吗?阿里聚安全小编专访了负责阿里内容安全(阿里绿网)的资深赛车手——来自阿里安全多媒体算法团队的唐秋。常年战斗在一线的他,是如何学习高超的驾驶技巧?

 

 

从鉴黄师到“鉴黄师” 

唐秋告诉小编,鉴黄师发展到今天,它的身份已然有着不同的变化。 

第一代鉴黄师正如大家所想的那样,通过一双肉眼鉴别淫秽图片和视频。但这份工作并不轻松,他们每天需要完成海量的图片视频鉴别。因此长时间从事这份工作,不仅对身体是一种摧残。观看太多的色情作品,甚至扭曲的色情作品,还会对心理造成极大的创伤,影响正常的性生活和婚姻关系。

 

图片来源于网络

 

在人工鉴黄成本上升和互联网日益猖獗的色情信息的环境下,第二代“鉴黄师”应运而生。

第二代“鉴黄师”从人工鉴黄演变到机器智能鉴黄,通过人工智能、深度学习和大数据样本等技术,千万张正常图片与色情图片的训练模型,最终生成一个智能鉴黄模型。

 

 

智能鉴黄模型生成步骤

 

上面这张图的步骤里,制定标准与标注数据的难度比训练模型更大一些。因为现实世界是复杂的,不同的人对同一张图片的认识往往不一样。

 

打个比方,女性泳装图片,如果以沙滩为背景如何判定,换成室内环境呢?儿童的写真该如何判断?

 

为了制定标准,他们了承受很大的压力,一旦没处理好,会引起舆论的压力和监管部门的处罚。阿里内容安全团队的运营与算法同学一起讨论修订了数次才有了初版,并且在后续打标过程中根据遇到的问题进行了几次增补,标准才稳定下来。

 

阿里内容安全的智能鉴黄技术使用非常简单,输入一张图片或视频,算法模型返回一个0-100之间的分值。这个分值非线性地标示图片含色情内容的概率:得分99及以上的图片几乎可以肯定是色情图,可以机器自动处理;得分50-99的需要人工审核;得分50以下的认为是正常图,因为50分及以上包含了99%以上的色情图片。

 

 

阿里内容安全的图片识别结果

 

 

在获取最初的样本过程中,唐秋告诉小编一个数据:近2000网站,6000+万疑似色情图片,1300+万的高质量标注。他说这是智能鉴黄最重要的一块基石。

 

“老司机”带着“新司机” 

在这个阶段,传统鉴黄师从完成鉴别工作转变到教会机器如何识别的更准确。他们给得分在50-99的图片视频标注“正常”、“性感”、“色情”的分类,机器根据标注去学习,让它们变的越来越聪明。

 

那么有一个问题:会出现教会徒弟,饿死师傅的情况吗? 

“教会徒弟后,是让师傅更加轻松。而且,师傅和徒弟可以互相学习,共同进步”。唐秋告诉阿里聚安全小编,智能审核+人工审核是目前国内互联网公司主流的内容审核方法。

 

 

智能审核为主

智能识别每天可以处理几亿张图片,不仅可以节省企业大量的人力成本,并且大大提高识别的准确率。还能提供音视频、文字、直播等形式的内容检测,覆盖鉴黄、暴恐、涉政、广告等多种内容风险。每一条视频/信息的发布,都将经过机器和人工等多道审核。

 

以上智能审核的功能可以访问阿里聚安全提供的内容安全服务免费测试体验(http://jaq.alibaba.com/green),企业可使用户通过低成本的一次接入,与OSS、ECS等云产品无缝对接。它支撑着阿里系淘宝、支付宝等核心业务的内容安全。目前微博、熊猫TV、支付宝都在使用阿里内容安全功能,覆盖社交、直播、金融等多个行业。

 

人工审核为辅

虽然在后期机器识别越来越精准,可以胜任绝大部分的审核工作,但是相比人工审核还是有一定的局限性。因为机器还很难模拟出正常的用户体验,很难理解内容背后的深意,很难作出准确的“人的判断”。并且直播和视频行业盛行的今天,机器检测其内容的难度较大,还是需要人工来辅助审核完成。

 

但随着智能技术的更新,识别效率的提高,人工审核的占比将越来越低,人工智能或许可以彻底将传统鉴黄师以及内容审核专员解放出来,最终传统鉴黄师将会往第三代发展。

© 著作权归作者所有

共有 人打赏支持
阿里聚安全
粉丝 28
博文 89
码字总数 191047
作品 0
杭州
私信 提问
AI 这么优秀,连我鉴黄师的饭碗都抢了

色情行业,或许是对信息渠道最敏锐、利用各类信息渠道进行传播最“充分”的“行业”。这些年,社交 App、直播、短视频等新的互联网应用方式,都难逃色情内容的“骚扰”。哪里人多,色情内容就...

又拍云
09/18
0
0
95后美女激战AI,结果亮了……

「深蓝」击败国际象棋冠军彼得帕罗夫, 「阿尔法狗」碾压职业围棋选手李世石, 人们对「人机大战」一直乐此不疲。 人工真的会被 AI 打败并取代吗? 95 后美女鉴黄师表示不服! 下面我们看一下...

七牛云
08/20
0
0
BUF早餐铺 全球信息安全支出连年上涨;陕西西安破获一起网络黑客盗窃虚拟货币案;阿里AI鉴黄师上线

  各位Buffer早上好,今天是2018年8月21日星期二,农历七月十一。今天份的 BUF 早餐内容有:全球信息安全支出明年或超1240亿美元;中国政府可能对入华外企进行网络安全等级评定;陕西西安破...

FreeBuf
08/21
0
0
阿里云CDN图片鉴黄服务正式上线,人工智能助力企业降低违规风险

摘要: 随着直播、视频、图片等内容形态的爆发与各大移动社交媒体、UGC平台的兴起,内容安全问题也逐渐凸显。每天海量的用户图片、视频,夹杂其中的淫秽色情等内容让平台方措手不及,传统鉴黄...

姬子玉
2017/12/06
0
0
AI算法起家的今日头条为何败给了色情?一文告诉你机器学习何以搞不定鉴黄

12月29日,国家互联网信息办公室在官网发布消息称,针对今日头条、凤凰新闻手机客户端持续传播色情低俗信息、违规提供互联网新闻信息服务等问题,要求北京市互联网信息办公室分别约谈两家企业...

dqcfkyqdxym3f8rb0
01/02
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Alibaba Java诊断利器Arthas实践--使用redefine排查应用奇怪的日志来源

背景 随着应用越来越复杂,依赖越来越多,日志系统越来越混乱,有时会出现一些奇怪的日志,比如: [] [] [] No credential found 那么怎样排查这些奇怪的日志从哪里打印出来的呢?因为搞不清...

hengyunabc
今天
1
0
home hosts

home hosts lwk@qwfys:~$ cat /etc/hosts127.0.0.1 localhost127.0.1.1 qwfys192.168.56.101vm600.qwfys.com39.108.212.91alpha1.ppy.com39.108.117.122alpha2.p......

qwfys
今天
1
0
大数据教程(6.1)hadoop生态圈介绍及就业前景

1. HADOOP背景介绍 1.1、什么是HADOOP 1.HADOOP是apache旗下的一套开源软件平台 2.HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 3.HADOOP的核心组...

em_aaron
今天
4
0
hadoop垃圾回收站

在生产生,hdfs回收站必须是开启的,一般设置为7天。 fs.trash.interval 为垃圾回收站保留时间,如果为0则禁用回收站功能。 fs.trash.checkpoint.interval 回收站检查点时间,一般设置为小于...

hnairdb
昨天
3
0
腾讯与Github的魔幻会面背后的故事…

10月22日,腾讯开源管理办公室有幸邀请到Github新晋CEO Nat Friedman,前来鹅厂参观交流。目前腾讯已经有近70个项目在Github上开源,共获得17w stars,世界排名11位。Github是腾讯开源的主阵...

腾讯开源
昨天
17
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部