文档章节

老司机谈鉴黄,新一代“鉴黄师”是如何养成的?

阿里聚安全
 阿里聚安全
发布于 2017/07/31 14:56
字数 1526
阅读 17
收藏 0
点赞 0
评论 0

在互联网高速发展的今天,直播平台,内容社区,视频网站等UGC/PGC平台蓬勃发展,如雨后春笋般出现。但巨大的安全隐患也接踵而至,内容审核成为企业最关键的一道防火墙。企业招聘大量的内容审核专员来应对包括色情、暴力、犯罪等多个方面的不良内容。其中鉴黄师可能是最神秘也最令人遐想的岗位了。

 

说起鉴黄师,大家会心一笑,看看黄图还有高收入,简直没天理。但是在从业人员看来,它真的那么令人向往吗?阿里聚安全小编专访了负责阿里内容安全(阿里绿网)的资深赛车手——来自阿里安全多媒体算法团队的唐秋。常年战斗在一线的他,是如何学习高超的驾驶技巧?

 

 

从鉴黄师到“鉴黄师” 

唐秋告诉小编,鉴黄师发展到今天,它的身份已然有着不同的变化。 

第一代鉴黄师正如大家所想的那样,通过一双肉眼鉴别淫秽图片和视频。但这份工作并不轻松,他们每天需要完成海量的图片视频鉴别。因此长时间从事这份工作,不仅对身体是一种摧残。观看太多的色情作品,甚至扭曲的色情作品,还会对心理造成极大的创伤,影响正常的性生活和婚姻关系。

 

图片来源于网络

 

在人工鉴黄成本上升和互联网日益猖獗的色情信息的环境下,第二代“鉴黄师”应运而生。

第二代“鉴黄师”从人工鉴黄演变到机器智能鉴黄,通过人工智能、深度学习和大数据样本等技术,千万张正常图片与色情图片的训练模型,最终生成一个智能鉴黄模型。

 

 

智能鉴黄模型生成步骤

 

上面这张图的步骤里,制定标准与标注数据的难度比训练模型更大一些。因为现实世界是复杂的,不同的人对同一张图片的认识往往不一样。

 

打个比方,女性泳装图片,如果以沙滩为背景如何判定,换成室内环境呢?儿童的写真该如何判断?

 

为了制定标准,他们了承受很大的压力,一旦没处理好,会引起舆论的压力和监管部门的处罚。阿里内容安全团队的运营与算法同学一起讨论修订了数次才有了初版,并且在后续打标过程中根据遇到的问题进行了几次增补,标准才稳定下来。

 

阿里内容安全的智能鉴黄技术使用非常简单,输入一张图片或视频,算法模型返回一个0-100之间的分值。这个分值非线性地标示图片含色情内容的概率:得分99及以上的图片几乎可以肯定是色情图,可以机器自动处理;得分50-99的需要人工审核;得分50以下的认为是正常图,因为50分及以上包含了99%以上的色情图片。

 

 

阿里内容安全的图片识别结果

 

 

在获取最初的样本过程中,唐秋告诉小编一个数据:近2000网站,6000+万疑似色情图片,1300+万的高质量标注。他说这是智能鉴黄最重要的一块基石。

 

“老司机”带着“新司机” 

在这个阶段,传统鉴黄师从完成鉴别工作转变到教会机器如何识别的更准确。他们给得分在50-99的图片视频标注“正常”、“性感”、“色情”的分类,机器根据标注去学习,让它们变的越来越聪明。

 

那么有一个问题:会出现教会徒弟,饿死师傅的情况吗? 

“教会徒弟后,是让师傅更加轻松。而且,师傅和徒弟可以互相学习,共同进步”。唐秋告诉阿里聚安全小编,智能审核+人工审核是目前国内互联网公司主流的内容审核方法。

 

 

智能审核为主

智能识别每天可以处理几亿张图片,不仅可以节省企业大量的人力成本,并且大大提高识别的准确率。还能提供音视频、文字、直播等形式的内容检测,覆盖鉴黄、暴恐、涉政、广告等多种内容风险。每一条视频/信息的发布,都将经过机器和人工等多道审核。

 

以上智能审核的功能可以访问阿里聚安全提供的内容安全服务免费测试体验(http://jaq.alibaba.com/green),企业可使用户通过低成本的一次接入,与OSS、ECS等云产品无缝对接。它支撑着阿里系淘宝、支付宝等核心业务的内容安全。目前微博、熊猫TV、支付宝都在使用阿里内容安全功能,覆盖社交、直播、金融等多个行业。

 

人工审核为辅

虽然在后期机器识别越来越精准,可以胜任绝大部分的审核工作,但是相比人工审核还是有一定的局限性。因为机器还很难模拟出正常的用户体验,很难理解内容背后的深意,很难作出准确的“人的判断”。并且直播和视频行业盛行的今天,机器检测其内容的难度较大,还是需要人工来辅助审核完成。

 

但随着智能技术的更新,识别效率的提高,人工审核的占比将越来越低,人工智能或许可以彻底将传统鉴黄师以及内容审核专员解放出来,最终传统鉴黄师将会往第三代发展。

© 著作权归作者所有

共有 人打赏支持
阿里聚安全
粉丝 26
博文 89
码字总数 191047
作品 0
杭州
阿里云CDN图片鉴黄服务正式上线,人工智能助力企业降低违规风险

摘要: 随着直播、视频、图片等内容形态的爆发与各大移动社交媒体、UGC平台的兴起,内容安全问题也逐渐凸显。每天海量的用户图片、视频,夹杂其中的淫秽色情等内容让平台方措手不及,传统鉴黄...

姬子玉 ⋅ 2017/12/06 ⋅ 0

AI算法起家的今日头条为何败给了色情?一文告诉你机器学习何以搞不定鉴黄

12月29日,国家互联网信息办公室在官网发布消息称,针对今日头条、凤凰新闻手机客户端持续传播色情低俗信息、违规提供互联网新闻信息服务等问题,要求北京市互联网信息办公室分别约谈两家企业...

dqcfkyqdxym3f8rb0 ⋅ 01/02 ⋅ 0

成也AI,败也AI!一文告诉你机器学习何以搞不定鉴黄

12月29日,国家互联网信息办公室在官网发布消息称,针对今日头条、凤凰新闻手机客户端持续传播色情低俗信息、违规提供互联网新闻信息服务等问题,要求北京市互联网信息办公室分别约谈两家企业...

AI科技大本营 ⋅ 01/03 ⋅ 0

色情主播的天敌:AI 大牛为你解密人工智能鉴黄的那些事

目前多家人工智能公司已开始布局鉴黄业务,阿里巴巴和腾讯分别拥有阿里绿网、万象优图两大鉴黄系统。而在创业公司方面,较为知名的有图普科技、飞搜科技、深图智服等公司。 近期在线直播火爆...

亚峰 ⋅ 2016/11/09 ⋅ 0

性感与色情有多远——你不知道的图片鉴黄那些事儿

人工智能鉴黄如何分辨性感与色情,机器学习又是通过怎么样的算法,提升自身的鉴黄准确率呢? 类似这样的图片,智能鉴黄又是否能够分辨出来? 全文阅读:http://support.upyun.com/hc/kb/arti...

又拍云 ⋅ 2017/03/01 ⋅ 4

今日头条败给了色情?AI算法不行,还是另有隐情?

今日头条出事了,相关负责人表示,将严格落实网信部门管理要求,对相关问题进行自查自纠,分别对违规问题严重的部分频道暂停内容更新。今日头条手机客户端“推荐”“热点”“社会”“图片”“...

oncast ⋅ 01/09 ⋅ 3

如何用腾讯云打造一款微视频APP

版权声明:本文由腾讯云原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/196 来源:腾云阁 https://www.qcloud.com/community 产品的整个技术实现架构由...

偶素浅小浅 ⋅ 2016/11/11 ⋅ 1

不只鉴黄,这款产品要提供所有 AI 识别的闭环服务

雷锋网按:近日,UCloud 的媒体 AI 产品 UMAI 入选雷锋网发布的「AI 最佳掘金案例年度榜单」,并获得最佳内容审查奖,本篇即为对这款产品的相关内容介绍。 今日头条,这家以机器分发技术驱动...

王金许 ⋅ 01/11 ⋅ 0

亚太CDN年会,金山云获"业务创新突出企业"奖

  【IT168 资讯】11月14日,2017亚太CDN年会・颁奖盛典在上海开幕。本次活动聚合了来自云计算、CDN服务提供商、OTT视频服务提供商、移动直播平台、互联网电商等各行业精英,旨在通过聚集海内...

it168网站 ⋅ 2017/11/15 ⋅ 0

智能计算未来 CDN进入差异化技术竞争

  【IT168 资讯】随着人工智能时代的到来,CDN亟需进行技术的快速变革,在价格战之后,CDN行业将进入技术差异化竞争时代,他认为CDN将全面进入智能计算时代,腾讯云已经在这方面进行尝试。...

it168网站 ⋅ 2017/04/12 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

知乎Java数据结构

作者:匿名用户 链接:https://www.zhihu.com/question/35947829/answer/66113038 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 感觉知乎上嘲讽题主简...

颖伙虫 ⋅ 今天 ⋅ 0

Confluence 6 恢复一个站点有关使用站点导出为备份的说明

推荐使用生产备份策略。我们推荐你针对你的生产环境中使用的 Confluence 参考 Production Backup Strategy 页面中的内容进行备份和恢复(这个需要你备份你的数据库和 home 目录)。XML 导出备...

honeymose ⋅ 今天 ⋅ 0

JavaScript零基础入门——(九)JavaScript的函数

JavaScript零基础入门——(九)JavaScript的函数 欢迎回到我们的JavaScript零基础入门,上一节课我们了解了有关JS中数组的相关知识点,不知道大家有没有自己去敲一敲,消化一下?这一节课,...

JandenMa ⋅ 今天 ⋅ 0

火狐浏览器各版本下载及插件httprequest

各版本下载地址:http://ftp.mozilla.org/pub/mozilla.org//firefox/releases/ httprequest插件截至57版本可用

xiaoge2016 ⋅ 今天 ⋅ 0

Docker系列教程28-实战:使用Docker Compose运行ELK

原文:http://www.itmuch.com/docker/28-docker-compose-in-action-elk/,转载请说明出处。 ElasticSearch【存储】 Logtash【日志聚合器】 Kibana【界面】 答案: version: '2'services: ...

周立_ITMuch ⋅ 今天 ⋅ 0

使用快嘉sdkg极速搭建接口模拟系统

在具体项目研发过程中,一旦前后端双方约定好接口,前端和app同事就会希望后台同事可以尽快提供可供对接的接口方便调试,而对后台同事来说定好接口还仅是个开始、设计流程,实现业务逻辑,编...

fastjrun ⋅ 今天 ⋅ 0

PXE/KickStart 无人值守安装

导言 作为中小公司的运维,经常会遇到一些机械式的重复工作,例如:有时公司同时上线几十甚至上百台服务器,而且需要我们在短时间内完成系统安装。 常规的办法有什么? 光盘安装系统 ===> 一...

kangvcar ⋅ 昨天 ⋅ 0

使用Puppeteer撸一个爬虫

Puppeteer是什么 puppeteer是谷歌chrome团队官方开发的一个无界面(Headless)chrome工具。Chrome Headless将成为web应用自动化测试的行业标杆。所以我们很有必要来了解一下它。所谓的无头浏...

小草先森 ⋅ 昨天 ⋅ 0

Java Done Right

* 表示难度较大或理论性较强。 ** 表示难度更大或理论性更强。 【Java语言本身】 基础语法,面向对象,顺序编程,并发编程,网络编程,泛型,注解,lambda(Java8),module(Java9),var(...

风华神使 ⋅ 昨天 ⋅ 0

Linux系统日志

linux 系统日志 /var/log/messages /etc/logrotate.conf 日志切割配置文件 https://my.oschina.net/u/2000675/blog/908189 logrotate 使用详解 dmesg 命令 /var/log/dmesg 日志 last命令,调......

Linux学习笔记 ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部