文档章节

微软牛津计划介绍——屌爆了的自然数据处理解决方案(人脸/语音识别,计算机视觉与语言理解)

gsbhzh
 gsbhzh
发布于 2015/08/24 11:00
字数 2847
阅读 3319
收藏 9
点赞 0
评论 0

1.微软牛津计划介绍

    微软牛津计划(网址:https://cn.projectoxford.ai/#) 提供了一组基于Rest架构的API和SDK工具包,帮助开发者轻轻松松使用微软的自然数据理解能力为自己的解决方案增加智能服务。利用微软牛津计划构建你自己的解决方案,支持任意语言及任意开发平台。主要提供了4个自然语言处理方面的核心问题解决方案:

1)人脸识别:微软最先进的人脸算法,以云平台为基础,检测和识别图片中的人脸。为您的移动应用和桌面应用提供人脸算法的技术支持。

2)语音识别:Speech API为开发者提供最先进的语音处理算法。通过这些API,开发者可以轻松地为自己的应用添加语音操作功能。在一定条件下,这些API还可以实现与用户之间的实时交互。

3)计算机视觉:Computer Vision APIs为开发者提供最顶尖的图像处理算法。通过这些API你可以获得基于图像视觉内容的各种信息并生成理想的缩略图。

4)语言理解智能服务:语言理解智能服务(LUIS)用快速有效的方式帮助开发者在应用中增加语言理解能力。通过LUIS你可以使用已经构建好的世界顶级模型。如果你有专门的需求,LUIS也可以指导你快速创建自己的模型。

    SDK下载地址:https://cn.projectoxford.ai/sdk

    上面是基本介绍,每一个应用微软都提供了SDK工具包,包括文档和例子演示呢。其应用场景有:

   

下面稍微介绍一些每个功能的一些细节把。需要详细了解和应用的,去官网查看资料,有中文版官网。


2.人脸识别(Face APIs)介绍

     人脸识别特指利用分析比较人脸视觉特征信息进行身份鉴别的计算机技术。人脸识别是一项热门的计算机技术研究领域,可以将人脸明暗侦测,自动调整动态曝光补偿,人脸追踪侦测,自动调整影像放大;它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

     微软的Face APIs提供了人脸识别领域主要的应用场景,如:

1)人脸检测:检测图片中的人脸,以方框标记脸部位置,识别包括人脸特征点、姿势、性别、年龄等在内的人脸属性。Face API 提供高精度的人脸定位检测,在一张图片里,最多可以检测到64张人脸。 进行人脸检测,只需上传一整张JPEG图片,或提供网页JPEG图片对应的URL即可。检测到的人脸会被标记上方框(左侧、顶部、宽度和高度),用像素点标明脸部在图片中的位置。 根据需要,人脸检测还可以从每张人脸上提取诸如姿势、性别、年龄等一系列与脸部有关的属性。如下图所以的例子:

    通常来讲,人脸识别就是从被测的许多人脸中自动辨识或验证某一个人的功能。 Face API 提供4种识别功能:人脸验证、相似人脸搜索、人脸自动分组和身份确认。 现在人脸识别已广泛用于安全系统、名人识别和相片标签等应用。

2)人脸验证:核对两张人脸是否属于同一个人,并给出置信度评分。

3)相似人脸搜索:从多张人脸中找出一些与所查人脸相似的人脸。

4)人脸分组:基于脸部相似程度,将多张人脸划分成不同的组。

5)人脸辨识:查询某张人脸,看其与用户提供的人脸数据中的何人相匹配。

    这里有适用与C#的Face API入门教程:https://cn.projectoxford.ai/doc/face/Get-Started/csharp

    人脸检测演示网址:https://cn.projectoxford.ai/demo/face#detection

    人脸验证演示网址:https://cn.projectoxford.ai/demo/face#verification


3.语音识别(Speech APIs)介绍

   二十年前,微软为 Windows 95 的用户发布了首个 Speech API (SAPI 1.0)。 如今,微软带来一个新的公开 Speech API (Beta),通过 Azure, 基于云计算平台,并成为 牛津计划 的一部分。牛津计划是为开发者提供 Speech 和 Vision API 的云平台,支持广泛的多通道智能服务和应用程序,尤其是针对使用 语音转换文本 和 文本转换语音 这两种功能。 此外, LUIS (语言理解智能服务) 也提供给开发者访问最先进的语言理解能力。 根据牛津计划,Windows Speech API 更新后也适用于 Windows 10。 两者结合后, 牛津计划 和 Windows 10 将形成一个完整并且全面的平台,为具有任意背景的开发者提供和支持广泛的语音场景和应用程序。微软的Speech APIs提供了完整语音识别,语意识别和语音合成功能。

1)语音识别:语音转换文本 该 API 可以直接打开并识别来自麦克风的实时语音,或者是其他来源的实时语音以及从文件内获取的音频。 在任何情况下,都可以通过实时流将语音传送到服务器,服务器再将部分识别结果传送回来。

2)语音意图识别:将语音转换为意图 该功能与语音转换为文本相似。区别在于语音意图识别功能除了可以从语音输入返回识别的文字,服务器还可以返回关于语音输入的结构化信息, 这样应用程序便可以轻松地解析说话者的意图, 以驱动下一步操作。 用于意图识别的训练模型是由牛津计划 LUIS 服务提供的。

3)语音合成:将文本转换成语音。 当应用程序需要对用户 “说话“时,此API可以将该应用程序产生的文本转换为语音,然后播放给用户。

    语音与文本转换演示:https://cn.projectoxford.ai/demo/speech#recognition

    语音识别 API 入门:https://cn.projectoxford.ai/doc/speech/Get-Started/csharp


4.计算机视觉(Computer Vision APIs)介绍

    计算机视觉是一门研究如何使机器"看"的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。Computer Vision APIs为开发者提供最顶尖的图像处理算法。通过这些API你可以获得基于图像视觉内容的各种信息并生成理想的缩略图。主要应用方面有:

1)图像分析:本模块将基于所输入图像的视觉内容分析出图像的视觉特征——图像类别,色情检测,主色调等等。使用adult和racy特征属性可以自动限制色情内容,保护你的用户。使用图像的类别检测,可以为图像添加标签,进而把图像分成不同群组。如下面的特征分析例子:

2)生成缩略图:对于输入的图像,生成高品质和高存储效率的缩略图。缩略图功能可以用最适合你需求的方式呈现图像。通过智能裁剪,获得与图片原始比例不同的缩略图,同时保留你想要的视觉区域。

3)光学字符识别:光学字符识别(OCR)可以在图像中检测文本,并把识别的文字提取到一个可供机器使用的字符流中。对嵌入的图像识别出文字并可供搜索。用户可以直接拍摄文本的图片,无需手动转录文字,从而节省时间和精力。

4)想要一个端到端的图片内容监测解决方案吗?监测图片内容,基于场景定制的内容监控服务集合了牛津计划API和其他相关技术,可以对违规/违法图像主动发出警报。创建和维护自定义图像和文本黑名单,并可自动报警。模糊匹配可以检测到你已经列入黑名单的内容。

5)检测儿童剥削:使用PhotoDNA云服务 自动检测和报告儿童剥削图像的分布。当有非法图片上传到你的平台时,区分并标记这些非法图片。

该服务在图片被修改的情况下仍可进行识别。

    视觉分析演示网址:https://cn.projectoxford.ai/demo/visions#Analysis

    视觉分析APIs文档:https://cn.projectoxford.ai/doc/vision/visual-features


5.语言理解智能服务(LUIS)介绍

    语言理解智能服务(LUIS)用快速有效的方式帮助开发者在应用中增加语言理解能力。通过LUIS你可以使用已经构建好的世界顶级模型。如果你有专门的需求,LUIS也可以指导你快速创建自己的模型。微软提供的APIs有以下功能特点:

1)创建语言理解模型:为你的应用创建模型以更好的理解意图,比如“把灯打开”或“开始新的跑步/步行/徒步旅行/骑自行车”这样的实体。 你可以通过深入的性能可视化调整你的模型。

2)使用来自Bing和Cortana的预构建的世界顶级模型:通过预构建的世界顶级模型来识别实体,譬如地点、时间、数字、温度;或处理常见的请求,譬如“设置上午八点的闹钟”。用Cortana的理解模型快速添加个人助理功能。

3)将你的模型部署到HTTP终端:仅需一步即可将你的模型部署到HTTP终端。LIUS会为你返回容易使用的JSON。

4)在任意设备上激活模型:只要有网络连接,你可以从任意终端激活你的语言理解模型,不管它是手机、平板电脑或其他设备。

5)轻松维护模型:审查输入到你的应用中的命令从而发现和改正错误。

    该服务还不完善,并没有完全开放,持续关注中吧。


6.资源

    资源直接访问官方网址即可,SDK页面:https://cn.projectoxford.ai/sdk 提供了所有服务的不同类型的 SDK,包括案例,文档等资料。

    人工智能、以及自然语言处理相关的技术会越来越成熟,相关的应用也会越来越多,多了解点,赶上下一波互联网热潮,看看怎么样,微软的技术真心不错,相比国内那些企鹅,百毒的开放平台,真的是屌爆了。。。。

本文转载自:

共有 人打赏支持
gsbhzh
粉丝 11
博文 20
码字总数 2605
作品 0
西安
个人站长
C#.NET开源项目、机器学习、足球赛事资料库

微软牛津计划介绍——屌爆了的自然数据处理解决方案(人脸/语音识别,计算机视觉与语言理解) 阅读目录 1.微软牛津计划介绍 2.人脸识别(Face APIs)介绍 3.语音识别(Speech APIs)介绍 4.计算机视...

李朝强 ⋅ 2016/02/25 ⋅ 0

人脸识别竞争激烈机器人视觉或将成为下一热点

如果你看过美剧《疑犯追踪》,你一定记得那句经典台词“You’re being watched.”剧中The Machine是个神奇的机器,它能够调用所有的摄像头,形成天网。当它锁定某个人,瞬间即可从网络调取所...

gunser ⋅ 06/05 ⋅ 0

AI大师 丨 Raj Reddy:从印度农村走出来的图灵奖得主

     编者按:“AI大师”是我们新推出的系列文章,为大家讲述人工智能领域大师们的研究与成长故事。第一期的主人公是美籍印度裔计算机科学家、1994年图灵奖获得者Raj Reddy,他是人工智能...

微软亚洲研究院 ⋅ 06/21 ⋅ 0

刷爆朋友圈的 How-Old 是怎么猜出你年龄的?

人们的朋友圈又被刷屏了,这次走红的是一个名为“how-old.net”黄颜色网站,当用户把个人照片上传后,它就能够测算出照片人物的性别和年龄。 在网站上线几个小时之内,这个系统已经测试了超过...

oschina ⋅ 2015/05/05 ⋅ 44

浙江天搜浅谈人工智能AI的四大应用

  如今已进入人工智能时代,代表了社会的进步,高科技的发展,那么人工智能如今运用在哪方面呢,浙江天搜总结了人工智能应用的四大方面:   一、语音识别   语音识别是指我们自然发出的...

tszj12 ⋅ 06/12 ⋅ 0

AI开发者们 百度开放这些技术与资源吸引你

主题为“Create with AI”的百度AI开发者实战营自10月19日启动以来,为全国各地开发者、创业者和合作伙伴带来语音、图像、人脸、UNIT、AR、PaddlePaddle等百度最核心的AI技术能力支持。 自历...

吕倩 ⋅ 2017/12/08 ⋅ 0

微软专家教你,如何搞定树莓派 AI 服务开发

本文来自作者 微软公开课 在 GitChat 上分享 「60分钟轻松搞定树莓派 AI 服务开发」 编辑 | Mc Jin 1. 引言 目前,物联网、人工智能已经深入到医疗、家居、交通、教育和工业等多个领域,正在...

gitchat ⋅ 05/07 ⋅ 0

现场 | 微软Build 2018亮点全揭晓:主推Azure、Microsoft 365,开源ML.Net

  机器之心报道   作者:李九喻      微软开发者大会 Build 2018 于 7-9 日在西雅图的华盛顿会议中心举行,本文带你浏览大会第一天的核心亮点。      今年 Build 大会总共吸引 ...

机器之心 ⋅ 05/08 ⋅ 0

吹响“人工智能应用”的集结号 ——AI Conference 2018北京站大会圆满落幕

摘要:2018年4月10日至4月13日,由O'Reilly和Intel共同举办的AI Conference 2018北京站大会在北京国际饭店会议中心隆重举行。大会的主题是“探索在业务中应用人工智能的机会”,来自Google、...

O'Reilly ⋅ 04/17 ⋅ 0

Azure,人工智能的最佳云平台

        微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋博士   Build大会(微软全球开发者大会)向来是我最爱的年度盛会。看到那么多开发者用微软的工具和平台打造出...

微软亚洲研究院 ⋅ 05/09 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

使用 vue-cli 搭建项目

vue-cli 是一个官方发布 vue.js 项目脚手架,使用 vue-cli 可以快速创建 vue 项目,GitHub地址是:https://github.com/vuejs/vue-cli 一、 安装 node.js 首先需要安装node环境,可以直接到中...

初学者的优化 ⋅ 23分钟前 ⋅ 0

设计模式 之 享元模式

设计模式 之 享元模式 定义 使用共享技术来有效地支持大量细粒度对象的复用 关键点:防止类多次创建,造成内存溢出; 使用享元模式来将内部状态与外部状态进行分离,在循环创建对象的环境下,...

GMarshal ⋅ 38分钟前 ⋅ 0

SpringBoot集成Druid的最简单的小示例

参考网页 https://blog.csdn.net/king_is_everyone/article/details/53098350 建立maven工程 Pom文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM......

karma123 ⋅ 今天 ⋅ 0

Java虚拟机基本结构的简单记忆

Java堆:一般是放置实例化的对象的地方,堆分新生代和老年代空间,不断未被回收的对象越老,被放入老年代空间。分配最大堆空间:-Xmx 分配初始堆空间:-Xms,分配新生代空间:-Xmn,新生代的大小一...

算法之名 ⋅ 今天 ⋅ 0

OSChina 周日乱弹 —— 这么好的姑娘都不要了啊

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @TigaPile :分享曾惜的单曲《讲真的》 《讲真的》- 曾惜 手机党少年们想听歌,请使劲儿戳(这里) @首席搬砖工程师 :怎样约女孩子出来吃饭,...

小小编辑 ⋅ 今天 ⋅ 8

Jenkins实践3 之脚本

#!/bin/sh# export PROJ_PATH=项目路径# export TOMCAT_PATH=tomcat路径killTomcat(){pid=`ps -ef | grep tomcat | grep java|awk '{print $2}'`echo "tom...

晨猫 ⋅ 今天 ⋅ 0

Spring Bean的生命周期

前言 Spring Bean 的生命周期在整个 Spring 中占有很重要的位置,掌握这些可以加深对 Spring 的理解。 首先看下生命周期图: 再谈生命周期之前有一点需要先明确: Spring 只帮我们管理单例模...

素雷 ⋅ 今天 ⋅ 0

zblog2.3版本的asp系统是否可以超越卢松松博客的流量[图]

最近访问zblog官网,发现zlbog-asp2.3版本已经进入测试阶段了,虽然正式版还没有发布,想必也不久了。那么作为aps纵横江湖十多年的今天,blog2.2版本应该已经成熟了,为什么还要发布这个2.3...

原创小博客 ⋅ 今天 ⋅ 0

聊聊spring cloud的HystrixCircuitBreakerConfiguration

序 本文主要研究一下spring cloud的HystrixCircuitBreakerConfiguration HystrixCircuitBreakerConfiguration spring-cloud-netflix-core-2.0.0.RELEASE-sources.jar!/org/springframework/......

go4it ⋅ 今天 ⋅ 0

二分查找

二分查找,也称折半查找、二分搜索,是一种在有序数组中查找某一特定元素的搜索算法。搜素过程从数组的中间元素开始,如果中间元素正好是要查找的元素,则搜素过程结束;如果某一特定元素大于...

人觉非常君 ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部