文档章节

自然语言处理(NLP)在企业应用中的实践(一)

畅捷通
 畅捷通
发布于 2016/07/03 23:20
字数 1408
阅读 54
收藏 1

在通用的领域,自然语言处理已经进入我们的生活,比如说谷歌有谷歌助手,微软有小娜,它们可以处理一些简单的指令。但是目前为止,还没有看到企业应用领域中广泛应用此项技术。如何将自然语言处理和复杂的企业应用结合起来,畅捷通在此方面做了一些尝试。

我们会从三个方面分享这一问题:

1.把自然语言处理这种技术运用到企业应用领域会面对哪些挑战?

2.畅捷通运用哪些技术来解决这些问题?

3.畅捷通在自然语言处理方面已有成果。

要完成一个任务时,我们要面对的主要挑战是什么呢?首先,这个通用的语音识别的工具,它的语料可能是来自于新闻这样的一些大众场景,所以没有针对商品进行优化。其次,所在环境有些噪音,最后是用户可能会直接用方言来说出商品的名称,所以使用通用的语音识别,对商品的识别率是不高的。举个极端的例子:鲜花椒油,被识别成了新发就咬,不仅仅是汉字不能够对应,就连拼音也没有一个是对的,这是方言的造成的结果。

我们第二个应用的场景是试图解决用自然语言来录入结构化数据。我们看到两张财务记帐凭证,会计希望能够通过对着手机说话,直接生成凭证。但是购买的物品不一样,最后使用的会计科目也不一样,这是我们怎样把自然语言转化成结构化数据碰到的一个比较大的问题。

我们会介绍三个方面的内容,一个是基于RNN的一个深度学习领域语言模型,还有一个是Encoder-Decoder也就是编码器-解码器这样的深度学习框架,还有就是拼音纠错引擎。

1.神经网络

在介绍RNN之前,先简单介绍一下神经网络。神经网络这个概念是在一九四几年被提出,它是根据输入层的输入,然后由中间的隐藏层最后达到输出。

输入层,代表输入值,隐藏层的结点是根据输入所有的输入层,跟输入层到隐藏层的权重相乘以后得出来的中间值,然后从隐藏层到输出层也同样是用这样的权重相乘,最后再做归一这样的方式得到输出的层。

这样一个非常简单的网络,需要训练的参数却非常多。像谷歌,它们尝试的很多网络的深度和节点的数量非常庞大,有上亿个节点、上百亿个参数。因为计算能力的加强,这项技术一直到了二零零几年才真正获得突破。

2.卷积型神经网络:CNN

接下来介绍一种特殊的神经网络叫卷积型神经网络,也就是CNN。CNN是神经网络达到甚至超过人类的识别水平一种技术。

CNN的四个特点 

第一个特点是局部连接,经典的神经网络是所有的上层节点和下一层结点全连接,那么局部连接是只有一个很小的局部相连接。以图象为例,把这个32乘32图象划分成5乘5这样的小块,然后以5乘5这样的图象去跟下一层节点去连接,这样可以大大地减小需要训练的参数。

第二个特点是使用了卷积计算来提取特征,卷积计算的优点是它对图象大小,位置变化,甚至一些几何变换都不敏感,也就是说它提取的特征是可以来应对图象简单变换的。

第三个特点是权值共享,也就是每层之间使用的是相同的权值。

第四个特点是在每一层特征提取以后,它会做一个Pooling 池化的过程,这个过程也同样是会减少需要训练的参数,把最明显的特征保留下来,到最后做分类的时候,用全连接的分类器来输出。

3.卷积计算和池化的过程

卷积计算就是把局部的特征提取出来;池化,目前看到的是用最大值(Max-Pooling),保留最大值,也就是在相邻的局部,选取特征最明显的保留,筛去不重要的部分,从而大大减少需计算的量。

4.CNN的优势和劣势

卷积神经网络也就是CNN在图象和语音的识别方面已经可以战胜人类,比如说图形验证码,经过复杂变形的图形验证码,人可能不能识别,但是CNN可以正确的识别。

但CNN有很大的局限性,它的层数、每一层使用的参数,比如说卷积核有多大、输入是多大、输出是多大,这些都是固定的,所以如果用CNN来解决人类的自然语言这种具有时序性的问题时,就非常困难!

这时,另外一种神经网络也就是循环型网络(RNN),现在就派上用场了。

© 著作权归作者所有

畅捷通
粉丝 0
博文 5
码字总数 7434
作品 0
海淀
私信 提问
2017机器学习系列高端培训——深度自然语言与智能(上海站)

本次培训主要针对企业技术开发人员,自然语言处理新晋从业人员,泛人工智能践行者。本课程将概述上述行业的发展现状与挑战,介绍机器学习深度学习等技术与自然语言处理的结合与应用,课程将着...

活动家
2017/08/24
5
0
2017机器学习系列高端培训——深度自然语言与智能(北京站)

本次培训主要针对企业技术开发人员,自然语言处理新晋从业人员,泛人工智能践行者。本课程将概述上述行业的发展现状与挑战,介绍机器学习深度学习等技术与自然语言处理的结合与应用,课程将着...

活动家
2017/08/24
159
0
10个项目给你答案,19年NLP为什么这么骚

Q:为什么2019年的NLP会这么的骚! A:因为2018年 NLP 领域为人工智能行业带来了以下突破性进展: 1. 迁移学习在 NLP 的成功应用; 2. ELMo (Embeddings from Language Models),改进了 word...

Paper_weekly
2018/12/29
0
0
报名 | 「达观杯」NLP算法大赛再启航,丰厚奖金、直通Offer等你来拿!

  人工智能在 2018 年继续强势发展,在运算智能和感知智能取得了很大的突破和优于人类的表现。   NLP(自然语言处理) 一直是人工智能领域的重要话题,而人类语言的复杂性也给 NLP 留下了重...

机器之心
2018/07/05
0
0
华为云技术专场|AI 与云原生实践

2014-2019年这五年,对于很多互联网公司而言,微服务和AI这两项技术的诞生和发展起到了里程碑式作用。作为企业架构重构的方向,微服务引起业界关注最多的话题包括架构设计原则、K8S容器架构、...

OSC_hSQJAs
04/25
41
0

没有更多内容

加载失败,请刷新页面

加载更多

一起来学Java8(四)——复合Lambda

在一起来学Java8(二)——Lambda表达式中我们学习了Lambda表达式的基本用法,现在来了解下复合Lambda。 Lambda表达式的的书写离不开函数式接口,复合Lambda的意思是在使用Lambda表达式实现函...

猿敲月下码
28分钟前
9
0
debian10使用putty配置交换机console口

前言:Linux的推广普及,需要配合解决实际应用方能有成效! 最近强迫自己用linux进行实际工作,过程很痛苦,还好通过网络一一解决,感谢各位无私网友博客的帮助! 系统:debian10 桌面:xfc...

W_Lu
今天
10
0
aelf Enterprise 0.8.0 beta有奖公测,“Bug奖金计划”重磅开启

2019年9月30日,aelf Enterprise 0.8.0 beta版正式发布。aelf Enterprise 0.8.0 beta是一个完备的区块链系统, 包含完备的区块链系统、开发套件、开发文档、以及配套的基础应用和基础服务。 ...

AELF开发者社区
今天
10
0
oracle 初始化数据库脚本

create user lpf identified by 123456; create tablespace lpf_ts_cms datafile '/opt/app/oracle/product/11.2.0/lpf.dbf' size 200M; alter user lpf default tablespace lpf_ts_cms; sel......

internetafei
今天
8
0
深入了解Redis底层数据结构

说明 说到Redis的数据结构,我们大概会很快想到Redis的5种常见数据结构:字符串(String)、列表(List)、散列(Hash)、集合(Set)、有序集合(Sorted Set),以及他们的特点和运用场景。不过它们是...

TurboSanil
今天
7
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部