文档章节

NLP自然语言处理基础之hanlp入门

左手的倒影
 左手的倒影
发布于 2018/07/24 11:57
字数 820
阅读 676
收藏 2

「深度学习福利」大神带你进阶工程师,立即查看>>>

自然语言处理定义: 自然语言处理是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许多生物拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言。 自然语言处理的目标是让计算机处理或说“理解”自然语言,以完成有意义的任务,比如订机票购物或QA等。完全理解和表达语言是极其困难的,完美的语言理解等效于实现人工智能。

自然语言处理涉及的几个层次:

自然语言处理的几个层次

作为输入一共有两个来源,语音与文本。所以第一级是语音识别和OCR或分词(事实上,跳过分词虽然理所当然地不能做句法分析,但字符级也可以直接做不少应用)。接下来是形态学,援引《统计自然语言处理》中的定义:形态学(morphology):形态学(又称“词汇形态学”或“词法”)是语言学的一个分支,研究词的内部结构,包括屈折变化和构词法两个部分。由于词具有语音特征、句法特征和语义特征,形态学处于音位学、句法学和语义学的结合部位,所以形态学是每个语言学家都要关注的一门学科。

Hanlp自然语言处理开发包:

从事大数据方面工作的人对自然语言处理必然都是不陌生的,在Github上用户量最多的开源汉语自然语言处理工具是HanLP。HanLP的初始版本是在2014年初开发的,3月份的时候开始在Github上开源。2015年的时候集成在了大快搜索的DKNLP中,目前大快已经把DKNLP技术成果已经开源,并且整体装如HanLP项目,HanLP的版本已经到了V1.50。

Hanlp自然语言处理技术优势:

支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词调、词性标注),命名实体识别(中国人民、音译人民、日本人民,地名,实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、神经网络依存句法分析)。提供Lucene查件,兼容Solr和ElasticSearch。

hanlp自然语言处理技术优势

Hanlp自然语言处理应用领域:

Hanlp已经被广泛应用于Lucene、Solr、ElasticSearch、hadoop、android、Resin等平台,有大量开源作者开发各种查件与拓展,并且被包装或移植到Python、C#、R、JavaScript等语言上去。

hanlp自然语言处理应用领域

左手的倒影
粉丝 8
博文 182
码字总数 185988
作品 0
青岛
程序员
私信 提问
加载中
请先登录后再评论。
5分钟 maven3 快速入门指南

前提条件 你首先需要了解如何在电脑上安装软件。如果你不知道如何做到这一点,请询问你办公室,学校里的人,或花钱找人来解释这个给你。 不建议给Maven的服务邮箱来发邮件寻求支持。 安装Mav...

fanl1982
2014/01/23
1.2W
7
DKPro Core

DKPro Core 是基于 Apache UIMA 框架之上的自然语言处理(NLP)的软件组件。DKPro Core 提供了这样的第三方工具以及原NLP组件的包装。 DKPro核心建立在很大程度上uimaFIT可以快速方便的开发N...

匿名
2012/10/24
1.8K
0
[译] WPF MVVM 循序渐进(从基础到高级)

本文翻译自Shivprasad koirala在CodeProject上的文章:[WPF MVVM step by step (Basics to Advance Level)][1] 简介 从我们还是儿童到学习成长为成年人, 生命一直都在演变。 对于软件架构, ...

不插电码农
2015/11/27
1.5K
1
J360-cloud SpringCloud系列一:分布式配置服务器ConfigServer

j360开源博客之 ---------------------------------------------------------- J360-Cloud系列 spring-cloud快速入门工程之j360-cloud-all:(欢迎star、fork) https://github.com/xuminwl......

Hi徐敏
2015/10/08
4K
14
Ember.js 入门指南——路由定义

当你的应用启动的时候,路由器就会匹配当前的URL到你定义的路由上。然后按照定义的路由层次逐个加载数据、设置应用程序状态、渲染路由对应的模板。 1,基本路由 在app/router.js的map方法里定...

ubuntuvim
2015/09/24
3.6K
8

没有更多内容

加载失败,请刷新页面

加载更多

华为大危机!余承东:麒麟芯片告罄,今年或许是高端芯片最后一代

     大数据文摘出品   作者:牛婉杨   美国制裁下,华为麒麟芯片即将告罄。   华为消费者业务CEO余承东称,由于来自美国的持续经济压力,华为下个月将无法生产自己的麒麟芯片组。...

osc_qmxpov5s
5分钟前
0
0
狂神说Java多线程详解(二)

狂神的视频截图作为学习记录:线程同步和线程协作。 本文分享自微信公众号 - Android架构师成长之路(gh_07f996f00d9b)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“OSC源创计...

datoushiwoma
07/13
0
0
英特尔20GB数据泄漏!包含未发芯片文件,内部密码多为intel123

     大数据文摘出品   来源:Arstechnica   近日,英特尔发生了一起重大的数据泄漏事故,超过20GB的专有数据和源代码被放在了网上。   这20GB的泄漏数据不仅量大,而且包含的内容...

osc_tjee7sjs
7分钟前
0
0
postgresql 主键 id 设置自增

创建自增序列(起始值必须大于 0 ) CREATE SEQUENCE standard_detail_id_seq START 1; 主键 ID 默认设置为 nextval('standard_detail_id_seq'::regclass)...

青苗
7分钟前
0
0
Ubuntu-16.04安装 VS code

安装微软Visual Studio Code 首先需要安装Ubuntu Make。虽然Ubuntu Make存在Ubuntu15.04官方库中,但是需要Ubuntu Make 0.7以上版本才能安装Visual Studio。所以,需要通过官方PPA更新到最新...

贪狼lyb
2019/11/26
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部