文档章节

《数学之美》—分词

小木fan
 小木fan
发布于 2017/08/01 10:52
字数 281
阅读 3
收藏 0

1、为什么要分词?

2、怎样去分词?

摘要与理解:

  1. S(句子) = w1w2w3...wn(词)

        语言模型是建立在词的基础上的,因为词是表达语义的最小单位。

     2.分词的输入:一个句子,例:中国航天官员应邀到美国与太空总署官员开会

        分词的输出:用分界符分割的一串词,例:中国/航天/官员/应邀/到/美国/与/太空/总署/官员/开会

     3.分词的发展

        (1)北航梁南元教授-查字典  

            复合词 单字词 最长词匹配

        (2)哈工大王晓龙博士-最少词数的分词理论

            分词的二义性 并非所有最长词匹配都正确

        (3)清华郭进博士-统计语言模型解决了二义性

            一个句子S的不同分词法 -  A1,A2,A3,...,Ak

                                                     B1,B2,B3,...,Bm

                                                     C1,C2,C3,...,Cn

          P(A1,A2,A3,...,Ak) > P(B1,B2,B3,...,Bm)   &&  P(A1,A2,A3,...,Ak) > P(C1,C2,C3,...,Cn)

          则  A1,A2,A3,...,Ak是最好分词 —— 计算量大

          动态规划 - 维特比算法

 

        

 

 

 

      4.词的颗粒度

 

© 著作权归作者所有

小木fan
粉丝 1
博文 52
码字总数 13186
作品 0
绵阳
私信 提问
利用sklearn进行豆瓣电影评论的文本分类

在之前,我已经在豆瓣电影top250中爬取了约6w条好评和差评,在此我们来利用这些数据,进行入门级别的文本分类。 一 数据清洗 数据在豆瓣电影top250提供下载,下载后能看到6W条好评和差评,由...

yuweiming70
2018/03/24
0
0
如何确定网页和查询的相关性

本文分为两部分 搜索关键词权重的科学度量TF-IDF 利用python的工具包计算文本的TF-IDF 1. 搜索关键词权重的科学度量TF-IDF 查询:原子能的应用 首先进行分词:原子能、的、应用 根据直觉知道...

技术mix呢
2017/10/11
0
0
大数据、机器学习及人工智能必读书目——《数学之美》

  计分析、机器学习即人工智能必读书目系列之数学之美      我们已经进入了全新的数据时代,大数据、云计算、物联网、机器学习、人工智能等等一系列技术纷至沓来,数据的管理和应用已经...

爱编程爱统计
2017/09/09
0
0
2018-10-22-今日得到-《数学之美》

今天分享的主题来自得到的每天听本书系列之《数学之美》 关于作者 吴军,得到App专栏《吴军的谷歌方法论》主理人。计算机科学家,硅谷投资人,著名自然语言处理专家和搜索专家。曾先后供职于...

韬声依旧在路上
2018/10/24
0
0
Hanlp等七种优秀的开源中文分词库推荐

中文分词是中文文本处理的基础步骤,也是中文人机自然语言交互的基础模块。由于中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词。 纵观整个开源领域,陆陆续续做...

左手的倒影
2018/10/12
264
1

没有更多内容

加载失败,请刷新页面

加载更多

3_数组

3_数组

行者终成事
今天
7
0
经典系统设计面试题解析:如何设计TinyURL(二)

原文链接:https://www.educative.io/courses/grokking-the-system-design-interview/m2ygV4E81AR 编者注:本文以一道经典的系统设计面试题:《如何设计TinyURL》的参考答案和解析为例,帮助...

APEMESH
今天
7
0
使用logstash同步MySQL数据到ES

概述   在生成业务常有将MySQL数据同步到ES的需求,如果需要很高的定制化,往往需要开发同步程序用于处理数据。但没有特殊业务需求,官方提供的logstash就很有优势了。   在使用logstas...

zxiaofan666
今天
10
0
X-MSG-IM-分布式信令跟踪能力

经过一周多的鏖战, X-MSG-IM的分布式信令跟踪能力已基本具备, 特点是: 实时. 只有要RX/TX就会实时产生信令跟踪事件, 先入kafka, 再入influxdb待查. 同时提供实时sub/pub接口. 完备. 可以完整...

dev5
今天
7
0
OpenJDK之CyclicBarrier

OpenJDK8,本人看的是openJDK。以前就看过,只是经常忘记,所以记录下 图1 CyclicBarrier是Doug Lea在JDK1.5中引入的,作用就不详细描述了,主要有如下俩个方法使用: await()方法,如果当前线...

克虏伯
今天
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部