加载中
斯坦福NLP笔记 —— Semantics

第一节 讲了词与词之间的各种关系,最后教授强调Hyponyms和Instance的区别: 前者指的是class与class之间的关系,后者指的是individual与class之间的关系 第二节 介绍了两个词典(thesaurus...

2014/07/23 15:43
168
斯坦福NLP笔记75 —— Introducing Ranked Retrieval

基本是一些tdidf的基本概念,先跳过。

2014/07/23 15:29
28
斯坦福NLP笔记73 —— Query Processing with the Inverted I

"AND"类的查询处理 假设有上述的Inverted Index结构,现在的问题是要找出两个同时包含了Brutus和Caesar的doc,尽管这个问题一点不复杂,教授依然给出了详细的算法步骤: 分别用两个指针指向上...

2014/07/23 09:37
48
斯坦福NLP笔记72 —— The Inverted Index

Inverted Index是信息抽取里最常用的数据结构,来看看他长啥样: Brutus指向数字X则代表X号文档中包含了Brutus这个词。 左边的索引词称为Dictionary,右边的文档ID称为Posting,是排好序的。 ...

2014/07/22 12:10
45
斯坦福NLP笔记71 —— Term-Document Incidence Matrices

这一节主要讲的是Term-Document矩阵的稀疏性(sparsity) 考虑这样一个大的文本集collection: 一共有N=100万篇文档,平均每篇文档包含一千个词,存下这些文档大约需要6GB的空间,这还好。 ...

2014/07/22 11:20
46
斯坦福NLP笔记70 —— Introduction to Information Retrieva

信息抽取的概念和评估

2014/07/22 11:02
26
斯坦福NLP笔记50 —— Semi-Supervised and Unsupervised Rel

通过seed寻找模式,然后反复迭代

2014/07/20 18:14
46
斯坦福NLP笔记49 —— Supervised Relation Extraction

上一节说了手工建立模式的过程,以及其优缺点,这一节该讲更通用的监督学习了。 教授首先提到在监督学习中判断实体关系时往往采用两个分类器,第一个用于判断两个实体(entity pairs)是否有...

2014/07/20 17:47
341
斯坦福NLP笔记48 —— Using Patterns to Extract Relations

上一节最后讲到了建立一个extractor的方法,手工建立和机器学习等,这一节详细阐述手工建立pattern的方法。引用Jurafsky教授常说的话: let's look at the intuition. Jurafsky教授讲话总是微...

2014/07/20 17:06
1K
斯坦福NLP笔记46 —— Maximum Entropy Sequence Models

前面几节都是在探讨命名实体识别的问题,上一节给出用来分类器可以使用的一些特征,word shape之类的,这一节教授具体阐述了最大熵分类器的实现。 序列问题(sequence problem) NLP中常常需...

2014/07/20 16:44
152
斯坦福NLP笔记45 —— Sequence Models for Named Entity Rec

Manning教授的英语很不容易听懂,果然是澳大利亚人,幸亏有字幕。 这一节讲的是分类器的训练,我们要做的第一步,自然是标记训练数据,把一句话中的实体标记出来。在标记的时候有两种标记方法...

2014/07/19 16:36
184
斯坦福NLP笔记44 —— Evaluation of Named Entity Recogniti

这一节基本是讲的这样一个问题: 譬如有这样一句话:邓紫棋这人,真庸俗。 然后你的NER系统在进行命名实体识别的时候把“邓紫”认成了一个实体,而把“棋”漏掉了,当然这样讲得通,从人名的...

2014/07/19 11:55
80
斯坦福NLP笔记43 —— Introduction to Information Extracti

信息萃取的目的 信息结构化,更好地呈现给用户 便于后续算法处理等 信息萃取的应用 常常用于萃取事实性的信息,譬如谁在什么地方干了什么,应用举例: 从商业报告中获取利润、收益等信息 从医...

2014/07/19 11:24
47
斯坦福NLP笔记47 —— What is Relation Extraction?

关系抽取的概念 假如有这样一个raw text:小明今年26岁,出生于日本北海道,身高180cm,相貌颇似金城武,外企高级白领,年净收入100万,爱好打篮球,但是喜欢男的。 关系抽取结果如下: 小明...

2014/07/18 23:01
175
斯坦福NLP笔记9 —— Weighted Minimum Edit Distance

为什么需要计算加权的最小编辑距离 拼写检查中,某些字符更容易被误拼 生物计算机科学中,某些插入和删除更可能发生 通过上述表格可看出,元音之间被误拼的概率高,譬如a被误拼成e、u的概率很...

2014/07/18 21:46
57
斯坦福NLP笔记8 —— Backtrace for Computing Alignments

光计算出了最小编辑距离还不够,还需要知道两个序列的对应关系,即字符之间是怎么对应的(alignment),所以在进行动态规划的时候需要进行回溯标记。最终我们需要得到的是这样: 竖线就代表了...

2014/07/18 21:22
56
斯坦福NLP笔记7 —— Computing Minimum Edit Distance

动态规划求解最小编辑距离 以序列 INTENTUON(X)和序列 EXECUTION(Y)为例 初始化:X的前i个字符与Y的前面0个字符的距离,自然是i。同理,X的前0个字符与Y的前面j个字符的距离也是0 递归关...

2014/07/18 19:56
57
斯坦福NLP笔记6 —— Defining Minimum Edit Distance

编辑距离 完全是常识了,不用多说,看看视频中给出的例子: 星号×被称为一个gap,就是空。d表示delete,s表示substitute,i表示insert,于是序列 INTENTUON 和序列 EXECUTION的最小编辑...

2014/07/18 19:32
61
斯坦福NLP笔记5 —— Sentence Segmentation

不光是词与词之间需要划分开,句子和句子之间也是需要划分的,咋一想,句子划分(Sentence Segmentation)会更简单,是这样的吗?我们一起来看看。 用脚趾头都能想到,划分句子,应该用标点符...

2014/07/18 13:20
166
斯坦福NLP笔记4 —— Word Normalization and Stemming

这节主要讲一些语言学的东西,一开始是lemmatization。 lemmatization:将词形变换转(inflections)为基本形式,看个例子: am,are,is --> be car,car's,cars --> car the boy's cars are d...

2014/07/18 12:02
174

没有更多内容

加载失败,请刷新页面

返回顶部
顶部