斯坦福NLP笔记46 —— Maximum Entropy Sequence Models

前面几节都是在探讨命名实体识别的问题,上一节给出用来分类器可以使用的一些特征,word shape之类的,这一节教授具体阐述了最大熵分类器的实现。 序列问题(sequence problem) NLP中常常需...

2014/07/20 16:44
152
斯坦福NLP笔记45 —— Sequence Models for Named Entity Rec

Manning教授的英语很不容易听懂,果然是澳大利亚人,幸亏有字幕。 这一节讲的是分类器的训练,我们要做的第一步,自然是标记训练数据,把一句话中的实体标记出来。在标记的时候有两种标记方法...

2014/07/19 16:36
184
斯坦福NLP笔记44 —— Evaluation of Named Entity Recogniti

这一节基本是讲的这样一个问题: 譬如有这样一句话:邓紫棋这人,真庸俗。 然后你的NER系统在进行命名实体识别的时候把“邓紫”认成了一个实体,而把“棋”漏掉了,当然这样讲得通,从人名的...

2014/07/19 11:55
80
斯坦福NLP笔记43 —— Introduction to Information Extracti

信息萃取的目的 信息结构化,更好地呈现给用户 便于后续算法处理等 信息萃取的应用 常常用于萃取事实性的信息,譬如谁在什么地方干了什么,应用举例: 从商业报告中获取利润、收益等信息 从医...

2014/07/19 11:24
47
斯坦福NLP笔记47 —— What is Relation Extraction?

关系抽取的概念 假如有这样一个raw text:小明今年26岁,出生于日本北海道,身高180cm,相貌颇似金城武,外企高级白领,年净收入100万,爱好打篮球,但是喜欢男的。 关系抽取结果如下: 小明...

2014/07/18 23:01
175
斯坦福NLP笔记9 —— Weighted Minimum Edit Distance

为什么需要计算加权的最小编辑距离 拼写检查中,某些字符更容易被误拼 生物计算机科学中,某些插入和删除更可能发生 通过上述表格可看出,元音之间被误拼的概率高,譬如a被误拼成e、u的概率很...

2014/07/18 21:46
57
斯坦福NLP笔记8 —— Backtrace for Computing Alignments

光计算出了最小编辑距离还不够,还需要知道两个序列的对应关系,即字符之间是怎么对应的(alignment),所以在进行动态规划的时候需要进行回溯标记。最终我们需要得到的是这样: 竖线就代表了...

2014/07/18 21:22
56
斯坦福NLP笔记7 —— Computing Minimum Edit Distance

动态规划求解最小编辑距离 以序列 INTENTUON(X)和序列 EXECUTION(Y)为例 初始化:X的前i个字符与Y的前面0个字符的距离,自然是i。同理,X的前0个字符与Y的前面j个字符的距离也是0 递归关...

2014/07/18 19:56
57
斯坦福NLP笔记6 —— Defining Minimum Edit Distance

编辑距离 完全是常识了,不用多说,看看视频中给出的例子: 星号×被称为一个gap,就是空。d表示delete,s表示substitute,i表示insert,于是序列 INTENTUON 和序列 EXECUTION的最小编辑...

2014/07/18 19:32
61
斯坦福NLP笔记5 —— Sentence Segmentation

不光是词与词之间需要划分开,句子和句子之间也是需要划分的,咋一想,句子划分(Sentence Segmentation)会更简单,是这样的吗?我们一起来看看。 用脚趾头都能想到,划分句子,应该用标点符...

2014/07/18 13:20
166
斯坦福NLP笔记4 —— Word Normalization and Stemming

这节主要讲一些语言学的东西,一开始是lemmatization。 lemmatization:将词形变换转(inflections)为基本形式,看个例子: am,are,is --> be car,car's,cars --> car the boy's cars are d...

2014/07/18 12:02
174
斯坦福NLP笔记3 —— Word tokenization

判断一句话中有多少个词——types和token两种不同的计数标准 例句1:I do uh main ‐ mainly business data processing uh和main ‐ mainly我们不好认为他是否是一个词,于是main被称为一个f...

2014/07/17 23:23
326
Semantic Parsing via Paraphrasing

What is Semantic Parsing ? machine is able to learn that the constructions"What does X do for a living?”, “What is X’s profession?”,and "Who is X?”, should all map to the l...

2014/07/06 16:50
28
freebase api的使用

登陆google console(新版比旧版好看) 左栏显示你的项目名和相关的管理信息,其中有一项是APIS & AUTH 点进APIS & AUTH下面的api,右栏会显示很多api的名字 找到freebase,在这里不要直接把...

2014/07/04 20:53
89
libsvm for python学习(2)

svm_parameter 也是个结构体,成员就是那一大串的参数。这个类初始化的时候主要调用的函数就是解析option。譬如我调用的时候可能会是这样一句话: param = svm_parameter('-s 3 -c 5 -...

2014/07/03 15:01
35
python中定义结构体

python中定义结构体通过继承_ctypes中的Structure类,标准写法如下: c: struct beer_recipe {     int  amt_barley;     int  amt_water; }; python: class beer_recipe(Str...

2014/07/03 11:10
389
python PIL库学习(有空再来续)

之前用PIL的时候都不知道看官方文档,网上搜索结果靠前的一些介绍性的博客其实很扯淡,讲两个函数、贴三张图,文章就完了。 今天把他的文档看了看,发现一点也不简单,网上介绍的不过是冰山一...

2014/07/02 23:53
36
为什么python字典是无序的?

python中字典是用哈希表实现的,国外有人写过python字典的前因后果:Python dictionary implementation 我自己粗略的理解: 要想建立一个映射,首先把一个key映射为一个哈希值: >>> map(h...

2014/07/02 23:20
267
每天的工作

工作主要就做四件事: 看论文学习新模型 看网上博客中的算法讲解 四处逛逛咨询博客 跟着库学习编写代码

2014/07/02 20:55
18
libsvm for python学习(1)

看别人的库是学习写代码的最佳方法。 加了序列的排版真是乱,索性不用序列了。 先看几个最基本的函数 svm_read_problem def svm_read_problem(data_file_name):   """   svm_read_problem(da...

2014/07/02 20:13
110

没有更多内容

加载失败,请刷新页面