加载中
NLP入门(三)词形还原(Lemmatization)

  词形还原(Lemmatization)是文本预处理中的重要部分,与词干提取(stemming)很相似。   简单说来,词形还原就是去掉单词的词缀,提取单词的主干部分,通常提取后的单词会是字典中的单...

2018/11/02 21:20
51
NLP入门(二)探究TF-IDF的原理

TF-IDF介绍   TF-IDF是NLP中一种常用的统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,通常用于提取文本的特征,即关键词。字词的重要性随着它在文件中...

2018/11/02 11:42
36
NLP入门(一)词袋模型及句子相似度

  本文作为笔者NLP入门系列文章第一篇,以后我们就要步入NLP时代。   本文将会介绍NLP中常见的词袋模型(Bag of Words)以及如何利用词袋模型来计算句子间的相似度(余弦相似度,cosine ...

NLP(十九)首次使用BERT的可视化指导

  本文(部分内容)翻译自文章A Visual Guide to Using BERT for the First Time,其作者为Jay Alammar,访问网址为:http://jalammar.github.io/a-visual-guide-to-using-bert-for-the-fi...

NLP(二十)利用BERT实现文本二分类

  在我们进行事件抽取的时候,我们需要触发词来确定是否属于某个特定的事件类型,比如我们以政治上的出访类事件为例,这类事件往往会出现“访问”这个词语,但是仅仅通过“访问”这个触发词...

8.HanLP实现--命名实体识别

笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP 8. 命名实体识别 8.1 概述 命名实体 文本中有一些描述实体的词汇。比如人名、地名、组织机构名、股票基金、医学术语等...

隐马尔可夫(HMM)/感知机/条件随机场(CRF)----词性标注

笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP 7. 词性标注 7.1 词性标注概述 什么是词性 在语言学上,词性(Par-Of-Speech, Pos )指的是单词的语法分类,也称为词类。...

美团大脑:知识图谱的建模方法及其应用

作为人工智能时代最重要的知识表示方式之一,知识图谱能够打破不同场景下的数据隔离,为搜索、推荐、问答、解释与决策等应用提供基础支撑。美团大脑围绕吃喝玩乐等多种场景,构建了生活娱乐领...

机器学习(ML)十二之编码解码器、束搜索与注意力机制

编码器—解码器(seq2seq) 在自然语言处理的很多应用中,输入和输出都可以是不定长序列。以机器翻译为例,输入可以是一段不定长的英语文本序列,输出可以是一段不定长的法语文本序列,例如 ...

从免费的物联网防火墙hihttps谈机器学习之生成对抗规则

hihttps是一款基于MQTT的免费的物联网防火墙,同时也是web应用防火墙,既支持传统的检测功能如SQL注入、XSS、恶意漏洞扫描、密码暴力破解、CC、DDOS等),又支持无监督机器学习,自主对抗,重...

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部