【最新】2021年自然语言处理(NLP)算法学习路线!

NLP近几年非常火,且发展特别快。像BERT、GPT-3、图神经网络、知识图谱等技术应运而生。我们正处在信息爆炸的时代、面对每天铺天盖地的网络资源和论文、很多时候们面临的问题并不是缺资源,而是找准资源并高效学习。但很多时候你会发现,花费大量的时间在零零散散的内容上,但最后发现效率极低,浪费了很多宝贵的时间。为了迎合大家学习的需求,我们这次重磅推出了《自然语言处理精英训练营》。


课程覆盖了从经典的机器学习、文本处理技术、序列模型、深度学习、预训练模型、知识图谱、图神经网络所有必要的技术,30+项目案例帮助你在实战中学习成长。5个月时间博导级大咖全程辅导答疑、帮你告别疑难困惑。


01 课程大纲

第一部分:机器学习基础篇

第1章:自然语言处理概述

  • | 什么是自然语言处理及现状和前

  • | 自然语言处理应用

  • | 自然语言处理经典任务

  • | 学习自然语言处理技术

 

第2章:数据结构与算法基础

  • | 时间复杂度、空间复杂度

  • | 斐波那契数列的时间和空间复杂度

  • | 动态规划算法

  • | 经典的DP问题

 

第3章:机器学习基础 - 逻辑回归

  • | 分类问题以及逻辑回归重要性

  • | 逻辑回归的条件概率

  • | 最大似然估计

  • | 构建逻辑回归的目标函数

  • | 优化与梯度下降法

  • | 随机梯度下降法


第4章:机器学习基础 - 模型的泛化

  • | 理解什么是过拟合

  • | 如何防止过拟合现象

  • | L1与L2正则

  • | 交叉验证

  • | L1正则与拉普拉斯分布

  • | L2正则与高斯分布

 

第二部分:文本处理篇

 

第5章:分词、词的标准化、过滤

  • | 文本分析流程

  • | 中英文的分词

  • | 最大匹配算法

  • | 基于语言模型的分词

  • | Stemming和Lemmazation

  • | 停用词的使用

  • | 拼写纠错问题

  • | 编辑距离的实现

  • | 暴力搜索法

  • | 基于后验概率的纠错


第6章:文本的表示

  • | 单词的独热编码表示

  • | 句子的独热编码表示

  • | tf-idf表示

  • | 句子相似度比较

  • | 独热编码下的单词语义相似度

  • | 从独热编码到词向量

  • | 词向量的可视化、句子向量


第7章:【项目作业】豆瓣电影评分预测

  • | 数据描述以及任务

  • | 中文分词

  • | 独热编码、tf-idf

  • | 分布式表示与Word2Vec

  • | BERT向量

  • | 句子向量

 

第8章:词向量技术

  • | 独热编码表示的优缺点

  • | 独热编码与分布式表示的比较

  • | 静态词向量与动态词向量

  • | 学习词向量 - 分布式假设

  • | SkipGram与CBOW

  • | SkipGram模型的目标

  • | 负采样(Negative Sampling)

  • | 基于矩阵分解的词向量学习

  • | 基于Glove的词向量学习

  • | 在非欧式空间中的词向量学习

 

第9章:【项目作业】智能客服问答系统

  • | 问答系统和应用场景

  • | 问答系统搭建流程

  • | 文本的向量化表示

  • | FastText

  • | 倒排表技术

  • | 问答系统中的召回、排序

 

第10章:语言模型

  • | 语言模型的必要性

  • | 马尔科夫假设

  • | Unigram语言模型

  • | Bigram、Trigram语言模型

  • | 语言模型的评估

  • | 语言模型的平滑技术


第三部分:自然语言处理与深度学习


第11章:深度学习基础

  • | 理解神经网络

  • | 各类常见的激活函数

  • | 理解多层神经网络

  • | 反向传播算法

  • | 神经网络中的过拟合

  • | 浅层模型与深层模型对比

  • | 深度学习中的层次表示

 

第12章:Pytorch的使用

  • | 环境安装

  • | Pytorch与Numpy的语法比较

  • | Pytorch中的Autograd用法

  • | Pytorch的Forward函数


第13章:RNN与LSTM

  • | 从HMM到RNN模型

  • | RNN中的梯度问题

  • | 解决梯度爆炸问题

  • | 梯度消失与LSTM

  • | LSTM到GRU

  • | 双向LSTM模型

  • | 基于LSTM的生成

  • | 练习:利用Pytorch实现RNN/LSTM

 

第14章:Seq2Seq模型与注意力机制

  • | Seq2Seq模型

  • | Greedy Decoding

  • | Beam Search

  • | 长依赖所存在的问题

  • | 注意力机制

  • | 注意力机制的不同实现

 

第15章:【项目作业】智能营销文案生成

  • | 构建Seq2Seq模型

  • | Beam Search的改造

  • | 模型调优

  • | 评估标准 Rouge

  • | Pointer-Generator Network

  • | PGN与Seq2Seq的融合

  • | 项目:智能营销文案生成

 

第16章:动态词向量与ELMo技术

  • | 基于上下文的词向量技术

  • | 图像识别中的层次表示

  • | 文本领域中的层次表示

  • | 深度BI-LSTM

  • | ELMo模型简介及缺点

  • | ELMo的训练与测试

 

第17章:自注意力机制与Transformer

  • | 基于LSTM模型的缺点

  • | Transformer结构概览

  • | 理解自注意力机制

  • | 位置信息的编码

  • | 理解Encoder与Decoder区别

  • | 理解Transformer的训练和预测

  • | Transformer的缺点

 

第18章:BERT与ALBERT

  • | 自编码器介绍

  • | Transformer Encoder

  • | Masked LM

  • | BERT模型及其不同训练方式

  • | ALBERT

 

第19章:【项目作业】基于闲聊的对话系统搭建

  • | 对话系统介绍

  • | 常见的对话系统技术

  • | 闲聊型对话系统框架

  • | 语料库的准备及数据的处理

 

第20章:GPT与XLNet

  • | Transformer Encoder回顾

  • | GPT-1,GPT-2,GPT-3

  • | ELMo的缺点

  • | 语言模型下同时考虑上下文

  • | Permutation LM

  • | 双流自注意力机制

  • | Transformer-XL

  • | XLNet总结

 

第四部分、信息抽取


第21章:命名实体识别与实体消歧

  • | 信息抽取的应用和关键技术

  • | 命名实体识别

  • | NER识别常用技术

  • | 实体消歧技术

  • | 实体消歧常用技术

  • | 实体统一技术

  • | 指代消解

 

第22章:关系抽取

  • | 关系抽取的应用

  • | 基于规则的方法

  • | 基于监督学习方法

  • | Bootstrap方法

  • | Distant Supervision方法

 

第23章:依存文法分析

  • | 从语法分析到依存文法分析

  • | 依存文法分析的应用

  • | 使用依存文法分析

  • | 基于图算法的依存文法分析

  • | 基于Transtion-based的依存文法分析

  • | 其他依存文法分析方法论

 

第24章:知识图谱

  • | 知识图谱以及重要性

  • | 知识图谱中的实体和关系

  • | 利用非结构化数据构造知识图谱

  • | 知识图谱的设计

 

第25章:【项目作业】搭建基于医疗知识图谱的问答系统

  • | 基于知识图谱的问答系统框架

  • | 医疗专业词汇的使用

  • | 获取问句的意图

  • | 问句的解释,提取关键实体

  • | 讲意图和关键信息转化为查询语句

  • | 把查询结果转化为自然语言的形式

 

第五部分:图神经网络以及其他前沿主题

 

第26章:模型的压缩

  • | 模型压缩的必要性

  • | 常见的模型压缩算法总览

  • | 基于矩阵分解的压缩技术

  • | 从BERT到ALBERT的压缩

  • | 基于贝叶斯模型的压缩技术

  • | 模型的量化

  • | 模型的蒸馏方法

 

第27章:图神经网络

  • | 卷积神经网络的回顾

  • | 图神经网络发展历程

  • | 图卷积神经网络(GCN)

  • | GAT详解


第28章:【项目作业】新闻文本摘要生成

  • | 文本摘要生成任务介绍和应用场景

  • | 基于抽取式的摘要提取技术

  • | 关键句子的提取技术

  • | 基于图神经网络的摘要生成方法

  • | 基于生成式的摘要提取技术

  • | Seq2Seq、Transformer模型的使用

  • | 文本摘要系统的评估指标

 

第29章:图神经网络与其他应用

  • | Node Classification

  • | Graph Classification

  • | Link Prediction

  • | Community Detection

  • | 推荐系统中的应用

  • | 文本分类中的应用

  • | 图神经网络的未来发展

 

第30章:贝叶斯深度学习与不确定性

  • | Uncertainty Prediction

  • | MLE, MAP, Bayesian

  • | 贝叶斯深度学习

  • | Stochastic Attention

  • | GNN与不确定性

  • | 小数据下的训练

  • | Adversial Attack


限时推出:《返学费计划》你学习我买单
仅限99人, 关于活动和课程其他的细节
添加课程顾问微信
报名、课程咨询
👇👇👇


02 课程中的部分案例

1. 基于语言模型的语法纠错
        2. 基于SkipGram的推荐系统
        3. 从零实现Word2Vec
        4. 基于神经网络的人脸识别
        5. 基于LSTM的情感分析
        6. 实现AI程序帮助写文章
        7. 基于Transformer的机器翻译
        8. 基于知识图谱的风控系统
9.  基于知识图谱的个性化教学
       10. 利用GCN实现社交推荐
       11. 基于GAT的虚假新闻检测
      (剩下10+个案例被折叠,完整请咨询...)

03 课程中的部分项目作业
        
1. 豆瓣电影评分预测
     涉及到的知识点
  • 中文分词技术

  • 独热编码、tf-idf

  • 分布式表示与Word2Vec

  • BERT向量、句子向量


2. 智能客服问答系统
     涉及到的知识点
  • 问答系统搭建流程

  • 文本的向量化表示

  • FastText

  • 倒排表

  • 问答系统中的召回、排序


3. 基于闲聊的对话系统搭建
     涉及到的知识点
  • 常见的对话系统技术

  • 闲聊型对话系统框架

  • 数据的处理技术

  • BERT的使用

  • Transformer的使用


4. 搭建基于医疗知识图谱的问答系统
     涉及到的知识点
  • 医疗专业词汇的使用

  • 获取问句的意图

  • 问句的解释、提取关键实体

  • 转化为查询语句

  • 文本摘要生成介绍

  • 关键词提取技术

  • 图神经网络的摘要生成

  • 基于生成式的摘要提取技术

  • 文本摘要质量的评估


04 课程中带读的部分论文

主题
论文名称
机器学习
XGBoost: A Scalable Tree Boosting System
机器学习
Regularization and Variable Selection via the Elastic Net
词向量 Evaluation methods for unsupervised word embeddings
词向量 Evaluation methods for unsupervised word embeddings
词向量 GloVe: Global Vectors for Word Representation
词向量 Deep Contexualized Word Representations
词向量
Attention is All You Need
词向量
BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding
词向量 XLNet: Generalized Autoregressive Pretraining for Language Understanding
词向量
KG-BERT: BERT for Knowledge Graph Completion
词向量
Language Models are Few-shot Learners
图学习 Semi-supervised Classification with Graph Convolutional Networks
图学习 Graph Attention Networks
图学习 GraphSAGE: Inductive Representation Learning on Large Graphs
图学习 Node2Vec: Scalable Feature Learning for Networks
被折叠
其他数十篇文章......




05 课程适合谁?

大学生
  • 理工科相关专业的本科/硕士/博士生,毕业后想从事NLP工作的人

  • 希望能够深入AI领域,为科研或者出国做准备

  • 希望系统性学习NLP领域的知识


在职人士
  • 目前从事IT相关的工作,今后想做跟NLP相关的项目

  • 目前从事AI相关的工作,希望与时俱进,加深对技术的理解

  • 希望能够及时掌握前沿技术



06 报名须知

1、本课程为收费教学。
2、本期仅招收剩余名额有限
3、品质保障!正式开课后7天内,无条件全额退款。
4、学习本课程需要具备一定的机器学习基础。

●●●
限时推出:《返学费计划》你学习我买单
仅限99人, 关于活动和课程其他的细节
添加课程顾问微信
报名、课程咨询
👇👇👇

本文分享自微信公众号 - 机器学习与生成对抗网络(AI_bryant8)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部