加载中
soft-attention

y_len: decoder序列的一个batch中样本的有效seq_len的长度 (batch, ) x_len: encoder序列的一个batch中样本的有效seq_len的长度 (batch, ) 其中x_len和y_len的长度是相同的即batch_size 返回...

01/17 11:19
23
fasttext文本分类任务

FastText在文本分类上要优于TF-IDF,主要表现在: FastText用单词的Embedding叠加获得的文档向量,将相似的句子分为一类; FastText利用层序softmax快速的进行训练。 与word2vec不同的是,w...

多分类任务模型框架

1. 读取文件并将train拆分为train 和 validation 2. 使用训练数据构造词典类 3. 将所有数据使用词典转换成索引后的数据 4. 构造torch.dataset以及torch.Dataloader 5. 训练器trainer类的构造...

2020/12/30 14:22
37
torchtext的使用方法

torchtext包含以下组件 Field :主要包含以下数据预处理的配置信息,比如指定分词方法,是否转成小写,起始字符,结束字符,补全字符以及词典等等 Dataset :继承自pytorch的Dataset,用于加载...

colab使用方法

从云盘下载文件 from google.colab import files files.download('file_name') 挂在云盘并进入Colab Notebooks/code/nlp_framework目录下 from google.colab import drive import os ......

基于MITIE的wordrep工具训练词向量

自然语言处理的前期阶段通常会使用语料库训练好词向量,提供给后续模型使用,本文介绍基于MITIE的wordrep工具训练词向量,类似于word2vec的word embedding,属于非监督训练。 要训练这个词向...

yaml

在线编辑工具: http://www.bejson.com/validators/yaml_editor/ 手册: https://yaml.org/spec/1.2/spec.html !!str 表示字符串类型 - 表示列表 > 末尾换行 | 每行都换行 & 定义变量地址 * ...

2020/09/19 10:31
0
setattr() & getattr()

修改类对象 class Student: def __init__(self, name='Josiah', age=31): self.name = name self.age = age def show_info(self): print(self.name, self.age) stu ......

2020/09/11 21:08
33
pickle & json

用于序列化的两个模块   json:用于字符串和Python数据类型间进行转换   pickle: 用于python特有的类型和python的数据类型间进行转换   json提供四个功能:dumps, dump, loads, load ...

2020/09/10 10:19
50
常用编码

ASCLL 最早只有127个字符被编码到计算机里,也就是大小写英文字母、数字和一些符号,这个编码表被称为ASCII编码,比如大写字母A的编码是65,小写字母z的编码是122。 GB2312 要处理中文显然一...

2020/09/09 14:56
26
TF-IDF

1、TF-IDF算法介绍 TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。 TF...

2020/09/07 21:06
34
基于transformers库的bert情感分析数据处理

数据类型:csv格式 ['content']: 文本评论 ['score']: 星级(1-5)5星为最好 处理方法: 将1-5星级改成三级, 1-2星为1级 'negative', 3星-2级'neutral', 4-5星为3级 'positive' 。 import...

2020/09/04 16:59
390
bert介绍

bert是transformer的encoder的部分,但又如下区别 bert base使用了12层trm结构,而transformer只有6层; bert的输入除了词嵌入以及positional-encoder以外还增加了segment encoder,用于区别...

2020/09/04 09:48
75
* && **

如果在定义函数时,*代表收集参数,**代表收集关键字参数 def myprint(*params): print(params) myprint(1, 2, 3) # (1, 2, 3) def myprint2(**params): print(params) myprint2(x=1,y=2,z....

2020/09/04 09:01
19
装饰器

装饰器的作用: 装饰器是一个通用的函数,即可能会被所有其它函数使用,为了方便被调用,通常使用装饰器进行装饰。 装饰器实际上又是一个闭包函数:函数内部定义的函数,该内部函数引用了父类...

2020/09/02 17:13
22
NNLM

neural network lanange model 是根据第i个单词的前N个单词预测第i个单词,网络结构如下: 模型的数学表达式: nn.Parameter()和nn.Embedding()产生的参数是可训练的参数。 自定义权重参数:...

2020/09/01 17:04
70
生成csv json格式文件并使用torchtext预处理数据

以翻译文件为例,一些数据集通常是翻译原句和翻译后的句子不在同一个文件中,但是一一对应的关系,可以先使用pandas生成csv或json格式的文件,然后再用torchtext处理,代码实现如下: 数据格...

2020/09/01 12:57
124
tsv csv txt json格式文件处理方法

对于tsv、csv、txt以及json类型的数据的处理方法一般可以使用torchtext中的TabularDataset进行处理; 数据的要求: tsv: 第一行fields字段名,使用tab隔开,其它行为数据,每个字段直接的数据...

2020/08/29 10:11
775
纯文本数据的预处理

纯文本 整个文本只有一行,无换行,字之间空格隔开 方法一:torchtext 任务:构造语言模型数据集,返回的单个数据类型如下,target为inputs的偏移。 inputs:[A B C D E F] target:[B C D E F...

2020/08/28 20:37
395

没有更多内容

加载失败,请刷新页面

返回顶部
顶部