文档章节

用深度神经网络处理NER命名实体识别问题

Airship
 Airship
发布于 2017/08/11 21:51
字数 1576
阅读 28
收藏 0

本文结构:

  1. 什么是命名实体识别(NER)
  2. 怎么识别?

cs224d Day 7: 项目2-用DNN处理NER问题
课程项目描述地址

什么是NER?

命名实体识别(NER)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,作为结构化信息提取的重要步骤。摘自BosonNLP

怎么识别?

先把解决问题的逻辑说一下,然后解释主要的代码,有兴趣的话,完整代码请去这里看
代码是在 Tensorflow 下建立只有一个隐藏层的 DNN 来处理 NER 问题。

1.问题识别:

NER 是个分类问题。

给一个单词,我们需要根据上下文判断,它属于下面四类的哪一个,如果都不属于,则类别为0,即不是实体,所以这是一个需要分成 5 类的问题:

• Person (PER)
• Organization (ORG)
• Location (LOC)
• Miscellaneous (MISC)

我们的训练数据有两列,第一列是单词,第二列是标签。

EU    ORG
rejects    O
German    MISC
Peter    PER
BRUSSELS    LOC

2.模型:

接下来我们用深度神经网络对其进行训练。

模型如下:

输入层的 x^(t) 为以 x_t 为中心的窗口大小为3的上下文语境,x_t 是 one-hot 向量,x_t 与 L 作用后就是相应的词向量,词向量的长度为 d = 50 :

我们建立一个只有一个隐藏层的神经网络,隐藏层维度是 100,y^ 就是得到的预测值,维度是 5:

用交叉熵来计算误差:

J 对各个参数进行求导:

得到如下求导公式:

在 TensorFlow 中求导是自动实现的,这里用Adam优化算法更新梯度,不断地迭代,使得loss越来越小直至收敛。

3.具体实现

def test_NER() 中,我们进行 max_epochs 次迭代,每次,用 training data 训练模型 得到一对 train_loss, train_acc,再用这个模型去预测 validation data,得到一对 val_loss, predictions,我们选择最小的 val_loss,并把相应的参数 weights 保存起来,最后我们是要用这些参数去预测 test data 的类别标签:

def test_NER():

  config = Config()
  with tf.Graph().as_default():
    model = NERModel(config)   # 最主要的类

    init = tf.initialize_all_variables()
    saver = tf.train.Saver()

    with tf.Session() as session:
      best_val_loss = float('inf')  # 最好的值时,它的 loss 它的 迭代次数 epoch
      best_val_epoch = 0

      session.run(init)
      for epoch in xrange(config.max_epochs):
        print 'Epoch {}'.format(epoch)
        start = time.time()
        ###
        train_loss, train_acc = model.run_epoch(session, model.X_train,
                                                model.y_train)   # 1.把 train 数据放进迭代里跑,得到 loss 和 accuracy
        val_loss, predictions = model.predict(session, model.X_dev, model.y_dev)   # 2.用这个model去预测 dev 数据,得到loss 和 prediction
        print 'Training loss: {}'.format(train_loss)
        print 'Training acc: {}'.format(train_acc)
        print 'Validation loss: {}'.format(val_loss)
        if val_loss < best_val_loss:            # 用 val 数据的loss去找最小的loss
          best_val_loss = val_loss
          best_val_epoch = epoch
          if not os.path.exists("./weights"):
            os.makedirs("./weights")

          saver.save(session, './weights/ner.weights')   # 把最小的 loss 对应的 weights 保存起来
        if epoch - best_val_epoch > config.early_stopping:
          break
        ###
        confusion = calculate_confusion(config, predictions, model.y_dev)  # 3.把 dev 的lable数据放进去,计算prediction的confusion
        print_confusion(confusion, model.num_to_tag)
        print 'Total time: {}'.format(time.time() - start)

      saver.restore(session, './weights/ner.weights')    # 再次加载保存过的 weights,用 test 数据做预测,得到预测结果
      print 'Test'
      print '=-=-='
      print 'Writing predictions to q2_test.predicted'
      _, predictions = model.predict(session, model.X_test, model.y_test)
      save_predictions(predictions, "q2_test.predicted")    # 把预测结果保存起来

if __name__ == "__main__":
  test_NER()

4.模型是怎么训练的呢?

  • 首先导入数据 training,validation,test:
# Load the training set
docs = du.load_dataset('data/ner/train')

# Load the dev set (for tuning hyperparameters)
docs = du.load_dataset('data/ner/dev')

# Load the test set (dummy labels only)
docs = du.load_dataset('data/ner/test.masked')
  • 把单词转化成 one-hot 向量后,再转化成词向量:
  def add_embedding(self):
    # The embedding lookup is currently only implemented for the CPU
    with tf.device('/cpu:0'):

      embedding = tf.get_variable('Embedding', [len(self.wv), self.config.embed_size])    # assignment 中的 L    
      window = tf.nn.embedding_lookup(embedding, self.input_placeholder)                # 在 L 中直接把window大小的context的word vector搞定
      window = tf.reshape(
        window, [-1, self.config.window_size * self.config.embed_size])

      return window
  • 建立神经层,包括用 xavier 去初始化第一层, L2 正则化和用 dropout 来减小过拟合的处理:
  def add_model(self, window):

    with tf.variable_scope('Layer1', initializer=xavier_weight_init()) as scope:        # 用initializer=xavier去初始化第一层
      W = tf.get_variable(                                                                # 第一层有 W,b1,h
          'W', [self.config.window_size * self.config.embed_size,
                self.config.hidden_size])
      b1 = tf.get_variable('b1', [self.config.hidden_size])
      h = tf.nn.tanh(tf.matmul(window, W) + b1)
      if self.config.l2:                                                                # L2 regularization for W
          tf.add_to_collection('total_loss', 0.5 * self.config.l2 * tf.nn.l2_loss(W))    # 0.5 * self.config.l2 * tf.nn.l2_loss(W)

    with tf.variable_scope('Layer2', initializer=xavier_weight_init()) as scope:
      U = tf.get_variable('U', [self.config.hidden_size, self.config.label_size])
      b2 = tf.get_variable('b2', [self.config.label_size])
      y = tf.matmul(h, U) + b2
      if self.config.l2:
          tf.add_to_collection('total_loss', 0.5 * self.config.l2 * tf.nn.l2_loss(U))
    output = tf.nn.dropout(y, self.dropout_placeholder)                                    # 返回 output,两个variable_scope都带dropout

    return output

关于 L2正则化 和 dropout 是什么, 如何减小过拟合问题的,可以看这篇博客,总结的简单明了。

  • 用 cross entropy 来计算 loss:
  def add_loss_op(self, y):

    cross_entropy = tf.reduce_mean(                                                        # 1.关键步骤:loss是用cross entropy定义的
        tf.nn.softmax_cross_entropy_with_logits(y, self.labels_placeholder))                # y是模型预测值,计算cross entropy
    tf.add_to_collection('total_loss', cross_entropy)            # Stores value in the collection with the given name.
                                                                # collections are not sets, it is possible to add a value to a collection several times.
    loss = tf.add_n(tf.get_collection('total_loss'))            # Adds all input tensors element-wise. inputs: A list of Tensor with same shape and type

    return loss
  • 接着用 Adam Optimizer 把loss最小化:
  def add_training_op(self, loss):

    optimizer = tf.train.AdamOptimizer(self.config.lr)
    global_step = tf.Variable(0, name='global_step', trainable=False)
    train_op = optimizer.minimize(loss, global_step=global_step)    # 2.关键步骤:用 AdamOptimizer 使 loss 达到最小,所以更关键的是 loss

    return train_op

每一次训练后,得到了最小化 loss 相应的 weights。

这样,NER 这个分类问题就搞定了,当然为了提高精度等其他问题,还是需要查阅文献来学习的。下一次先实现个 RNN。

[cs224d]

Day 1. 深度学习与自然语言处理 主要概念一览
Day 2. TensorFlow 入门
Day 3. word2vec 模型思想和代码实现
Day 4. 怎样做情感分析
Day 5. CS224d-Day 5: RNN快速入门
Day 6. 一文学会用 Tensorflow 搭建神经网络
Day 7. 用深度神经网络处理NER命名实体识别问题
Day 8. 用 RNN 训练语言模型生成文本
Day 9. RNN与机器翻译
Day 10. 用 Recursive Neural Networks 得到分析树
Day 11. RNN的高级应用

我是 不会停的蜗牛 Alice
85后全职主妇
喜欢人工智能,行动派
创造力,思考力,学习力提升修炼进行中
欢迎您的喜欢,关注和评论!



作者:不会停的蜗牛
链接:http://www.jianshu.com/p/581832f2c458
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

本文转载自:http://www.jianshu.com/p/581832f2c458

共有 人打赏支持
Airship
粉丝 39
博文 907
码字总数 19854
作品 0
南京
高级程序员
私信 提问
基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54

最近,研究者们在基于神经网络方法上进行实体识别和关系抽取联合学习,我阅读了一些相关工作,在此和大家一起分享学习(本文中引用了一些论文作者 Suncong Zheng 的 PPT 报告)。 引言 本文关...

技术小能手
2017/12/04
0
0
机器学习 人工智能 博文链接汇总

115 [入门问题] [TensorFlow] [深度学习] [好玩儿的算法应用实例] [聊天机器人] [神经网络] [机器学习] [机器学习算法应用实例] [自然语言处理] [数据科学] [Python] [Java] [机器学习--初...

aliceyangxi1987
2017/05/13
0
0
不谈技术细节,自然语言处理能做些什么

深度神经网络的爆发使得机器学习受到了广泛的关注, 而NLP(自然语言处理)又是其中最受关注的部分。ThoughtWorks正在尝试NLP技术的商业化落地,例如对话机器人、针对特定领域的机器翻译等。基...

ThoughtWorks中国
11/07
0
0
ACL 2018 | 利用Lattice LSTM的最优中文命名实体识别方法

  选自arXiv   作者:Yue Zhang、Jie Yang   机器之心编译   参与:路、王淑婷      近日,来自新加坡科技设计大学的研究者在 arXiv 上发布了一篇论文,介绍了一种新型中文命名实...

机器之心
06/30
0
0
命名实体识别从数据集到算法实现

命名实体识别(Named Entity Recognition, NER)是 NLP 的基础任务,指从文本中识别出命名性指称项,为关系抽取等任务做铺垫。狭义上,是识别出人名、地名和组织机构名这三类命名实体(时间、...

技术小能手
06/29
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Fragment 退出动画导致fragment退出失败问题(罕见问题)

问题背景: Fragment: A , B; A is hidden; B is added; 操作: 返回键的时候执行操作: B transaction remove ; A transaction attach; 执行移除动画。transaction.setCustomAnimations(i......

Carlyle_Lee
9分钟前
0
0
Java并发编程学习四:CountDownLatch,CyclicBarrier,Semaphore以及原子类

上篇文章线程同步的关键字以及理解中介绍了一下多线程同步协作之间经常使用的关键字,今天这篇文章就介绍一下一些同步类以及原子类的使用吧。Java中提供了不少的同步类,如:CountDownLatch,...

JerryLin123
15分钟前
0
0
面试专题-框架

Spring Spring有哪些特点? 使用Spring有什么好处? 1 应用解耦 2 依赖注入 3 AOP 4 事务管理 5 MVC 6 集成开发 Spring应用程序看起来像什么? 一些接口及其实现 一些POJO类 一些xml配置文件 ...

这很耳东先生
27分钟前
1
0
锁和分布式锁

锁的由来: 多线程环境中,经常遇到多个线程访问同一个 共享资源 ,这时候作为开发者必须考虑如何维护数据一致性,这就需要某种机制来保证只有满足某个条件(获取锁成功)的线程才能访问资源...

Ala6
27分钟前
2
0
Vue + Vue-CLI + Mint-UI 移动端开发新手示例实战 - by dogstar

Vue + Vue-CLI + Mint-UI 移动端开发新手示例实战 - by dogstar 项目源代码,在码云上:https://gitee.com/dogstar/a-vue-mint-demo 快速使用 # 安装依赖npm install# 本地开发调试 lo...

暗夜在火星
40分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部