词级语言建模与字符级语言建模
词级语言建模与字符级语言建模
AllenOR灵感 发表于8个月前
词级语言建模与字符级语言建模
  • 发表于 8个月前
  • 阅读 0
  • 收藏 0
  • 点赞 0
  • 评论 0

移动开发云端新模式探索实践 >>>   

目前在自然语言理解问题中,字符级语言建模得到越来越多的关注。在这里,我简单地比较了一下字符级语言模型和词级语言模型。

词级语言建模是指把词作为文本信息的最小单位。在语义空间中,单词就好像是空间中的一个节点。在这种情况下,通过 TF 技术或者主题模型技术或者词嵌入模型来生成特征向量或字矢量,每个单词都用一个数字或者一个矢量来表示,之后就可以像循环神经网络这样的模型进行训练。目前,比较流行的方法是使用词嵌入来得到特征向量。该方法是训练一个大型的语料库,从而来得到一个 Word2Vec 模型。Word2Vec 模型包含一个词典,其中每个单词都是一个矢量化信息。

字符级语言建模就像用一个 0-1 向量来表示每一个字符,并且将这个向量送入模型进行训练,而文本中的语法和单词语义被简单地忽略掉,因为我们相信模型可以捕捉到这些语法和单词语义信息。字符级语言建模的思想来自于信号处理。

语言建模中面临的挑战是字符级语言建模,它需要大量的数据和足够多的训练次数,以便使得模型可以足够聪明从文本中提取出语法信息和单词语义信息。此外,它还需要数据扩充(通过使用同义词替换文本的部分),以避免泛化错误。

另一方面,词级语言建模的缺点是需要使用额外的 Word2Vec 分布模型,但构建这个模型需要大量的时间和精力。

如果我们使用 Tweet 的字向量来训练模型,那么字符级语言建模在短文本分析中能取得卓越的表现。

我们在使用词级语言建模时,我们会导入一个巨大的 Word2Vec 模型,并且还要分析那些未知词和拼写错误的单词。

那么,哪个模型是最好的呢?

我个人认为,字符级语言建模更像人类的智慧。假设,我们能构建一个足够聪明的模型,这个模型能理解更高级别的表示(比如,单词语义等),那么这个字符级语言建模就是非常伟大的。


来源:rnnandi

  • 打赏
  • 点赞
  • 收藏
  • 分享
共有 人打赏支持
粉丝 10
博文 2139
码字总数 82983
×
AllenOR灵感
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: