CS224n研究热点7 迈向更好的语言模型
博客专区 > hankcs 的博客 > 博客详情
CS224n研究热点7 迈向更好的语言模型
hankcs 发表于6个月前
CS224n研究热点7 迈向更好的语言模型
  • 发表于 6个月前
  • 阅读 2
  • 收藏 0
  • 点赞 0
  • 评论 0

腾讯云 新注册用户 域名抢购1元起>>>   

摘要:  知识共享署名-非商业性使用-相同方式共享:码农场 » CS224n研究热点7 迈向更好的语言模型
本文由码农场同步,最新版本请查看原文:http://www.hankcs.com/nlp/cs224n-better-language-modeling.html
CS224n研究热点7 迈向更好的语言模型
我们已经知道一些手段来改进语言模型,比如:更好的输入:词→词根→字符更好的正则化/预处理这些手段综合起来得到了更好的语言模型更好的输入文本的多种颗粒度:更细的颗粒度相当于减小了词表,让模型更容易做对选择。试验表明的确降低了error:更好的正则化和预处理正则化就不说了。预处理指的是,随机地将句子中的一些单词替换成另外的单词(比如把一个地名替换为另一个),或者使用BiGram统计信息来生成替换。这样会得到一个更加平滑的分布,高频词将一些出场机会匀给了低频词。对错误率的降低效果如下(左边是正则化,右边是预处理)...

继续阅读码农场 » CS224n研究热点7 迈向更好的语言模型

原文链接http://www.hankcs.com/nlp/cs224n-better-language-modeling.html


感谢阅读本文,欢迎 查看原文或访问 码农场 获取更多内容

标签: CS224n
共有 人打赏支持
粉丝 28
博文 219
码字总数 53149
作品 1
评论 (0)
×
hankcs
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: