分类(二):基于向量空间模型的文本分类
博客专区 > _Roger_ 的博客 > 博客详情
分类(二):基于向量空间模型的文本分类
_Roger_ 发表于2年前
分类(二):基于向量空间模型的文本分类
  • 发表于 2年前
  • 阅读 152
  • 收藏 0
  • 点赞 0
  • 评论 0

腾讯云 十分钟定制你的第一个小程序>>>   

摘要: 介绍两种基于向量空间模型的分类方法:Rocchio方法和KNN方法

    利用向量空间模型进行文本分类的思路主要基于邻近假设(contiguity hypothesis)。

邻近假设:

    同一类的文档会构成一个邻近区域,而不同类的邻近区域之间是互不重叠的。

1、Rocchio方法

    Rocchio方法时基于质心或原型将整个向量空间划分成多个区域,每个质心或原型代表一类,利用质心来定义划分边界。


2、KNN,k近邻,k nearest neighbor

    KNN通过局部信息来确定类别边界,将与测试文档最近的k篇文档所属的主类赋给该文档。

共有 人打赏支持
粉丝 26
博文 82
码字总数 39915
×
_Roger_
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: