《数学之美》—余弦定理和新闻的分类

原创
2017/08/06 14:48
阅读数 301

摘要和理解:

  1. 计算机整理、分类和聚合各个新闻网站的内容,一切都是自动生成的。这里面的关键技术就是新闻的自动分类。
  2. 计算机本质上只能做快速计算。为了让计算机能够“算”新闻,就要求我们先把文字的新闻变成一组可计算的数字,然后再设计一个算法来算出任意两篇新闻的相似性。
  3. 怎样找一组数字(或一个向量)来描述一篇新闻?

         统计词汇表  新闻的特征向量  ——>某篇新闻对应的TF-IDF值。(eg:0,0,0,3,0...28,0,0,3)

     4.怎样衡量两个特征向量之间的相似性?

        余弦定理  通过计算两个向量的夹角来判断对应的新闻主题的接近程度。

                                                        

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部