摘要和理解:
- 计算机整理、分类和聚合各个新闻网站的内容,一切都是自动生成的。这里面的关键技术就是新闻的自动分类。
- 计算机本质上只能做快速计算。为了让计算机能够“算”新闻,就要求我们先把文字的新闻变成一组可计算的数字,然后再设计一个算法来算出任意两篇新闻的相似性。
- 怎样找一组数字(或一个向量)来描述一篇新闻?
统计词汇表 新闻的特征向量 ——>某篇新闻对应的TF-IDF值。(eg:0,0,0,3,0...28,0,0,3)
4.怎样衡量两个特征向量之间的相似性?
余弦定理 通过计算两个向量的夹角来判断对应的新闻主题的接近程度。