文档章节

基于用户点击行为的新闻个性推荐

满小茂
 满小茂
发布于 2017/08/20 18:00
字数 1304
阅读 131
收藏 1
点赞 1
评论 2

摘要

    本文根据论文《Personalized News Recommendation Based on Click Behavior》理论翻译总结而来。Google News在www2010上放出了《Personalized News Recommendation Based on Click Behavior》。这篇文章重点解决推荐精准性和新资讯的冷启动问题,文章想法也很朴素自然,主要是基于贝叶斯理论进行建模。他们假设用户兴趣有两个方面:个人不断变化的兴趣以及当前新闻热点。在具体建模之前,作者先基于历史数据进行了统计分析,验证了他们的假设,得到如下基本结论:用户的兴趣是随时间变化的,新闻热点也是随时间变化的(如图1所示)。还有一个比较比较有趣的结论是:不同地区同一时间的新闻热点是不一样的(如图2)

                                          图1. 不同时间段分类点击率 。(图片来自论文内容)

从上图可以看出,不同时间段,用户对sport,health,national,entertainment这几个分类的点击率是不同的,证明随着时间得变化,用户的兴趣点也在变化。

 

     图2. Spain,US,UK这三个地区不同时间段对sport分类的点击率 。(图片来自论文内容)

从上图,可以看出,三个不同的地区在不同的时间段,对Sport类的新闻的点击率是不同。

算法模型

        C = {c1,c2,...,cn}  

                新闻分类:包括“world”, “sports”,  “entertainment”等

        D(u,t)  

                ,表示用户u,时间段t,分类c 的点击分布概率。Ni表示用户u在过去的一个月t点击分类ci的点击次数。Ntotal是用户u过去对分类ci所有的点击数据。

          Then, for each user u , we computed the distribution of her clicks in every month t , D(u,t)

          D(t) 

               过去一个时间段t,该地区所有用户对各个分类的点击数分布概率。所有用户某个分类所有点击数/所有用户总的点击数,就是D(t)

         For each country, the general interests can be represented by the distribution of all the clicks made by the users from that country in a past time period t , represented as D(t) .
 

贝叶斯分布概率推荐模型

        用户兴趣预测模型。

 

Pt (category = ci | click)   用户u对分类ci的新闻的点击数占用户u总点击数的比例。(个人兴趣分布)

       = 用户u对分类ci的文章的点击数/用户u总对文章总的点击数

        英文原文:

        pt (category = ci | click) is the probability that the user’s clicks being in category ci . It can be estimated by the click distribution D(u,t) observed in time period t , as
    computed in Equation

Pt (category = ci )    近似为D(t),公众的兴趣分布。所有用户在时间段t的对分类ci的点击分布,也就是该地区所有用户在时间段t内点击分类ci的点击数占所有人总点击数的一个比例。

        =所有用户在时间段t内点击分类ci的文章点击数/所有用户总的文章点击数

    英文原文:

        pt (category = ci ) is the prior probability of an article being about category ci . This is the proportion of news articles published about that category in the time period,which correlates with the news trend in the location. As more news events happen in a given topic category, more news articles will be written in that category. Thus, we can approximate this probability with the click distribution of the general public D(t)

 Pt (click)      该用户在时间段t内的对所有发布的新闻的点击率,不论文章分类。 

            =用户u点击文章数/发布的文章总数

   英文原文:

        pt (click) is the prior probability of the user clicking on any news article, regardless of the article category.

  

结合过去的时间周期预测

       

 Nt---该用户在过去的时间段t的文章总点击数。

N t is the total number of clicks by the user in time period t;

 

预测用户当前的兴趣

 Nt---该用户在过去的时间段t的文章总点击数。

上面公式省略了p(click)的值,因为对于基于同一个用户的预测,p(click)的值是一样的,最后只需要比较点击每个分类的概率的相对大小,所以p(click)无需参与运算。

最终计算模型

        

         Nt---该用户在过去的时间段t的文章总点击数。

        G是虚拟点击数(系统设置为10),可以看作是平滑因子。当系统观察到用户很少(甚至是零)点击时,系统可以预测用户的兴趣更接近当前时间段的兴趣。当用户如果过去总的点击量非常大,那么这个G值可以忽略不计,不会对结果造成影响。

其中表示当前本地区某类新闻的热度(这类新闻该地区点击的概率),实际也是统计一下短时间内对这类新闻的用户点击数占比得到的。计算方法同Pt (category = ci )  。

       =所有用户在时间段t0内点击分类ci的文章点击数/所有用户在时间段t0总的文章点击数

 

                                    ---摘自  《Personalized News Recommendation Based on Click Behavior》

 

© 著作权归作者所有

共有 人打赏支持
满小茂
粉丝 65
博文 108
码字总数 124981
作品 0
成都
程序员
加载中

评论(2)

满小茂
满小茂

引用来自“静斯”的评论

厉害了~666
谬赞了
静斯
静斯
厉害了~666
“今日头条”怎么计算:“网络爬虫+相似矩阵”技术运作流程

今日头条这类资讯聚合平台是基于数据挖掘技术,筛选和推荐新闻:“它为用户推荐有价值的、个性化的信息,提供连接人与信息的新型服务,是国内移动互联网领域成长最快的产品服务之一”。自从2...

罗盛力 ⋅ 2016/07/30 ⋅ 0

基于内容的推荐Content-based Recommendation

简介 推荐系统通常是以web应用的形式与用户进行交互。通常,系统为用户展示一系列推荐商品,用户点击这些商品获得更详细的信息或是其他对这些商品的行为。例如,在线新闻网站以新闻头条的形式...

坐看流年 ⋅ 2013/06/17 ⋅ 0

推荐系统实践学习系列(一)好的推荐系统

主要学习内容: 1、什么是推荐系统 2、个性化推荐系统的应用 3 、推荐系统评测指标 4、 推荐系统评测 一:什么是推荐系统 场景:假如现在你要买一包花生米,你可以选择去便利店,找到货架,转...

徐代龙 ⋅ 06/05 ⋅ 0

推荐算法综述

1. 前言 随着移动互联网技术和社交网络的发展,每天都有大量包括博客,图片,视频,微博等等的信息发布到网上。我们正处于大数据的时代,传统的信息检索技术已经不能满足用户对信息发现的需求...

u013709270 ⋅ 2017/11/24 ⋅ 0

《推荐系统实践》笔记

前言 在信息过载的今天,推荐系统显得越来越重要。最近在公司开始做推荐系统的项目,也翻阅了一些资料。《推荐系统实践》(作者项亮)一书虽然出版有些年头了,但仍然是一本非常好的入门书,...

新星点灯 ⋅ 2017/04/16 ⋅ 0

系列学习——推荐算法综述

作者:章华燕 编辑:祝鑫泉 随着移动互联网技术和社交网络的发展,每天都有大量包括博客,图片,视频,微博等等的信息发布到网上。我们正处于大数据的时代,传统的信息检索技术已经不能满足用...

u013709270 ⋅ 01/01 ⋅ 0

开源中国 App 4.1.6 — 论准确的“个性化标签”的重要性

当程序猿被贴上大大的行业标签之后,在“菊外人”眼里,他们可能是...... 修电脑的 或者是不善交际的 也可能是单身狗 或是脱发九零后 因此,许多不会修电脑、毛发旺盛的话痨程序员表示hin不服...

oschina ⋅ 06/05 ⋅ 0

财经头条app的技术实现方案

整理资讯并从中提炼出有价值的信息需要六个环节:采集、分类、排序、导读、点评、推送。 在信息时代,利用人工的方式执行这些环节,无疑需要巨大的工作量。那么,有没有可能利用IT技术来完成...

BennyYue ⋅ 2015/04/13 ⋅ 0

新闻个性化推荐(备忘)

新闻个性化推荐 1)任务 针对**新闻用户,基于用户喜好,个性化推荐新闻。 2)数据 数据是JSON格式,按照Bodensee协议设计的。 3)方案 方案一:基于协同过滤的新闻推荐 方案二:基于用户行为...

王国龙_成长 ⋅ 2015/12/15 ⋅ 0

电商个性化推荐系统:协同过滤算法方案解析

算法简介 在网络资讯和电子商务信息爆炸式的增长,繁杂的信息中容易造成流失,再次背景下用户的个性化推荐系统显得尤为重要,对电子商务平台和社交信息平台产生了质的影响。 协同过滤推荐算法...

xiaomin0322 ⋅ 06/11 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Jenkins实践3 之脚本

#!/bin/sh# export PROJ_PATH=项目路径# export TOMCAT_PATH=tomcat路径killTomcat(){pid=`ps -ef | grep tomcat | grep java|awk '{print $2}'`echo "tom...

晨猫 ⋅ 今天 ⋅ 0

Spring Bean的生命周期

前言 Spring Bean 的生命周期在整个 Spring 中占有很重要的位置,掌握这些可以加深对 Spring 的理解。 首先看下生命周期图: 再谈生命周期之前有一点需要先明确: Spring 只帮我们管理单例模...

素雷 ⋅ 今天 ⋅ 0

zblog2.3版本的asp系统是否可以超越卢松松博客的流量[图]

最近访问zblog官网,发现zlbog-asp2.3版本已经进入测试阶段了,虽然正式版还没有发布,想必也不久了。那么作为aps纵横江湖十多年的今天,blog2.2版本应该已经成熟了,为什么还要发布这个2.3...

原创小博客 ⋅ 今天 ⋅ 0

聊聊spring cloud的HystrixCircuitBreakerConfiguration

序 本文主要研究一下spring cloud的HystrixCircuitBreakerConfiguration HystrixCircuitBreakerConfiguration spring-cloud-netflix-core-2.0.0.RELEASE-sources.jar!/org/springframework/......

go4it ⋅ 今天 ⋅ 0

二分查找

二分查找,也称折半查找、二分搜索,是一种在有序数组中查找某一特定元素的搜索算法。搜素过程从数组的中间元素开始,如果中间元素正好是要查找的元素,则搜素过程结束;如果某一特定元素大于...

人觉非常君 ⋅ 今天 ⋅ 0

VS中使用X64汇编

需要注意的是,在X86项目中,可以使用__asm{}来嵌入汇编代码,但是在X64项目中,再也不能使用__asm{}来编写嵌入式汇编程序了,必须使用专门的.asm汇编文件来编写相应的汇编代码,然后在其它地...

simpower ⋅ 今天 ⋅ 0

ThreadPoolExecutor

ThreadPoolExecutor public ThreadPoolExecutor(int corePoolSize, int maximumPoolSize, long keepAliveTime, ......

4rnold ⋅ 昨天 ⋅ 0

Java正无穷大、负无穷大以及NaN

问题来源:用Java代码写了一个计算公式,包含除法和对数和取反,在页面上出现了-infinity,不知道这是什么问题,网上找答案才明白意思是负的无穷大。 思考:为什么会出现这种情况呢?这是哪里...

young_chen ⋅ 昨天 ⋅ 0

前台对中文编码,后台解码

前台:encodeURI(sbzt) 后台:String param = URLDecoder.decode(sbzt,"UTF-8");

west_coast ⋅ 昨天 ⋅ 0

实验楼—MySQL基础课程-挑战3实验报告

按照文档要求创建数据库 sudo sercice mysql startwget http://labfile.oss.aliyuncs.com/courses/9/createdb2.sqlvim /home/shiyanlou/createdb2.sql#查看下数据库代码 代码创建了grade......

zhangjin7 ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部