文档章节

评论管家第二期

海上明月共潮生
 海上明月共潮生
发布于 2017/07/03 20:04
字数 320
阅读 1
收藏 0

package com.movie.step;

import java.io.IOException;
import java.util.Map;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import com.movie.arith.Recommend;

/**
 * combine source data
 * 
 * @author yourkkc the matrix of user to score to movies;
 * 
 * yong hu ju zheng
 */
public class UserMatrix {

    // input collect
    public static class TheMapper extends Mapper<Object, Text, Text, Text> {

        private final static Text k = new Text();
        private final static Text v = new Text();

        @Override
        protected void map(Object key, Text value, Mapper<Object, Text, Text, Text>.Context context)
                throws IOException, InterruptedException {
            FileSplit inputSplit = (FileSplit) context.getInputSplit();
            String txtName = inputSplit.getPath().getName();
            int itemId = Integer.parseInt(txtName.substring(3, txtName.length() - 4));
            String[] token = value.toString().split(",");
            if (token.length > 1) {// like userID itemID:score:time
                k.set(Integer.parseInt(token[0]) + "");
                v.set(itemId + ":" + token[1] + ":" + token[2]);
                context.write(k, v);
            }
        }

    }

    public static class TheReduce extends Reducer<Text, Text, Text, Text> {

        private final static Text v = new Text();

        @Override
        protected void reduce(Text k, Iterable<Text> values, Reducer<Text, Text, Text, Text>.Context context)
                throws IOException, InterruptedException {

            StringBuffer sBuffer = new StringBuffer();
            for (Text value : values) {
                sBuffer.append("," + value.toString());
            }
            v.set(sBuffer.toString().replaceFirst(",", ""));// userID
                                                            // itemID:score:time,itemID:score:item
            context.write(k, v);
        }

    }
    
    
    public static class TheMapper1 extends Mapper<Object, Text, Text, Text> {

        private final static Text k = new Text();
        private final static Text v = new Text();

        @Override
        protected void map(Object key, Text value, Mapper<Object, Text, Text, Text>.Context context)
                throws IOException, InterruptedException {
            FileSplit inputSplit = (FileSplit) context.getInputSplit();
            String txtName = inputSplit.getPath().getName();
            int itemId = Integer.parseInt(txtName.substring(3, txtName.length() - 4));
            String[] token = value.toString().split(",");
            if (token.length > 1) {// like userID itemID:score:time
                k.set(Integer.parseInt(token[0]) + "");
                v.set(itemId + ":" + token[1]);
                context.write(k, v);
            }
        }

    }
    

    public static class TheReduce1 extends Reducer<Text, Text, Text, Text> {


        @Override
        protected void reduce(Text k, Iterable<Text> values, Reducer<Text, Text, Text, Text>.Context context)
                throws IOException, InterruptedException {

            StringBuffer sBuffer = new StringBuffer();
            for (Text value : values) {
                context.write(k, value);
            }
        }

    }

}
 

© 著作权归作者所有

上一篇: 评论管家之MR
下一篇: 评论管家系统
海上明月共潮生
粉丝 0
博文 4
码字总数 1130
作品 0
绥化
私信 提问
可心耳语-属于网络工程师的人声电台(第二期)

第二期请点击链接噢 可心耳语-第二期 自人声电台第一期发布之后就广受同学们的好评,也很感谢各位同学的包容和理解,因为在第一次录音情况下,可以说有许多漏洞和不足之处,原以为会受到一些...

叶焕新
2017/06/01
0
0
你是儒系程序名猿,还是佛系开发大神?

“全球最受欢迎的职业”大家猜猜看最受欢迎的 Dream Job 会是啥?biubiu~前方高萌预警! 据说熊猫饲养员已成为全世界招妒 No.1 的高光靶子 这样岁月静好的工作谁不想要? 但现实中的职场却是...

p5deyt322jacs
2018/05/14
0
0
【开源项目】之仓鼠管家和OpenHamtaro

项目背景 大家好,我是多多的爸爸,多多是在李志唱了“多多你不要哭”之后来到这个世界上的小女孩。 前段时间给多多买了个语音仓鼠玩具,主要功能就是你说一句,它重复一句,里头有个电机,讲...

机智宝
2016/09/07
5.3K
9
【深圳】开源中国 OSC 源创会第 5 期

本期图文回顾链接:http://www.oschina.net/question/12_33994 深圳聚会详细地址:南山数字文化产业基地2楼IT茶馆 公交站:荔香公园 公交:42、233、368、81、78、350、373、21、369、390、2...

红薯
2011/12/10
38
0
【深圳】开源中国 OSC 源创会第 5 期

本期图文回顾链接:http://www.oschina.net/question/12_33994 深圳聚会详细地址:南山数字文化产业基地2楼IT茶馆 公交站:荔香公园 公交:42、233、368、81、78、350、373、21、369、390、2...

红薯
2011/12/10
2
0

没有更多内容

加载失败,请刷新页面

加载更多

64.监控平台介绍 安装zabbix 忘记admin密码

19.1 Linux监控平台介绍 19.2 zabbix监控介绍 19.3/19.4/19.6 安装zabbix 19.5 忘记Admin密码如何做 19.1 Linux监控平台介绍: 常见开源监控软件 ~1.cacti、nagios、zabbix、smokeping、ope...

oschina130111
昨天
64
0
当餐饮遇上大数据,嗯真香!

之前去开了一场会,主题是「餐饮领袖新零售峰会」。认真听完了餐饮前辈和新秀们的分享,觉得获益匪浅,把脑子里的核心纪要整理了一下,今天和大家做一个简单的分享,欢迎感兴趣的小伙伴一起交...

数澜科技
昨天
26
0
DNS-over-HTTPS 的下一代是 DNS ON BLOCKCHAIN

本文作者:PETER LAI ,是 Diode 的区块链工程师。在进入软件开发领域之前,他主要是在做工商管理相关工作。Peter Lai 也是一位活跃的开源贡献者。目前,他正在与 Diode 团队一起开发基于区块...

红薯
昨天
44
0
CC攻击带来的危害我们该如何防御?

随着网络的发展带给我们很多的便利,但是同时也带给我们一些网站安全问题,网络攻击就是常见的网站安全问题。其中作为站长最常见的就是CC攻击,CC攻击是网络攻击方式的一种,是一种比较常见的...

云漫网络Ruan
昨天
27
0
实验分析性专业硕士提纲撰写要点

为什么您需要研究论文的提纲? 首先当您进行研究时,您需要聚集许多信息和想法,研究论文提纲可以较好地组织你的想法, 了解您研究资料的流畅度和程度。确保你写作时不会错过任何重要资料以此...

论文辅导员
昨天
44
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部