加载中
Item协同过滤(基于Python实现)

在众多召回策略里面,基于Item与基于User(可参考:https://www.cnblogs.com/SysoCjs/p/11466424.html)在实现上非常相似。所以这里使用了跟基于User协同过滤的数据u.data。 u.data数据格式(...

2019/09/05 16:16
15
Spark实现TF-IDF——文本相似度计算

在Spark1.2之后,Spark自带实现TF-IDF接口,只要直接调用就可以,但实际上,Spark自带的词典大小设置较于古板,如果设置小了,则导致无法计算,如果设置大了,Driver端回收数据的时候,容易发...

2019/09/05 16:10
119
Spark存储原理——数据写入过程

Spark数据的写入过程的入口点位doPutIterator方法。下面是一些方法的调用关系图: 在该方法中,根据数据是否缓存到内存中处理。如果不缓存到内存中,则调用BlockManager的putIterator方法直接...

2019/09/05 15:25
28
User协同过滤(基于Python实现)

项目地址:https://github.com/ChanKamShing/UserCF_python.git 推荐系统的作业流程: 召回/match(推荐引擎)-> 物品候选集 -> 过滤 -> 排序 -> 策略(保证结果多样性) -> 推荐list 协同过...

2019/09/05 15:35
97
User协同过滤(基于Spark实现)

项目地址:https://github.com/ChanKamShing/UserCF_Spark.git 推荐系统的作业流程: 召回/match(推荐引擎)-> 物品候选集 -> 过滤 -> 排序 -> 策略(保证结果多样性) -> 推荐list 协同过滤...

2019/09/05 15:45
13
RDD转DataFrame常用的两种方式

随着Spark1.4.x的更新,Spark提供更高阶的对象DataFrame,提供了比RDD更丰富的API操作,同时也支持RDD转DataFrame(下面简称“DF”),但是要注意,不是任意类型对象组成的RDD都可以转换成D...

2019/09/05 15:05
199
SparkSQL自定义强类型聚合函数

自定义强类型聚合函数跟自定义无类型聚合函数的操作类似,相对的,实现自定义强类型聚合函数则要继承org.apache.spark.sql.expressions.Aggregator。强类型的优点在于:其内部与特定数据集紧...

2019/09/05 15:14
23
SparkSql中,关于Hive表与Parquet文件的Schema转化兼容

从表Schema处理角度对比Hive和Parquet,两者主要的区别: Hive区分大小写,Parquet不区分大小写; Hive允许所有的列为空,而Parquet不允许所有列为空; 基于上述两点区别,在进行Hive metast...

2019/09/05 15:17
18
Flink的WaterMark,及demo实例

实际生产中,由于各种原因,导致事件创建时间与处理时间不一致,收集的规定对实时推荐有较大的影响。所以一般情况时选取创建时间,然后事先创建flink的时间窗口。但是问题来了,如何保证这个...

Spark的TaskSetManager(任务管理器)的排序算法

Spark作业执行中,有一个步骤是给任务进行资源分配,实际上这些任务由一些任务管理器TaskSetManager负责管理,资源分配过程中,会先根据某种排序算法排好序,然后根据就近原则给任务进行资源...

2019/09/05 15:19
17
python如何离线装包 离线如何部署python环境

1,安装python windows: 我用的是python3.6.6.exe安装包,需要提前下载好 ubuntu: 自带的python,如果是ubuntu18.04的话,自带的应该是3.6.8 2,安装好的python如何升级pip python3.6.6的e...

pip
2019/09/05 18:59
55
pytorch利用多个GPU并行计算多gpu

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/Answer3664/article/details/98992409 参考: https://py...

2019/09/05 16:05
83
python路径拼接os.path.join()函数的用法

os.path.join()函数:连接两个或更多的路径名组件 1.如果各组件名首字母不包含’/’,则函数会自动加上          2.如果有一个组件是一个绝对路径,则在它之前的所有组件均会被舍弃...

2019/09/05 16:18
13
pytorch 多GPU训练总结(DataParallel的使用)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/weixin_40087578/article/details/87186613 这里记录用pyt...

2019/09/05 15:07
810
Spring Boot 默认支持的并发量

Spring Boot应用支持的最大并发量是多少? Spring Boot 能支持的最大并发量主要看其对Tomcat的设置,可以在配置文件中对其进行更改。当在配置文件中敲出max后提示值就是它的默认值。 我们可以...

2019/09/05 14:28
338
HashMap框架源码深入解读,面试不用愁

在Java Collections Framework的体系中中,主要有两个重要的接口,一个是List、Set和Queue所属的Collection,还有一个就是Map接口了。在上一篇文章中介绍了List接口,它适用于按数值索引访问...

2019/09/05 14:54
20
fread fwrite文本模式读写回车换行符 自动转换问题

fread 会把\r\n(0d0a)替换为\n fwrite 会把\n替换为\r\n(0d0a),\r\n会变成\r\r\n(0d0d0a) 今天在写一个日志类,用于打印服务程序的信息。 我将每一个日志信息都以单行的形式输入,所以在开头...

2019/09/05 15:42
142
linux笔试题

1. cron 后台常驻程序 (daemon) 用于: A. 负责文件在网络中的共享 B. 管理打印子系统 C. 跟踪管理系统信息和错误 D. 管理系统日常任务的调度 2. 在大多数Linux发行版本中,以下哪个属于块设...

2019/09/05 12:18
37
自动化部署脚本

使用shell脚本实现java灰度发布 脚本使用环境: 1、操作系统:centos 6.5 64位 2、代码使用gitlab进行管理 3、代码每次上线通过tag控制 4、前端使用haproxy实现负载均衡,使用haproxy socat...

2019/09/05 11:50
8
Android 自定义设置布局

效果图 1、自定义一个布局 xml布局文件: <?xml version="1.0" encoding="utf-8"?> <RelativeLayout xmlns:android="http://schemas.android.com/apk/res/android" android:layout_width...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部