加载中
病人记录spark创建完整代码

类似于spark statCounter类的东西,处理缺失值 import org.apache.spark.util.StatCounter class NAStatCounter extends Serializable { val stats:StatCounter =new StatCounter() var mis...

2018/11/28 17:25
56
病人spark处理-元组和case class 对数据进行结构化

//39932,40902,1,?,1,?,1,1,1,1,1,TRUE /* 前两个字段是整数型ID,代表记录中匹配的两个病人; 后面9个值,代表病人记录中不同字段(姓名,生日,地址)的匹配值 最后一个字段:布尔。代表该...

2018/11/28 15:55
986
病人记录Spark处理

数据集包含百万对病人的记录: 下载记录---【http://bit.ly/1Aoywaq】-需要翻墙才可以下载 解压文件: unzip donation.zip 继续解压文件: unzip 'block_*.zip' 创建文件夹: hdfs dfs -mkdi...

2018/11/28 14:16
106
Spark真实生产环境出错

com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag. 获取正确的端口号 hdfs getconf -confKey fs.default.name java.lang....

Reduce连接(reduce-side joins)

如果没有一个 map-side join 技术适合我们的数据集,那么就需要在 MapReduce 中使用 shuffle 来排序和连接两个数据集。这称为 reduce-side joins,也叫”重分区连接”。 【例】基本的重分区连...

2018/11/04 14:11
133
远程连接Hive配置

1、运行HiveServer2和Beeline HiveServer2(在Hive 0.11中引入)有它自己的CLI,叫做Beeline. HiveCLI现在不提倡使用,而是支持Beeline,因为HiveCLI缺乏对多用户、安全以及其它HiveServer2能力...

2018/11/04 12:44
1.9K
Spark简单原理

Application:我们自己的 Spark 程序。 TaskRunner:将我们编写的代码,也就是要执行的算子以及函数拷贝,反序列化,然后执行 task。 Task:task 有两种 ShuffleMapTask 和 ResultTask,只有最后...

2018/11/01 23:48
77
连接预排序和预分区过的数据

Map-side joins 是最有效的技术,前面的两种 map-side 策略都要求其中有一个数据集可被加载到内存。但是,如果两个数据集都很大且无法”瘦身”而无法做到这一点时,该怎么办?在这种情况下,如...

2018/11/01 18:57
78
半连接(Semi-join)

假设一个场景,需要连接两个很大的数据集,例如,用户日志和 OLTP 的用户数据。任何一个数据集都不是足够小到可以缓存在 map 作业的内存中。可以思考以下问题:如果在数据集的连接操作中,一个...

2018/11/01 18:52
652
hadoop_mr_表连接

连接(Join)是关系运算,可以用于合并关系(relation)。对于数据库中的表连接操作,可能已经广为人知了。在 MapReduce 中,连接可以用于合并两个或多个数据集。例如,用户基本信息和用户活动详...

2018/11/01 18:36
256
HDFS的基本使用

HDFS——shell: 1,ls hadoop fs -ls / 列出 hdfs 文件系统根目录下的目录和文件 hadoop fs -ls -R / 列出 hdfs 文件系统所有的目录和文件 2.put hadoop fs -put < local file > < hdfs fil...

2018/11/01 18:31
152
Yarn与Mr

yarn应用: 分布式计算框架(Mapreduce、spark等)作为yarn应用运行在集群计算层(yarn)和存储层(hdfs和hbase上)。 Yarn的运行机制: (1) 客户端练习资源管理器,请求他运行一个applica...

2018/11/01 18:26
963
DataNode与Namenode的互动

DataNode与NameNode之间基本的通信就是rpc (1)登记,dataNode一经启动就应该主动与namenode 建立rpc连接,并向其登记,让Namenode知道有这么一个DataNode已经在位了。 (2)向NameNode发送...

2018/11/01 18:19
132
客户端读写hdfs数据

读: (1)客户端通过调用FIleSystem对象的open()方法来打开希望读取的文件,对于hdfs来说,这个对象是分布式文件系统的一个实例。 (2)DistributedFileSystem通过使用rpc来调用namenode,以...

2018/11/01 18:14
90
fsimage 和 editlog 的解释和原理

fsimage保存来最新的元数据检查点,包含来整个hdfs文件系统的所有目录和文件的信息。对于文件来说包括了数据块描述信息,修改时间,访问时间等,对于目录老说包括修改时间,访问权限控制信息...

2018/11/01 18:08
9.8K
hadoop_NameNode的介绍

NameNode的作用: 管理着文件系统的命名空间。它维护着文件系统数以及文件树中所有的文件和目录。这些信息以两个文件形式永久保存在本地磁盘中(这两个文件也会被持久化存储在本地硬盘),分...

2018/11/01 18:02
94
hadoop_namenode如果选择在哪个datanode存储副本

需要从可靠性,写入带宽,读取带宽进行权衡。 第一个block副本放在运行client所在的节点上(如果client不在集群范围内,则第一个node是随机选取的) 第二个block副本放置在与第一个节点不同的...

2018/11/01 17:57
749
hadoop任务map将其输入写入本地硬盘,而非hdfs,为什么

因为map的输出是中间的结果,这个中间结果是由reduce处理后才产生最终输出结果,而且一旦作业完成,map的输出结果就可以删除。如果把它存储在hdfs中就并备份,难免有些小题大作,如果运行map...

2018/11/01 17:49
698
hadoop为什么最佳分片的大小与快的大小相同

因为他是确保可以存储在单个节点上的最大输入快的大小,如果分片跨越两个数据块,对于任何一个hdfs节点,基本上不可能同时存储这两个数据块,因此分片中的部分数据需要通过网络传输到map任务...

2018/11/01 17:29
59
hadoop_数据本地化优势

hadoop在存储有输入数据(hdfs中的数据)的节点上运行map任务,可以获得最佳性能,因为他无需使用最宝贵的集群宽带资源。 数据本地化是hadoop数据处理的核心,优势,可以获得最佳性能。 什么...

2018/10/30 16:12
101

没有更多内容

加载失败,请刷新页面

返回顶部
顶部