加载中
Spark RDD 常用算子

map、flatMap、mapValues和flatMapValues /** Return a new RDD by applying a function to all elements of this RDD. */ def map[U: ClassTag](f: T => U): RDD[U] = withScope { val cle...

2016/12/20 20:19
486
Spark GraphX之全局聚类系数、局部聚类系数、网络平均聚类系数

想要测量一张图的连通性,这可以通过调用GraphX原生支持的triangleCount()来实现。但是如果想要对比多张图的连通性,这时又该如何呢? Global clustering coefficient(全局聚类系数) Anot...

2017/03/10 22:13
1.9K
Spark Streaming之窗口函数和状态转换函数

流处理主要有3种应用场景:无状态操作、window操作、状态操作。 reduceByKeyAndWindow import kafka.serializer.StringDecoder import org.apache.log4j.{Level, Logger} import org.apache...

Spark 读写 HBase 的两种方式(RDD、DataFrame)

使用 saveAsHadoopDataset 写入数据 import org.apache.hadoop.hbase.{HBaseConfiguration, HTableDescriptor, TableName} import org.apache.hadoop.hbase.client.{HBaseAdmin, Put, Resul...

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部