加载中
大数据分析--在豆瓣谁最受关注啊?

豆瓣最受关注用户2013年度不完全排行榜 数据的意义在于从中发现有趣的事情,以了解这个世界,体验一种创造性的快乐。我对豆瓣很有兴趣,它很特别,在国内外没有可类比的公司。对它的探究,要...

2017/01/17 09:39
942
weka实战004:fp-growth关联规则算法

apriori算法的计算量太大,如果数据集略大一些,会比较慢,非常容易内存溢出。 我们可以算一下复杂度:假设样本数有N个,样本属性为M个,每个样本属性平均有K个nominal值。 1. 计算一项频繁集...

2017/01/17 09:47
914
weka实战003:apriori关联规则算法的实现

weka实现的apriori算法是在weka.associations包的Apriror类。 在这个类,挖掘关联规则的入口函数是public void buildAssociations(Instances instances),而instances就是数据集,检查数据,...

2017/01/17 09:46
543
从零开始学习Spark--第3章 spark的example

1. 计算Pi值 1.1 命令行: #spark安装在/home/brian/setup/spark-new/spark-0.8.0目录 cd /home/brian/setup/spark-new/spark-0.8.0 #在本地运行计算Pi值的Spark程序,4个工作线程 ./run-ex...

2017/01/17 09:37
383
动态规划和中文分词

动态规划dynamical programming,简称dp。了解它请参考《数学之美》第12章和《算法导论》第2版第15章,这里就不重复了。 《算法导论》第15章的“装配线调度”问题是非常好的dp学习算法,用数...

2017/01/17 09:40
343
weka实战002:apriori关联规则算法

关联规则算法最出名的例子就是啤酒和尿布放一起卖。 假如我们去超市买东西,付款后,会拿到一张购物清单。这个清单就是一个Transaction。对关联规则算法来说,每个产品的购买数量是无意义的,...

2017/01/17 09:46
240
从零开始学习Hadoop--第2章 第一个MapReduce程序

1.Hadoop从头说 1.1 Google是一家做搜索的公司 做搜索是技术难度很高的活。首先要存储很多的数据,要把全球的大部分网页都抓下来,可想而知存储量有多大。然后,要能快速检索网页,用户输入几...

2017/01/17 09:13
239
apache oozie安装试用

oozie是hadoop的工作流Scheduler,最新的版本到4.0.1了。试用了下,小坑还蛮多的。 1. 编译 我的主机上跑的是Hadoop 1.1.2,选的是oozie 3.3.0版本,下载源码,解压缩。 首先,要把源码里的j...

2017/01/17 09:43
216
Hadoop的砖块们--第2章 HttpServer, Jetty, Servlet

1.HttpServer类的代码在core/org/apache/hadoop/http/HttpServer.java 2.哪里用到了HttpServer? NameNode,DataNode,JobTracker,TaskTrackr都用到了HttpServer。 3.以DataNode节点为例进行...

2017/01/17 09:24
144
从零开始最短路径学习Hadoop之02----处理气象数据的第一个MapReduce程序

编写一个气象数据挖掘的MapReduce程序 1. 气象数据在哪里? NCDC 美国国家气候数据中心 获取数据的方式在www.hadoopbook.com里给出了,是这里 http://hadoopbook.com/code.html 两个示例的数...

2017/01/17 08:51
122
一个网站的诞生10--自动化部署

所谓自动部署就是说,如果用10台机器跑tornado程序提供Web服务,它们上面的代码都是一样的,这也叫生产环境。在公司写新代码,写好了,测试通过,这叫开发环境。然后执行自动部署程序,它把新...

2017/01/17 09:42
121
weka实战001:一篇博文简单了解weka

weka是java写的开源模式识别和数据挖掘软件,已经有十多年的历史了。weka的官网在http://www.cs.waikato.ac.nz/ml/weka/。 模式识别和数据挖掘有四个问题, 第一:问题是什么 第二:数据是什...

2017/01/17 09:46
116
一个MapReuce作业的从开始到结束--第6章Hadoop以Jar包的方式执行MapReduce任务

从bin/hadoop脚本可知,Hadoop运行Jar包执行MapReduce任务的类是org.apache.hadoop.util.RunJar,其源代码在core/org/apache/hadoop/util/RunJar.java。 执行一个Jar包,其本质就是,把Jar解...

2017/01/17 09:22
110
Hadoop 1.x的Shuffle源码分析之1

先参考董西成的博文 http://dongxicheng.org/mapreduce/hadoop-shuffle-phase/ Hadoop中shuffle阶段流程分析 Hadoop的一个任务执行过程,分为Map和Reduce两个阶段。而shuffle发生在Reducer阶...

2017/01/17 09:44
108
一个网站的诞生05--如何把网站做到估值过亿

网站的意义,在于创造对用户有价值的东西,估值是网站意义的一个衡量指标,提升估值的手段,也就等价于把网站做得更有用。 如何计算一个网站的估值?国际标准是每个活跃用户的价值是40刀左右...

2017/01/17 09:42
105
Hadoop 1.x的Shuffle源码分析之2

ReduceTask类的内嵌类ReduceCopier的内嵌类MapOutputCopier的函数copyOutput是Shuffle里最重要的一环,它以http的方式,从远程主机取数据:创建临时文件名,然后用http读数据,再保存到内存文...

2017/01/17 09:44
102
weka实战001:一篇博文简单了解weka

weka是java写的开源模式识别和数据挖掘软件,已经有十多年的历史了。weka的官网在http://www.cs.waikato.ac.nz/ml/weka/。 模式识别和数据挖掘有四个问题, 第一:问题是什么 第二:数据是什...

2017/01/17 09:43
90
从零开始最短路径学习Hadoop之06----构建Hadoop集群

1. 集群规范 Hadoop运行在商业硬件上。一般Hadoop使用多核CPU和多磁盘,以充分利用硬件的性能。 Hadoop的部分代码需要在Unix环境下执行,故它不适宜在非Unix平台上供生产用 2. 在初期,可以构...

2017/01/17 08:59
88
TensorFlow试用

Google发布了开源深度学习工具TensorFlow。 根据官方教程 http://tensorflow.org/tutorials/mnist/beginners/index.md 试用。 操作系统是ubuntu 14.04,64位,python 2.7,已经安装足够的pyt...

2017/01/17 09:47
85
从零开始最短路径学习Hadoop之05----MapReduce应用开发

1. MapReduce程序编写流程:写map函数和reduce函数和它们的单元测试;写驱动程序并用本地数据集进行测试;在集群上运行并测试。Hadoop提供了一些在集群上进行诊断的辅助工具,如IsolationRu...

2017/01/17 08:59
82

没有更多内容

加载失败,请刷新页面

返回顶部
顶部