一个网站的诞生06-- ORM

网站上的数据,存在数据库里。一般用Mysql,也有用sqlite,Postgre。操作数据库要会SQL语言,这个有点麻烦,常常需要查手册。此外,每家数据库在实现SQL语言的时候,常常会加料,增加一些自己...

2017/01/17 09:42
26
一个网站的诞生05--如何把网站做到估值过亿

网站的意义,在于创造对用户有价值的东西,估值是网站意义的一个衡量指标,提升估值的手段,也就等价于把网站做得更有用。 如何计算一个网站的估值?国际标准是每个活跃用户的价值是40刀左右...

2017/01/17 09:42
105
一个网站的诞生04--抓取一个餐厅的某个月的全部评论

第一个Spider是抓上海的城市id,顺带抓它的下一级行政区id。 第二个Spider是抓上海的Top一万家餐厅的Shopid。 本文是第三个Spider,根据一个餐厅的Shopid,抓取它在某个月内的全部评论。 三个...

2017/01/17 09:42
39
一个网站的诞生03--抓取评论数最多的一万家餐厅

在大众点评网上,有很多种方式对餐厅进行排序,比如 http://www.dianping.com/search/category/1/10/o10 ,是上海全市按照评论总数最多对餐厅进行排序,下面有50个分页,也就是上海历年累计评...

2017/01/17 09:42
50
一个网站的诞生02--用Scrapy抓取数据

如果想抓数据,就需要有爬虫程序,业内叫crawler或者spider。 有各种语言版本的开源爬虫,c++, Java, php,在github上搜一下,以"spider c++"为关键字,有245个开源爬虫,以"spider java"为关...

2017/01/17 09:41
18
一个网站的诞生01--缘由

大概在半年前,我觉得需要做一个网站,寻找新奇有趣的餐厅。 喜欢美食的人,在中意餐厅吃久了,总想找新餐厅换换口味,试试新菜和新的食材。 寻找新餐厅并不容易,甚至是艰难。由于众所周知的...

2017/01/17 09:41
1
动态规划和中文分词

动态规划dynamical programming,简称dp。了解它请参考《数学之美》第12章和《算法导论》第2版第15章,这里就不重复了。 《算法导论》第15章的“装配线调度”问题是非常好的dp学习算法,用数...

2017/01/17 09:40
343
python是最适合初学者的语言

这篇是写给初学者的。 IT行业,有人有电脑就可以开工。做得好很快就改变自己,也许会部分地改变世界。一般来说,距离物质世界越远,越没有硬约束,想象力和创造力就越重要。种地要靠太阳。挖...

2017/01/17 09:40
48
大数据分析--在豆瓣谁最受关注啊?

豆瓣最受关注用户2013年度不完全排行榜 数据的意义在于从中发现有趣的事情,以了解这个世界,体验一种创造性的快乐。我对豆瓣很有兴趣,它很特别,在国内外没有可类比的公司。对它的探究,要...

2017/01/17 09:39
942
一些大数据的案例

案例主要关注三个问题:数据从哪里来?数据如何存储?数据如何计算? 来自《Hadoop权威指南》的案例 1. Last.fm 1.1 背景 创建于2002年,提供网络电台和网络音乐服务的社交网络。每个月有250...

2017/01/17 09:38
45
从零开始学习Spark--第5章 SparkContext类分析

1. SparkContext类是Spark的关键类,代码在这里:./core/src/main/scala/org/apache/spark/SparkContext.scala。SparkContext是Spark的入口,负责连接Spark集群,创建RDD,累积量和广播量等。...

2017/01/17 09:38
51
从零开始学习Spark--第4章 Spark的各种运行方式

1. 启动Hadoop cd /home/brian/usr/hadoop/hadoop-1.1.2 #格式化NameNode ./bin/hadoop namenode -format #启动集群 ./bin/start-all #将README.txt文件复制到HDFS以供测试 ./bin/hadoop fs ...

2017/01/17 09:38
72
从零开始学习Spark--第3章 spark的example

1. 计算Pi值 1.1 命令行: #spark安装在/home/brian/setup/spark-new/spark-0.8.0目录 cd /home/brian/setup/spark-new/spark-0.8.0 #在本地运行计算Pi值的Spark程序,4个工作线程 ./run-ex...

2017/01/17 09:37
383
从零开始学习Spark--第2章 spark开发

1. 主要参考资料 http://spark.incubator.apache.org/docs/latest/scala-programming-guide.html http://www.eecs.berkeley.edu/Pubs/TechRpts/2011/EECS-2011-82.pdf 2. 简介 每个Spark应用...

2017/01/17 09:37
51
从零开始学习Spark--第1章 安装和测试

spark 安装 0.8 版本 操作系统Ubuntu 10.04,已经安装JDK 1.7。 1. 下载spark代码 http://spark.incubator.apache.org/downloads.html 2. spark 0.8依赖于scala 2.9.3,安装这个版本的scala...

2017/01/17 09:37
50
Hadoop的砖块们--第2章 HttpServer, Jetty, Servlet

1.HttpServer类的代码在core/org/apache/hadoop/http/HttpServer.java 2.哪里用到了HttpServer? NameNode,DataNode,JobTracker,TaskTrackr都用到了HttpServer。 3.以DataNode节点为例进行...

2017/01/17 09:24
144
Hadoop的砖块们--第1章 远程过程调用RPC

砖块盖起大厦。“Hadoop的砖块们”,就是逐一分析Hadoop技术的重要技术组成元素。Hadoop的最重要的砖块是远程过程调用RPC。对于RPC来说,《Hadoop技术内幕》一书讲的非常清晰,这里就不重复了...

2017/01/17 09:23
0
一个MapReuce作业的从开始到结束--第7章 MapReduce的执行过程

1. Job类 在新版的API中,MapReduce的执行有Job类管理。Job类的代码在mapred/org/apache/hadoop/mapreduce/Job.java 在wordCount的例子中,main函数执行一下的步骤: Job job = new Job(conf...

2017/01/17 09:23
43
一个MapReuce作业的从开始到结束--第6章Hadoop以Jar包的方式执行MapReduce任务

从bin/hadoop脚本可知,Hadoop运行Jar包执行MapReduce任务的类是org.apache.hadoop.util.RunJar,其源代码在core/org/apache/hadoop/util/RunJar.java。 执行一个Jar包,其本质就是,把Jar解...

2017/01/17 09:22
110
一个MapReuce作业的从开始到结束--第5章 把文件复制到HDFS的流程

在本章,我们以《从零开始学习Hadoop》的第一个例子WordCount为例,分析Hadoop执行MapReduce的流程和诸多细节。这个例子在该书有详细的说明,在这里不在给出,请参考该书了解细节。 1. 执行流...

2017/01/17 09:22
67

没有更多内容

加载失败,请刷新页面