加载中
Ambari安装与清理

大数据越来越流行,但其学习的门槛却一直阻碍着很多的分布式应用初学者或者大数据的业务应用开发者。不管安装是 Hadoop,还是Spark/YARN 等的集成,都不是几行简单的命令可以完成的,而是需要...

2017/01/11 09:28
87
akka进阶(4) - 如何挑选router,dispatcher和mailbox

架构师在使用akka构建系统中会要考虑如何挑选不同的router, dispatcher和mailbox。我的总建议是使用默认的设定,除非有确定的诊断支持另一个选择是更好的。这里有我想到的一些常见的场景。 ...

2016/10/24 17:38
137
akka进阶(3) - dispatcher和maibox

3. dispatcher Actor并不等于thread,经常会多个actor分享一个thread,或者一个actor在不同的thread中被处理。Akka中dispatcher的工作就是把匹配actor和底层的thread,并把消息最高效的发送给...

2016/10/24 17:36
218
akka进阶(2) - router

2.router 我认为在讨论mailbox和dispatcher之前,应该先设计好Router。如果把Actor看成一个工人,则Router管理的是每个工作组的每个工人是否都在正常做事,而dispatcher管理的是一个工人的左...

2016/10/24 17:35
79
akka进阶(1) - supervisor strategy

当我们设计并行系统时,常常会在这稳定性、可扩展性、实时性这几个特性上深究。 团队从半年前开始构建一个机遇akka的网络爬虫项目,现在项目已经上线运营。这段时间大家开始做一些细致的工作...

2016/10/24 17:34
518
Zeppelin初探

Zeppelin在之前的技术探索里介绍过,是一个想法来源于Jupyter的可视化的Spark/Hive/R分析编程界面。这周想着把一些原来代码中的spark迁到Zeppelin中,主要原因是: 代码中的spark修改运行麻烦...

2016/08/19 19:01
477
零数学机器学习(1) - 推荐算法

打算系统的写写机器学习,给团队的队友们看看。大家反应数学公式太多,很迷,我决定完全不用数学语言。现在有像Mahout这样的库,事实上不需要太深入理解算法的数学公式都能把产品做出来。当然...

技术探索20160808 - Hadoop相关技术栈

##Apex 新一代的数据流分析平台,号称要战胜spark stream和storm的框架。谈到关键的改变,网友说: it comes with built-in support for fault-tolerance, scalability and focus on operabi...

浅思docker和大数据

至第一次听友人谈起docker已有一年多时间,之间也会偶尔想想怎么在工作之中利用一下。每当思考起来,都感觉“完全没什么卵用”,然后不了了之。知道近日为了安装一个叫做Hue的东西,苦于系统...

Spray+Twirl搭建web应用

Spray是一个基于akka的高性能的Rest服务框架,基本设计原理遵循全无阻塞的Actor模型。Spray中有不同的库帮助工程师处理服务器、routing、json等不同问题。 通常Spray用于高并发、注重性能的R...

2016/07/29 16:16
52
HBase读写优化N条实用技巧

最近spark跑的很慢,主要时间在scan hbase上。来来回回调试了挺长时间,最后确定瓶颈在AWS EBS的磁盘I/O(跑spark时IOPS爆到1500),所以实际上也没有太多调优可以做。倒是调试过程中看了许多文...

2015关于技术和产品的反思

2015过去好一段时间,想好好总结一下自己和团队的一些感受,算是对技术的反思,也是对过去时光的留念。 ##Log first 在年末的时候,我们发现我们2年来对新浪微博API调用有大量的浪费,事实上...

Elasticsearch、Logstash和Kibana配合使用时的调优

我们在使用Kibana构建了一个20+ visulization的dashboard后,终于出现了性能了,问题可能表现为: Elasticsearch后台报Java Heap Limit爆了 Elasticsearch后台报out of memory 15分钟时长(每...

Kamon 和 Statsd, Graphite, Grafana

监控分布式应用本来就是一个困难的事情,每个线程每个任务都在随机的硬件实例上执行,茫茫多的日志,有意设计的Failure Tolerance 都使定位、debug一个问题变得不太可能。 最近为了监控akka项...

Naive的Spark优化

本文通篇抄袭以下文章,如有雷同,绝非巧合。 Apache Spark Jobs 性能调优(一) Apache Spark Jobs 性能调优(二) Spark 基础介绍 在讨论spark调优之前,先看看spark里的一些概念。 action A...

2016/07/20 14:58
24
一些关于AWS的小细节(2)

这一波主要是关于存储技术的。 ###S3 所有区域中的 Amazon S3 存储桶会为新对象的 PUTS 提供先写后读一致性,并为覆盖 PUTS 和 DELETES 提供最终一致性 如果 Amazon S3 存储桶中的日常工作负...

2016/07/20 14:56
58
一些关于AWS的小细节(1)

最近在准备AWS架构师认证的考试,翻看了很多白皮书、文档和案例,尤其是还看了不少FAQ,这里把一些大家意想不到、重要的事情拣出来。 ###EC2 spot机器不满1小时就被关了,是不会收钱的; 从E...

5分钟了解Kafka

带着“为啥要用Kafka”这样的问题,读了下面这些关于Kafka的文档,把一些Kafka特性的东西摘抄出来。假设读者对标准的队列服务有认识,了解生产者、消费者、发布者、订阅者、queue、topic这些...

2016/07/20 14:49
66
Storm 101

##本地安装 git clone git://github.com/apache/storm.git && cd storm/examples/storm-starter 下载解压maven mvn -v 报错可能是没有设置JAVA_HOME 下载解压storm ##cluster安装 Nimbus: al...

2016/07/20 14:48
72
Clojure 101

这里我们写两个小程序练习Clojure语言的基本功能。第一个是寻找N以内的质数,第二个尝试着给一些文档做单词索引。本身程序都没有太多实用意义,仅仅是练习语言。 Prime Number Find the prim...

2016/07/20 14:46
107

没有更多内容

加载失败,请刷新页面

返回顶部
顶部