加载中
004.面试技巧:人生最难的抉择

人生充满了很多 interesting 事情: 你要知道技术能力要求深、要求全、还要求能现成写代码。 你得和leader 谈工作规划 和 人生规划。 你得和 HR谈论薪资。 其实,我觉得最有意思的是 第1点。...

2016/05/10 16:35
193
003.hive数据仓库-职业方向的定位

有时候:真的别慌张盲目的入职,就像恋爱一下、思考自己适合什么。 今天去美团的一次面试 说说收获: (不管别人画的是否正确,表示很感谢) 1.有了一个稍微清晰一点的方向吧 2.认清了自己从事...

2016/05/09 22:48
280
006.面试:HIVE 2个大表join的倾斜问题

1.hive 2个大文件倾斜join如何解决? 设置maxSize和preRedecer的大小,能保证数据的均匀分配。  注意: 设置Reduce和perReducer就行,性能还不错 MAP阶段优化 •mapred.map.tasks 无效 •n...

2016/05/09 00:38
6.4K
006.hive的join操作

今天被别人问道,我奔溃了,卧槽! 没仔细研究过这个  HQL代码: SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key2) 这里有两个map/reduce任务在j...

2016/05/09 00:21
95
001.hive数据仓库介绍和应用场景

1.基本概念: 数据仓库是: 一个面向主题、集成的、时变的、非易失的数据集合;支持管理者的决策过程 2.应用场景 1.海量的数据存储 2.ETL (数据分层:将底层概念映射到更一般的较高层概念->多...

2016/05/09 00:09
832
002.hive数据仓库建模和元数据备份

1.数据建模 装逼的解释: 是指 对现实世界各类数据的抽象组合,确定数据库需管辖的范围、数据的组织形式等直至转化成现实的数据库。 通俗的说: 1.概念建模阶段: 就是对业务的梳理和理解(1....

2016/05/05 19:38
1.6K
006.hive语句优化

参考地址:http://www.cnblogs.com/end/archive/2013/01/15/2861448.html hive玩得好不好,在于你对mapreduce理解深不深叻;当然借鉴学习也很重要 倾斜分成group by造成的倾斜和join造成的倾...

2016/05/04 20:14
512
2016-05-03 字符串:包含关系的实现思路

1.面试题 str1=abvdade , 长度:n str1=ad , 长度:m syr1是否str2? 2.编码 思路很简单: 1.找首字母, k次 2.截取相对应的长度(一一比较就行) 时间复杂度:k*n+m 代码实现:自己写吧,...

2016/05/03 22:38
25
003.异常检测

1.离群点检测类型 全局离群点 对于整理的流量渠道而言,有作弊比例为:0%/100%的渠道,区分度很高,有必要拿出来观察分析一下。 情境离群点 对于双11或者618,数据波动也许会比较异常,所以...

2016/05/03 08:27
132
2016-04-29 二分查找的面试题

1.面试题 例如: ip计算后的值=53 文本内容: 1,100,北京 101,1000,上海 1001,3001,广州 ... 求ip=53对应的省份 2.代码如下: #!/usr/bin/python # coding: utf8 def ip_find(ip): ...

2016/04/29 15:02
82
101.Spark实现聚合功能(面试题)

Spark实现聚合功能的装逼技巧。

002.HashMap的底层原理

参考地址: http://blog.csdn.net/vking_wang/article/details/14166593 1. HashMap的数据结构 数据结构中有数组和链表来实现对数据的存储,但这两者基本上是两个极端。 数组 数组存储区间是连...

2016/04/28 23:17
58
001.数据结构:

时间复杂度是程序运行的时间,也可以说是次数; 空间复杂度是程序占用的空间; 1.快速排序 随机选一个数,小左发左边,大的放右边。然后进行递归  Python递归 ''' quick sort L表示每一...

2016/04/28 23:16
36
Apache Tez是什么?

又是一个装逼的框架..

2016/04/28 21:05
699
一共81个,开源大数据处理工具汇总(下),包括日志收集系统/集群管理/RPC等

作者:大数据女神-诺蓝(微信公号:dashujunvshen)。本文是36大数据专稿,转载必须标明来源36大数据。 接上一部分:一共81个,开源大数据处理工具汇总(上),第二部分主要收集整理的内容主...

2016-04-28 小米的面试

总结时间:2016-04-28 总结人: 江中炼 公司: 小米 整体印象 从整体感觉哈,的确是一个有明显互联网公司的习惯。 偏重:数据结构和编码能力。 面试过程 面试我的小伙伴,说:你至少能用3样...

2016/04/28 20:20
160
2016-04-25/6 上海的3家面试

总结时间:2016-04-27 总结人: 江中炼 公司: 上海某3家公司 hi,all: 优点: 1.今天说说上海,对于我来说,上海这边的公司看上去比深圳open一点,整体感觉就IT工作而言,相对而言比较轻松...

2016/04/27 22:40
91
003.Python垃圾回收

参考地址:python的内存管理机制 先从较浅的层面来说,Python的内存管理机制可以从三个方面来讲 (1)垃圾回收 (2)引用计数 (3)内存池机制 一、垃圾回收: python不像C++,Java等语言一样...

2016/04/26 20:33
93

没有更多内容

加载失败,请刷新页面

返回顶部
顶部