加载中
大数据环境下该如何优雅地设计数据分层

0x00 前言 最近出现了好几次同样的对话场景: 问:你是做什么的? 答:最近在搞数据仓库。 问:哦,你是传统行业的吧,我是搞大数据的。 答:…… 发个牢骚,搞大数据的也得建设数据仓库吧。...

从无到有、从小到大,今日头条大数据平台实践经历的那些坑

今日头条 (以下简称头条)成立于 2012 年,本文作者王烨在 2014 年加入,那时公司人员仅三百人。2014 年,对头条来说是很关键的阶段,当时 DAU 只有几百万的级别;到 2016 年,DAU 达到 78...

Hive中压缩设置 和 Hive文件存储格式及使用

Hive中压缩设置 和 Hive文件存储格式及使用 (一)Hive文件存储格式 上图左边为逻辑表,右边第一个为行式存储,第二个为列式存储。 行存储的特点: 查询满足条件的一整行数据的时候,列存储则需...

sublime text3 配置sublimeREPL后运行假死问题解决

在配置sublimeREPL后,偶尔会遇到运行假死的情况,程序长时间无响应。尤其是输出较大文本时。 翻了SublimeREPL的github项目,发现不少人也遇到这问题,是插件本身的一个bug,官方还没得到完美...

2018/12/07 14:24
23
大型互联网公司的大数据平台建设之路(汇总)

汇总了所有大型互联网公司的大数据平台建设经验。 美团:https://zhuanlan.zhihu.com/p/26359613 饿了么:https://blog.csdn.net/wer0735/article/details/78659145 魅族:https://blog.csdn...

2018/08/24 20:01
12
神经网络训练中的梯度消失与梯度爆炸

层数比较多的神经网络模型在训练时也是会出现一些问题的,其中就包括梯度消失问题(gradient vanishing problem)和梯度爆炸问题(gradient exploding problem)。梯度消失问题和梯度爆炸问题...

2017/09/05 20:02
86
linux下快速查找进程占用端口

记录以备忘: 对于提供的某个服务,可能需要起多个以实现负载均衡。最好是通过sudoer启动,如果没有采用全路径且所起脚本的名字没有区分的话,排查错误可能会比较困难。可通过ll /proc/PID ...

2017/08/09 15:54
18
腾讯Dreamwriter:自动化新闻发展之路

一. Dreamwriter产生:中国第一家 1. 机器人新闻的产生背景: 2. 机器人新闻的发展历程: 2001 谷歌实现个性化新闻推荐,开创了用机器选编新闻的先河 2006 美国汤姆森公司用机器人记者撰写经济...

2017/06/16 17:24
73
shell脚本中的数值累加问题

#!/bin/sh num=0 cat api.txt | while read line do         echo $line         num=`expr $num + 1` done echo $num 我的文件包含很多行,最后输出num时候仍然是0? 因为num=`...

2017/04/13 09:58
32
Redis 性能分析与优化

Redis 是一个 key-value 内存存储系统,并且支持丰富的数据结构,包括: string list hash table set(集合) zset(有序集合) 其体量很小,但却支持丰富的数据结构和相应的操作方式,是一个非常...

2017/04/12 10:27
45
mysql用户设置%后不能本地连接的问题解决

mysql> create user 'sync'@'%' identified by 'sync'; Query OK, 0 rows affected (0.00 sec) mysql> flush privileges; Query OK, 0 rows affected (0.00 sec) mys...

2017/04/10 15:26
13
hadoop集群和hive数据迁移方案

最近公司要做hadoop集群和hive数据的迁移,如何在保证原有业务稳定运行的情况下完成所有数据的迁移,也是一个不容易的过程。我总结了一下流程,给其他hadoop集群和hive数仓的管理员做参考。 ...

2017/04/07 16:51
408
MySQL6.5实现数据库之间的主从同步

具体步骤: 1、主从服务器要求: 1.1、版本一致 1.2、初始化表,并在后台启动mysql 2、修改主服务器master: #vi /etc/my.cnf [mysqld] log-bin=mysql-bin //[必须]启用二进制日志 server-id=...

2017/03/31 18:12
18
YARN的内存和CPU配置优化

Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。 YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源...

2017/03/28 14:46
96
hive join 数据倾斜 真实案例

Hive或者MR处理数据,不怕数据量大,就怕倾斜。Hive里大表join的时候,数据倾斜就是个很头疼的问题。本博主就遇到了一个真实案例,特意记录下来,有需要的同学可以参考 1.查了5个小时还没结束...

2017/03/21 10:13
28
删除hdfs中大小为0的文件

发现hive表的目录下有很多大小为0的文件,怀疑可能是数据偏移或者reduce生成过多造成的。简单的解决方法是跑hive脚本前设置mapred.reduce.tasks=1试试。 如果解决不了或者找不到原因,还是要...

2017/03/09 16:14
28
pyspark访问hive数据实战

之前我们部门在数据分析这边每天的日报都是直接使用hive脚本进行调用,随着APP用户行为和日志数据量的逐渐累积,跑每天的脚本运行需要花的时间越来越长,虽然进行了sql优化,但是上spark已经...

2017/03/09 12:05
1K
Hadoop的作业平台Zeus最完整介绍

【Zeus3简介】 Zeus3是一个完整的Hadoop的作业平台,是基于Zeus的一个二次开发项目,从Hadoop任务的调试运行到生产任务的周期调度,宙斯支持任务的整个生命周期从功能上来说,支持: Hadoop...

2017/02/23 17:51
63
hive运行报错running beyond virtual memory错误原因及解决办法

问题:在hive中运行应用,出现了running beyond virtual memory错误。提示如下: Container [pid=28920,containerID=container_1389136889967_0001_01_000121] is running beyond virtual m...

2017/02/15 15:24
228
Sqoop 密码访问mysql的3种方法

Sqoop数据库密码访问一共分为以下三种方法: 1、明码访问 sqoop list-databases \ --connect jdbc:mysql://dajiangtai/djtdb_test \ --username root \ --password 111111 通过--password参数...

2017/02/04 11:35
26

没有更多内容

加载失败,请刷新页面

返回顶部
顶部