文档章节

大数据从哪里来?

o
 osc_w9s1w4o0
发布于 2019/04/08 21:57
字数 1511
阅读 11
收藏 0

精选30+云产品,助力企业轻松上云!>>>

现代商业市场是一个数据驱动的环境,可以说不论技术怎么更新换代,数据都有着不可替代的地位,而且抛开数据谈大数据就是瞎扯,没有数据作支撑的大数据平台就是一个空壳。无论是公司内部的数据还是外部的数据都可以构成我们大数据平台的来源数据,大数据平台的数据来源主要有数据库、日志、前端埋点、爬虫。

1 从数据库导入

在大数据技术风靡起来前,关系型数据库(RDMS)是主要的数据分析与处理的途径。发展至今数据库技术已经相当完善,当大数据出现的时候,行业就在考虑能否把数据库数据处理的方法应用到大数据中,于是 Hive、Spark SQL 等大数据 SQL 产品就这样诞生。

虽然出现 Hive 大数据产品,但是在生产过程中业务数据依旧使用 RDMS 进行存储,这是因为产品需要实时响应用户的操作,在毫秒级完成读写操作,而大数据产品不是应对这种情况出现的。到这里你可能就有一个疑问,如何把业务的数据库同步到大数据平台中?一般来说业务数据我们使用实时和离线采集数据来将数据抽取到数据仓库中。然后再进行后续数据处理和分析,一些常见的数据库导入工具有 Sqoop、Datax 和 Canal 等。

image

Sqoop 是 Apache 旗下一款 Hadoop 和关系型数据库之间传送离线数据的工具。实现关系型数据库(MySQL 、Postgres 等)同 Hadoop 集群的 Hdfs、Hbase、Hive 进行数据同步, 是连接传统关系型数据库和 Hadoop 的桥梁。datax 与 sqoop 类似也是进行离线数据传输,支持阿里数据库系列数据同步。

image

Canal 则是通过读取 MySql的 BinLog 日志 实时传输数据到大数据平台,实现数据的实时介入。

2 日志导入

日志系统将我们系统运行的每一个状况信息都使用文字或者日志的方式记录下来,这些信息我们可以理解为业务或是设备在虚拟世界的行为的痕迹,通过日志对业务关键指标以及设备运行状态等信息进行分析。

image

Apache Flume 是大数据日志收集常用的工具。从图中可以看出 Flume 运行的核心是 Agent,以 Agent 为最小的独立运行单位。Agent 主要由三个组件:Source,Channel、Sink。

Source: 收集数据,封装数据为事件(Event)后发送到 Channel,数据来源可以是企业服务器、文件系统、云、数据存储库等。

Channel: 通常,读取速度比写入速度快。因此,我们需要一些缓冲区来匹配读写速度差异。基本上,Channel 提供一个消息队列的功能,用于存储 Source 发送的事件,对事件进行消息排序,发送到 Sink。

Sink: 从 Channel 收集数据,将数据输送大数据存储设备,比如 HDFS、Hive、Hbase 等,Sink 也可以作为新的 Source 输入源,两个Agent 进行级联,根据需求开发各种处理结构。

image

3 前端埋点

为什么需要埋点?现在的互联网公司越来越关注转化、新增、留存,而不是简单的统计 PV、UV。这些分析数据来源通过埋点获取,前端埋点分为三种:手工埋点、可视化埋点、自动化埋点。

手工埋点:

前端需要返回数据的位置调用写好的埋点 SDK 的函数,按照规范传入参数通过 Http 方式传入后代服务器中。这种方式可以下钻并精准采集数据,但工程量巨大。

自动化埋点:

也叫无埋点,即是无需埋点,在全部位置都设置埋点,对用户所有操作进行采集,这种方式通过统一的 SDK 返回数据,再选择需要的数据进行分析,这种方式加大服务器的压力,采集许多不需要的数据,浪费资源。在实践中,可以采用对部分用户或者部分简单操作页面进行全埋点采集。

可视化埋点:

是介于手工埋点和自动化埋点之间方式,通过可视化交互设置埋点,可以理解为人为干预的自动化埋点形式。

那如何选择埋点方式?对于一个按钮,如果采用可视化埋点或者自动化埋点时,可以轻易采集用户何时点击按钮,对于需要运行获取获得的数据是无法采集,比如订单的商品详细信息等,对这种情况应该采用手动埋点处理采集。对此,埋点问题不应该通过单一的技术方案来解决,在不同场景下我们需要选择不同的埋点方案。

4 爬虫

时至至今, 爬虫的数据成为公司重要战略资源,通过获取同行的数据跟自己的数据进行支撑对比,管理者可以更好的做出决策。而且越难爬虫获取竞争对手的数据,对于公司来说是越有价值。

小结

数据采集本身不是目的,只有采集到的数据是可用、能用,且能服务于最终应用分析的数据采集才是根本。数据采集的科学性决定了这个数据分析报告是不是有使用价值。只有当数据采集具有科学性、客观、严密的逻辑性时,建立在这样的数据分析基础之上的的出来的结论才具有现实的价值和意义。

o
粉丝 0
博文 500
码字总数 0
作品 0
私信 提问
加载中
请先登录后再评论。
两个公司的大数据岗,如何选择?

一个是top1 的电商公司大数据开发工程师,主要在已有的平台上做一些开发工作,一个是创业d轮互联网金融公司,大数据平台从0开始建设。作为一个大数据从业者,选择哪一个更好,是选择开发?还...

水东流
2015/05/16
531
6
数据可视化的开源方案: Superset vs Redash vs Metabase

数据可视化的开源方案: Superset vs Redash vs Metabase (一) - 微信-大数据从业者 - 博客园 https://www.cnblogs.com/felixzh/p/9094694.html Metabase Enterprise Edition https://www.met......

rgqancy
02/13
0
0
Hadoop Spark大数据全套课程+共享单车开发项目实战

hadoop spark大数据实时计算全套课程+共享单车开发项目实战 【下载地址:https://pan.baidu.com/s/1SnaWpls0V3ZCgmhGkT7Q 】 有着三四年工作经验的你,面对如此诱惑的薪资和热度爆棚的岗位 ...

自学号
2018/07/23
0
0
大数据课程重大福利,终身学习权限参与就有机会获取

加微信zhanglindashuju 就可以观看免费观看大数据视频1,海量日志收集利器以及flume的基本介绍 2,如何透彻了解spark 3,mapreguce的编程模型和执行机构 4,kalka的介绍与应用 5,大数据分析...

山水有相逢i
2018/05/25
1
0
大数据课程重大福利,终身学习权限参与就有机会获取

加微信zhanglindashuju 就可以观看免费观看大数据视频1,海量日志收集利器以及flume的基本介绍 2,如何透彻了解spark 3,mapreguce的编程模型和执行机构 4,kalka的介绍与应用 5,大数据分析...

琳达老师
2018/05/25
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Hacker News 简讯 2020-07-10

更新时间: 2020-07-10 01:15 US Supreme Court deems half of Oklahoma a Native American Reservation - (reuters.com) 美国最高法院认为俄克拉荷马州的一半是印第安人保留地 得分:131 | 评...

FalconChen
56分钟前
16
0
OSChina 周五乱弹 —— 求求你吃了我吧,不要再玩弄食物的感情了

Osc乱弹歌单(2020)请戳(这里) 【今日歌曲】 @巴拉迪维 :张喆的单曲《陷阱 》 这首歌已经在网易找不到原唱了,不知道被哪家买了版权。#今日歌曲推荐# 《陷阱 》- 张喆 手机党少年们想听歌...

小小编辑
今天
26
1
清华陈文光教授:AI 超算基准测试的最新探索和实践。

道翰天琼认知智能平台为您揭秘新一代人工智能。 无规矩不成方圆。放在超级计算机的研发领域,没有一个大家普遍接受的算力评测指标,便难以推动超算迅猛发展。 而现在伴随着人工智能的发展,大...

jackli2020
今天
7
0
@RequestMapping, consumes 提交简单有意思的测试

getParm @GetMapping("getParm")public Result getParm(String id){ System.out.println(); return ResultFactory.success(id);} 等同于 == bodyParm @PostMapping("bodyParm......

莫库什勒
今天
25
0
63. Unique Paths II

题目: 63. Unique Paths II A robot is located at the top-left corner of a m x n grid (marked 'Start' in the diagram below). The robot can only move either down or right at any p......

JiaMing
今天
55
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部