文档章节

2017年已经过去218天,大数据杂谈80篇精选文章千万别又双叒叕错过啦

强子哥哥
 强子哥哥
发布于 2017/08/08 09:13
字数 3949
阅读 47
收藏 0

小编友情提醒,2017 年进度条已经走完 59.8%,余额不足请充值。

距离上一次写下年度总结( 2016 年大数据 80 篇爆款文章:这一年你追过的那些技术)仿佛才过去没多久,没想到一眨眼又到了新一年该做年中总结的时候了(此处响起“舌尖上的中国”背景音:又到了丰收的时节……)。2017 年已经进行到后半程,你曾经追过的那些大数据技术又有了哪些变化?去年年末对 2017 年大数据领域的预测如今又实现了多少?

在 2017 年已经过去的 218 天里,大数据杂谈一共发布了 160 篇文章,又攒下了不少优质内容。我们从中精选出了一部分,按照文章内容分主题进行了汇总,分为:机器学习、深度学习企业实践、TensorFlow、计算力、流处理、Apache 家族、用户画像和推荐系统、大数据系统和数据挖掘实践、数据库、大数据人的成长之路。

机器学习  

今年机器学习已经成为炙手可热的技术话题。深度学习与人工智能技术正在改变人们的生活,同时也给企业管理海量数据提供了一些新的思路和尝试的方向。2017 年,越来越多的企业开始尝试将机器学习引入原有的大数据平台和框架中,也有更多企业加入了构建机器学习平台的大军中。

不过短短半年,大数据杂谈已经积累了很多关于机器学习的内容,从平台架构到框架算法再到实践案例,机器学习几乎无处不在。

企业机器学习平台构建方面,百度带来了自研的 PaddlePaddle 深度学习平台,它的出发点是性能第一、兼顾灵活易用;腾讯已经将 Angel 高性能计算平台在 GitHub 上开源,并推出了专门的深度学习平台 DI-X,借助 Angel 将可以提供更强的性能支持。

百度 PaddlePaddle 深度学习平台:面向工程师,性能优先

在 Angel 开源前的这半年,我们对架构和性能做了哪些重构和升级?

腾讯云推出深度学习平台,推动 AI 技术从炫技到落地应用

大数据杂谈 7 月份在社群中组织了一次“范式主题月”,由第四范式跟大家分享了更多关于与机器学习平台搭建相关的技术和经验,总结文章上周新鲜出炉。

你不得不看的六篇好文:企业搭建机器学习平台的要点

机器学习的实施除了需要稳定、性能强劲的平台架构,还涉及到数据收集和预处理、特征工程、算法等诸多环节。这里奉上一些不同环节的优秀实践案例。

数据开发常用的几种数据预处理和数据整理方法

如何解决特征工程,克服工业界应用 AI 的巨大难关

迁移学习实战:从算法到实践

迁移学习:数据不足时如何深度学习

开源跨平台推荐算法框架 LibRec:包含 70 余例推荐算法

从模型选择到超参调整,六步教你如何为机器学习项目选择算法

这一年来,数据科学家都用哪些算法?

阿里巴巴为什么要选择星际争霸作为 AI 算法研究环境?

机器学习技术与不同的公司业务相遇会碰出怎样的火花?下面是来自多家企业在各自业务领域应用机器学习技术的经验分享,依次是京东、数库科技、Quora 和 Google。

Spark 技术在京东智能供应链预测的应用

智能问答在金融领域中的实践与应用

2017 年,机器学习在 Quora 的五大应用场景

Google Play 如何利用机器学习来个性化推荐 App

深度学习企业实践  

自 2012 年 ImageNet 大赛技惊四座后,深度学习已经成为近年来机器学习和人工智能领域中关注度最高的技术。

如今 ImageNet 已经步入第八年并结束了最后一届挑战赛。这几年深度学习在多个应用领域都取得了令人瞩目的进展,如语音识别、图像识别、自然语言处理等。鉴于深度学习的潜力,各大公司纷纷投入资源开展科研与运用。这里集合了一些公司对深度学习技术的实践案例,分别来自京东、欢聚时代、海航、Twitter 和美团点评。

京东 618:如何运用深度学习从多个维度优化数亿级别商品数据

游戏中的深度学习与人工智能

利用深度学习方法进行情感分析以及在海航舆情云平台的实践

推你想看的,Twitter 如何在信息流中大规模应用深度学习

深度学习在美团点评推荐平台排序中的运用

TensorFlow  

随着机器学习、深度学习变得炙手可热,以 TensoFlow 为代表的一系列深度学习与神经网络框架也迅猛发展。

深度学习利器: TensorFlow 系统架构及高性能程序设计

专栏 | 深入浅出 Tensorflow:深度学习及 Google 深度学习框架

今年 3 月份 Google 召开了首届 TensorFlow 开发者峰会,并在会上发布了稳定版本的 TensorFlow V1.0

首届 TensorFlow 开发者大会:那些好玩的和黑科技

为了能更好地在 Spark 集群上运行 TensorFlow,Yahoo 开源了 TensorFlowOnSpark,不管是对 TensorFlow 还是对那些苦于不同类型数据维护的公司来说都无疑是一个好消息。

Spark 上的深度学习框架再添新兵:Yahoo 开源 TensorFlowOnSpark

下面这篇文章是 TensorFlow 模型部署的一个范例。

TensorFlow 在产品环境中运行模型的实践经验总结

当然 TensorFlow 也非一枝独秀。今年四月份 Facebook 宣布开源产业级深度学习框架 Caffe2,为开发者带来跨平台机器学习工具;而轻量级分布式深度学习框架 MXNet 也在年初成为 Apache 孵化器项目。下面这篇文章集中对主流深度学习框架的特点、性能进行了分析和比较。

TensorFlow 和 Caffe、CNTK、MXNet 等其他 7 种深度学习框架的对比

计算力  

百度前首席科学家 Andrew Ng 提到,人工智能的春天已经到来,其重要因素之一是 GPU 处理能力的提升。

大数据、算法和计算能力决定了人工智能的发展。在计算领域上,主要依靠的硬件就是 GPU、CPU,以及今年刚推出的 TPU,背后是英伟达、英特尔和谷歌的角力。伴随着这些公司的股价一路上涨的趋势,也能看出并行计算的再次崛起。

专访高性能计算领军人物刘文志:并行计算的未来,是让人工智能无处不在

AlphaGo 乌镇对决是谷歌精心策划的推销?继 CPU 和 GPU 之后,TPU 又是个什么鬼?

深度学习需要较高的计算能力,所以对 GPU 的选择会极大地影响使用者体验。下面这两篇文章介绍了如何选择 GPU,为刚开始涉入 GPU 开发领域的朋友提供一些参考。

数据平台上的计算能力:哪些 GPU 更适合深度学习和数据库?

英伟达深度学习专家路川详解“如何升级 GPU 深度学习系统”

流处理  

流式数据处理担任的角色日益重要,越来越多的企业采用流式数据来支撑自己分析、预测,从而能够更快速地做出决策。大数据杂谈持续关注流处理技术并收录了一些优秀的流处理文章,包括 Spark 流、Kafka 流、Apache Flink,还有备受关注的萌新 Apache Beam。

在数据流中使用 SQL 查询:Apache Flink 中的动态表的持续查询

Spark Streaming 中流式计算的困境与解决之道

kafka 数据可靠性深度解读

在大数据处理和计算平台百花齐放的今天,Beam 旨在屏蔽不同计算框架和开发 API 的差异性,为开发者提供一个真正与引擎和环境无关的数据处理框架。经过几个月的演化和改进,Beam 已经成长为 Apache 顶级项目并发布了第一个稳定版本。如今 Google Cloud、PayPal、Talend 等公司都在使用 Beam。

Apache Beam 发布第一个稳定版本,并且有这些公司正在使用它

Apache Beam 的前世今生:谷歌已经不再使用 MapReduce 了

Apache Beam 成功孵化为 Apache 顶级项目:将统一大数据平台的开发

下面是一些企业自研流处理架构的情况,分别来自同程、携程、Uber 和唯品会的分享。

同程旅游实时计算的演进

携程实时用户数据采集与分析系统

携程实时用户行为系统实践

开源“Chaperone”:Uber 是如何对 Kafka 进行端到端审计的

实时离线融合在唯品会的进展:在实时技术、数据、业务中寻找平衡

Apache 家族  

作为大数据处理的基石,Apache 家族成员众多。除了前面提到 Spark、MXNet、Flink 和 Beam,还有大数据安全和性能开源解决方案 Apache Eagle、数据管理平台 Apache Geode、Hadoop 生态安全管理框架 Apache Ranger 和大名鼎鼎的神兽 Apache Kylin。

大数据管理平台 Apache Geode 分布式系统内部结构剖析

大数据安全和性能开源解决方案 Apache Eagle,毕业成为 Apache 顶级项目

下面是分别来自链家、美团和唯品会对 Apache Kylin 的一些应用案例。

Apache Kylin 在链家 GAIA 大数据平台中的实践

Apache Kylin 在美团点评的应用

美团 Apache Kylin 精确去重指标优化历程

Apache Kylin 在唯品会大数据的应用

用户画像和推荐系统  

这依然是一个“得用户者得天下”的时代,因此精准的用户画像和个性化推荐系统仍是众多企业运营必不可少的工具。相比往年,今年的用户画像和个性化推荐系统或多或少能看到一些机器学习的身影。另外,我们将一些用户画像的优秀实践案例集中到了电子书中:《架构师特刊:用户画像实践》。

2017 年,你还在用用户画像和协同过滤做推荐系统吗?

关于用户画像产品构建和应用的几点经验

这七家大公司的实践,告诉你用户画像到底该怎么做 | 免费下载电子书

通过京东 618 谈电商平台的推荐系统:渗透每个环节,肩负建设平台生态

一个以推荐系统为主业务的公司会涉及到哪些方面的技术?

源于生活,谈谈时间衰变在推荐场景中的应用

大数据平台和数据挖掘实践  

数据平台部分也积攒了不少内容:普元软件、明略数据、达观数据、eBay、58、阿里、美团,最后是携程带来的爬虫与反爬虫套路。

建设大数据平台,从“治理”数据谈起

从存储、实时、安全的角度谈如何建立完整可用的企业大数据平台

从分布式管理到多租户实现,企业级大数据系统如何利用开源生态构建?

每天上百万次调用的巨量访问系统缓存数据丢失?看 eBay 的三种处理方案

兼顾稳定和性能,58 大数据平台的技术演进与实践

阿里 Goldeneye 业务监控平台之架构演进,如何实时处理 100T+/ 天的日志量?

HDFS Federation 在美团点评的应用与改进

别让你的老板进监狱也别让你的用户受伤害,谈爬虫反爬虫套路

数据库  

大数据离不开数据存储,而时间序列数据渐渐在我们的世界中发挥更大的作用。软件开发人员的使用模式早已反映了这一点,在过去的 24 个月中,时间序列数据库(TSDB)已经成为增长最快的类别(数据来自 DB-Engines.com)。

我们为什么需要一个时序数据库?

应对数十亿的时序数据,这个开源项目的思路是否值得你借鉴?

百度无人车和天工物联网都使用了时序数据库,但是你有多了解时序数据库?

时序数据库如何支持秒级上亿数据的查询分组和聚合运算

以无损和有损压缩的两个例子,来看时序数据库的最佳压缩方案

技术解读:Facebook 开源内存数据库 Beringei,如何做到极致的压缩率

业界追求更优的大数据存储数据库和数据库搜索引擎的脚步从未停止。

主流开源 SQL 引擎总结,不断改进的 Hive 始终遥遥领先

比起传统单机数据库,怎样看待分布式数据库优势与前景?

一篇文章掌握 Sql-On-Hadoop 核心技术

有赞大数据实践: 敏捷型数据仓库的构建及其应用

由舜飞科技开发的 IndexR 是一个开源的大数据存储格式(下载地址 https://github.com/shunfei/indexr),旨在通过添加索引、优化编码方式、提高 IO 效率等方式提升计算曾和存储层的数据交换效率,从而提升整体性能,已于 2017 年 1 月初正式开源。

开源 IndexR: 如何对上千亿的数据进行秒级探索式分析

机器学习也被引入用于数据库调优。

亚马逊推出机器学习工具给数据库调优,DBA 要失业了?

大数据人的成长之路  

第一篇文章为大家提供了一个有关大数据领域详细的“国情咨文”,以及投资机构针对这一行业的见解和关键趋势。

火力全开:大数据领域 2017 年全景剖析

AI 时代来临,个人和企业该如何武装自己?

大数据领域里的企业和个人该如何全力靠拢人工智能?

大数据的发展,伴随的将是软件工程师的渐退,算法工程师的崛起

《图解 Spark:核心技术与案例实战》作者经验谈

老司机用十几年的职业阅历告诉你:如何成为一名优质的数据科学家

在新的一年里,选个关注热度上升的大数据工具学习下吧

感谢大家一直以来的支持和陪伴!希望接下来的时间里我们能给大家带来更多好内容,欢迎大家投稿和分享技术!另外,大数据杂谈一直在做微信群技术分享,在这里也感谢每位分享讲师带来的干货,欢迎大家加入社群!

本文转载自:xxx

共有 人打赏支持
强子哥哥

强子哥哥

粉丝 859
博文 900
码字总数 615641
作品 8
南京
架构师
亚麻的小朋友们,来参观大姐夫2300万美元的豪宅

西雅图IT圈:seattleit 【今日作者】Dexter 读书巨慢理事会会长 昨天,西雅图科技圈最大的新闻 又双叒叕被亚马逊包场了: 在昨天发布的最新一季度的财报里 亚马逊的营业额达到了史无前例的5...

m68futkmurmtj
04/28
0
0
【云周刊】第135期:云栖大会珍贵技术资料:20+覆盖容器技术、智能工业、大数据、开源数据库

本期头条 【合集】云栖大会珍贵技术资料:20+覆盖容器技术、智能工业、大数据、开源数据库等 作为“世界级•现象级”的大会,每一届“云栖大会”都会给业界留下众多宝贵的知识,为了帮助大家...

乔川
2017/08/16
0
0
NutzBoot 2.0.1 "刚好遇见你" 发布了,新增 feign

在各位的支持和关照下, NutzBoot成为GVP(码云最有价值开源项目)了,这份荣耀属于大家 ^^ 本次更新,带来了feign支持, 由haoqoo和wendal共同完成, 然后修正了几个bug 时间: 2017-12-30 事件: 2...

wendal
2017/12/30
1K
6
EDU 智能合约出现重大漏洞,可转走任意账户的 EDU Token

又双叒叕有智能合约曝出漏洞了。 据慢雾区最新消息,EDU 智能合约出现重大漏洞,可转走任意账户的 EDU Token。 目前已经发现有黑客的大量洗劫行为,攻击者不需要私钥即可转走你账户里所有的 ...

郭佳
05/24
0
0
11月24日云栖精选夜读:如何打造千万级Feed流系统?阿里数据库技术解读

yq传送门 2017-11-24 15:53:05 浏览247 评论0 大数据 安全 云栖大会 数据库 人工智能 数据流 微服务 测试 scala 运营 流计算 摘要: 2017年的双十一又一次刷新了记录,交易创建峰值32.5万笔/...

姬子玉
2017/11/27
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

InvalidKeyException: Illegal key size

Caused by: java.lang.RuntimeException: java.security.InvalidKeyException: Illegal key size 解决方案:去官方下载JCE无限制权限策略文件。 jdk 5: http://www.oracle.com/technetwork/j......

自由的开源
16分钟前
0
0
JAVA秒杀实现以及优化原理

秒杀与其他业务最大的区别在于:秒杀的瞬间, (1)系统的并发量会非常的大 (2)并发量大的同时,网络的流量也会瞬间变大。 关于(2),最常用的办法就是做页面静态化,也就是常说的前后端分...

小贱是个程序员
20分钟前
1
0
Spring Aop之Advisor解析

在上文Spring Aop之Target Source详解中,我们讲解了Spring是如何通过封装Target Source来达到对最终获取的目标bean进行封装的目的。其中我们讲解到,Spring Aop对目标bean进行代理是通过Ann...

爱宝贝丶
22分钟前
0
0
Java高级工程师面试阿里,阿里云,天猫,菜鸟,涉及到的知识点

前言: 分享 Java高级工程师面试阿里,阿里云,天猫,菜鸟,涉及到的知识点,文章有点长,但比较全面,阅读时间15分钟左右,干货满满。 一、HashMap的那些事 1.1、HashMap的实现原理 1.1.1、...

Java大蜗牛
47分钟前
2
0
nginx模块学习五 expires 浏览器缓存

缓存原理 语法 Syntax: expires [modified] time;expires epoch | max | off;Default: expires off;Context: http,server,location,if in location 例/etc/nginx/conf.d/default.con......

Romanceling
58分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部