Spark&AI Summit 2019

原创
2019/04/30 12:36
阅读数 38

作者 | Marc-Olivier Arsenault

来源 | Medium

编辑 | 代码医生团队


上周举办了最新一期的Spark大会以下是会议不同方面的细分。

 

重大新闻

Databricks,会议的组织者和Spark的主要贡献者宣布了几个项目:

 

Koalas

他们宣布了一个名为Koalas的新项目,这是Spark的本地“pandas”翻译。现在可以自动将Pandas代码移植到Spark的分布式世界。这将成为人们习惯于pandas环境的绝佳桥梁。许多在线课程/大学使用pandas教授数据科学。现在新数据科学家将减少损失。

 

认为这不仅对新数据科学家有用。数据科学是一个充满脚本的世界。人们使用各种框架在各种环境下创建脚本来执行各种任务。如果主要环境是Spark,那么将调整Pandas的执行环境,并且不必关心它。

 

koalas是作为一个免费的开源项目。该项目仍处于预发布版本(0.1

https://github.com/databricks/koalas

 

Delta Lake

 


DeltaDatabricks的主要组件之一(Spark的付费版本)刚刚开源。对于使用标准版Spark的人来说,这是一个非常好的消息。

 

有关该产品的所有详细信息,请访问

https://delta.io/

 

MLFlow


 

MLFlow Databricks的端到端生命周期模型管理将在5月份升级到1.0版本。

 

以下组件将添加到现有产品中:

 

  • MLFlow Workflow,允许在一个管道中打包多步骤项目

  • MLFlow Model RegisteryRegistery发布模型,版本,查看谁在使用它


对于任何生产模型的人来说,这似乎都是一个有趣的过程。

 

关于那一个的有趣故事,一位同事在2年前开展了类似的内部项目。它确实符合行业的实际需求。

 

最佳会谈

以下是我参加过的最喜欢的个人谈话清单:

 

智能连接算法在规模上对抗偏斜

作者:安德鲁克莱格,Yelp

 

这个关于如何处理大型数据集中的偏差的讨论。

安德鲁提出了一种非常简单但难以置信的有效方法来处理偏差。TLDR:他建议通过在ID的末尾添加一个随机整数,并在较小的表中创建和创建所有可能的newID,将真正频繁的数据细分为更小的块。

 

了解更多详情如下:

https://docs.google.com/presentation/d/1AC6yqKjj-hfMYZxGb6mnJ4gn6tv_KscSHG_W7y1Py3A/edit?usp=sharing

 

Apache Spark数据验证

作者:Patrick PisciuneriDoug Balog

 

他们共享了目标数据验证框架,该框架应尽快开源。该框架允许在生成后进行数据验证。


如果代码有单元测试,数据需要这样的东西。当处理数据集时,有一组假设,创建管道时它们可能是真的,但是在数据“真相”可能稍有不同之后的几个月,然后管道可能会失败数据。即使最糟糕的是,它可能会在没有意识到的情况下处理它而不会失败。这样的框架将有助于保持数据的健全性。

 

框架可在Github上获得。

https://github.com/target/data-validator

 

结论

非常喜欢这次会议,销售宣传得到了平衡。大多数技术讲座都是来自业界的纯粹的Spark谈话,没有销售意图。网络很棒。技术含量高品质。恭喜组织者。

 

他们将在其网站上发布一些演讲视频:

http://databricks.com/sparkaisummit/north-america


关于图书

《深度学习之TensorFlow:入门、原理与进阶实战》和《Python带我起飞——入门、进阶、商业实战》两本图书是代码医生团队精心编著的 AI入门与提高的精品图书。配套资源丰富:配套视频、QQ读者群、实例源码、 配套论坛:http://bbs.aianaconda.com 。更多请见:https://www.aianaconda.com


点击“阅读原文”图书配套资源

本文分享自微信公众号 - 相约机器人(xiangyuejiqiren)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部