开源之夏@Alluxio | 在大数据的世界挖呀挖呀挖

原创
05/11 00:19
阅读数 71

开源之夏是中国科学院软件研究所发起的开源软件供应链点亮计划系列暑期活动,旨在鼓励在校学生积极参与开源软件的开发维护,促进优秀开源软件社区的蓬勃发展。活动联合各大开源社区,针对重要开源软件的开发与维护提供项目,并向全球高校学生开放报名。

2022年,Alluxio首次参与了“开源之夏”项目活动,来自美国威廉玛丽学院计算机系的叶泱辰与来自国防科技大学的孙博文在Alluxio导师的指导下,顺利完成项目。对他们来说,这不仅仅是未来毕业简历上浓墨重彩的一笔,更是迈向顶尖开发者的闪亮起点。

2023年

Alluxio“升级装备”,再度来袭···

4大项目将大数据“挖出花”

4位核心研发团队导师实现“保姆式”指导👀

这个暑假,让你实现三倍价值提升

话不多说

是时候挖出请出我们的导师天团了


扫码查看/报名项目

报名地址:https://m.summer-ospp.ac.cn/org/orgdetail/4361c7df-f33b-4d01-88f4-b9610efa105f


项目一

完善和巩固Alluxio集成S3底层存储的元数据同步及数据读写测试用例


项目导师



项目描述


作为分布式云原生数据编排系统,Alluxio支持接入多种不同的UFS,不同UFS间语义和接口存在巨大差异。当前在UFS为Amazon S3的场景下,我们缺少足够的测试用例覆盖相关功能和特性。因此需要增加相关单元测试用例,完善S3作为UFS时元数据同步和数据读写访问的用例覆盖。


项目难度

基础


技术领域标签



项目产出要求


相关测试用例设计;

元数据同步的测试用例编写;

数据读写访问的测试用例编写;

所有测试用例需要稳定执行成功且能覆盖相关的测试场景;

PR提交、review和合入;

完成一份项目报告。


项目技术要求


熟练掌握Java语言;

了解和掌握对象存储系统相关概念及接口;

了解分布式系统。


项目二

Alluxio集群可观测性提升


项目导师



项目描述


Alluxio是一个分布式部署的组件,位于计算和存储的系统之间,因为这些复杂性,很难把握系统的状态,存在的风险以及问题出现时能够快速定位。因此需要通过指标的采集、汇聚和展示来完善系统的可观测性,为集群的运维和故障定位提供基础。项目内容包括设计指标采集和导出通路,编写相关代码实现,并编写相应的自动化测试。


项目难度

基础


技术领域标签



项目产出要求


完成指标采集接口的设计与实现;

根据需要对目前的指标进行调整,修复错误指标,并增加合理的新指标;

编写指标导出模块;

编写针对重点指标的单元测试和自动化集成测试;

完成一份项目报告。


项目技术要求


熟练掌握Java语言;

熟悉prometheus/grafana等系统。


项目三

基于Rust的高性能Alluxio 缓存SDK实现


项目导师



项目描述


基于Rust实现一套高性能Alluxio缓存SDK,其中包括利用SPDK库实现对SSD设备的直接访问,从而提高缓存数据的访问效率。项目内容包括设计一套通用访问接口,提供给上层应用客户端适用;开发相应SSD设备访问的读写代码;SDK模块整合与相关单元测试、功能测试开发。


项目难度

进阶


技术领域标签



项目产出要求


根据项目要求,完成通用访问接口设计;

基于SPDK库完成高性能缓存模块的开发;

SDK各模块整合与相关单元、功能测试以及性能测试;

PR提交、review和合入;

完成一份项目报告。


项目技术要求


熟悉Linux操作系统内核对硬件管理的原理;

了解和掌握Linux中多种Zero-Copy相关技术原理;

熟练掌握C/Rust语言;

对接口设计、SDK开发有一定经验或了解者优先;

对SPDK库熟悉并有相关开发经历的优先。


项目四

基于分段读写的Alluxio对象存储性能优化


项目导师



项目描述


当前Alluxio在底层对象存储的性能方面仍然存在着一些提升的空间,比如对象存储读写时的策略可以进一步优化,一些CLI命令的逻辑可以针对具体的对象存储类型进行调整。因此,本项目旨在对Alluxio对象存储的读写性能进行提升,从而拓展Alluxio在对象存储方面的应用场景。


项目难度

进阶


技术领域标签



项目产出要求


基于benchmark针对不同对象存储的读写性能测试报告;

根据项目要求,完成对象存储读写策略优化的设计;

基于分段读写的对象存储性能优化的开发;

各模块整合与相关单元、功能测试以及性能测试;

PR提交、review和合入;

完成一份项目报告。


项目技术要求


熟悉Netty、gRPC等通信框架技术原理;

了解和掌握对象存储的基本原理;

了解分布式系统常见的异常处理场景;

在JVM调优方面有一定经验或了解者优先。


项目报名

报名要求


本活动面向年满 18 周岁在校学生。

暑期即将毕业的学生,只要在申请时学生证处在有效期内,就可以提交申请。

中国籍学生参与活动需提供身份证、学生证、教育部学籍在线验证报告(学信网)或在读证明。

外籍学生参与活动需提供护照,同时提供录取通知书、学生卡、在读证明等文件用于证明学生身份。


参与方式



扫码查看/报名项目

项目报名地址


https://m.summer-ospp.ac.cn/org/orgdetail/4361c7df-f33b-4d01-88f4-b9610efa105f

项目成果仓库

github.com/Alluxio/alluxio

成功注册报名的学生可以自由挑选项目。

对于感兴趣的项目,学生可以通过邮箱与对应老师进行沟通联系并在官网提交项目申请书。

中选的学生将会在社区与导师的指导下完成项目开发任务,并将成果贡献给社区。

导师会对学生项目成果进行评估。

主办方会组成评审团,针对项目产出进行评审,并综合社区的评审意见,给出最终评审结论并发放活动奖金。


项目奖金


每个项目难度分为基础和进阶两档,对应学生结项奖金分别为税前人民币 8000 元和税前人民币 12000 元。(注:奖金数额为税前人民币金额)。

难度分级由社区根据项目情况决定。

通过结项考核的学生将获得奖金。


时间安排



欢迎与导师沟通


各位学生如果对上述项目感兴趣,欢迎添加Alluxio开源社区小助手微信,咨询项目详情或与导师及社区专家进行沟通交流。(一定要备注“开源之夏”哦!)

注:如果二维码过期,请添加Alluxio小助手(微信号:Alluxio_Tianyu),备注“开源之夏”。


关于Alluxio社区


Alluxio系统是全球首个分布式超大规模数据编排系统,孵化于加州大学伯克利分校AMP实验室。自项目开源以来,已有超过来自300多个组织机构的1200多位贡献者参与开发,包括全球最头部科技公司、最顶尖的计算机科研院所等,现已成为发展最快的开源大数据项目之一。目前,全球十大互联网公司中已有包括Facebook、Airbnb、Uber、阿里巴巴、腾讯和字节跳动在内的八家企业部署了Alluxio,还有更多大型企业在生产中运行 Alluxio。


往 期 阅 读

本文分享自微信公众号 - Alluxio(Alluxio_China)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部