加载中
SysOM 的可观测和智能监控实践

编者按:龙蜥社区系统运维 SIG Contributor 刘馨蔚在 2023 龙蜥操作系统大会上分享了随着云原生的发展,给运维带来了极大挑战,并提到了现有运维产品的现状和不足。为了解决这些痛点,实现“...

英特尔助力龙蜥加速 AI 应用及 LLM 性能

操作系统的发展离不开南北向软硬件生态的扩展和支持,龙蜥社区也离不开各合作伙伴的共创。在 2023 龙蜥操作系统大会全面拥抱智算时代分论坛上,英特尔 AI 软件工程师王华强从两方面分享了英特...

重新审视 CXL 时代下的分布式内存

消息传递与分布式共享内存 随着摩尔定律增长的逐渐减缓,系统规模的水平扩展已经成为提升系统性能的关键策略。然而,这种扩展依赖于分布式系统架构的支持,而分布式编程的固有复杂性给构建高...

解锁深度表格学习(Deep Tabular Learning)的关键:算术特征交互

近日,阿里云人工智能平台PAI与浙江大学吴健、应豪超老师团队合作论文《Arithmetic Feature Interaction is Necessary for Deep Tabular Learning》正式在国际人工智能顶会AAAI-2024上发表。...

eBPF动手实践系列三:基于原生libbpf库的eBPF编程改进方案

一、欲穷千里目,更上一层楼 在上一篇文章《eBPF动手实践系列二:构建基于纯C语言的eBPF项目》中,我们初步实现了脱离内核源码进行纯C语言eBPF项目的构建。libbpf库在早期和内核源码结合的比...

MuLTI:高效视频与语言理解

一、背景 1.1 多模态的发展 多模态理解模型具有广泛的应用,比如多标签分类(Classification)、视频问答(videoQA)和文本视频检索(Retrieval)等。现有的方法已经在视频和语言理解方面取得...

通义千问1.5(Qwen1.5)大语言模型在PAI-QuickStart的微调与部署实践

Qwen1.5(通义千问1.5)是阿里云最近推出的开源大型语言模型系列。作为“通义千问”1.0系列的进阶版,该模型推出了多个规模,从0.5B到72B,满足不同的计算需求。此外,该系列模型还包括了Bas...

AI加速引擎 PAI-TorchAcc:整体介绍与性能概述

1. 简介 PAI-TorchAcc(Torch Accelerator)是阿里云人工智能平台PAI开发的Pytorch上的大模型训练加速框架。 PAI-TorchAcc提供了一套基于Pytorch的简洁、易用的接口,无需进行模型转换就可以无...

阿里云PAI大模型RAG对话系统最佳实践

去年4月至9月,阿里云人工智能平台 PAI 团队与大数据基础工程技术团队合作,构建了基于知识库检索增强的大模型答疑对话机器人,并在阿里云官方答疑链路、研发小蜜、钉钉大数据技术服务助手等...

弱结构化日志 Flink SQL 怎么写?SLS SPL 来帮忙

背景 日志服务 SLS 是云原生观测与分析平台,为 Log、Metric、Trace 等数据提供大规模、低成本、实时的平台化服务,基于日志服务的便捷的数据接入能力,可以将系统日志、业务日志等接入 SLS ...

青团社:亿级灵活用工平台的云原生架构实践

青团社是国内领先的一站式灵活用工招聘服务企业,灵活用工行业的 Top1。青团社于 2013 年在杭州成立,业务已经覆盖全国,在行业深耕 10 年。我的分享将分为以下三部分: 青团社架构演进的历程...

你好,iLogtail 2.0!

01 概述 随着可观测数据采集需求的不断推陈出新,多样化的数据输入输出选项、个性化的数据处理能力组合、以及高性能的数据处理吞吐能力已经成为顶流可观测数据采集器的必备条件。然而,由于历...

需求并行开发场景,如何高效发布

1. 适用场景 微服务架构下,每个应用服务独立开发、独立发布,小步快跑,持续快速交付业务需求。多人协同开发同一个应用时,分支开发模式是一个适合的协同方案。该模式下一个需求或任务通常对...

阿里云连续两年斩获全球存储顶会FAST最佳论文

(阿里云块存储团队论文获 FAST 2024最佳论文) FAST全称为Conference on File and Storage Technologies,创办于2002年,是由美国高等计算系统协会(USENIX)和美国计算机学会操作系统专业组...

AI 绘画平台难开发,难变现?试试 Stable Diffusion API Serverless 版解决方案

Stable Diffusion 模型,已经成为 AI 行业从传统深度学习时代走向 AIGC 时代的标志性里程碑。越来越多的开发者借助 stable-diffusion-webui(以下简称 SDWebUI)能力进行 AI 绘画领域创业或者...

解密 ARMS 持续剖析:如何用一个全新视角洞察应用的性能瓶颈?

01 应用复杂度提升,根因定位困难重重 随着软件技术发展迭代,很多企业软件系统也逐步从单体应用向云原生微服务架构演进,一方面让应用实现高并发、易扩展、开发敏捷度高等效果,但另外一方面...

面向智算服务,构建可观测体系最佳实践

01 构建面向 AI、大数据、容器的可观测体系 (一)智算服务可观测概况 对于越来越火爆的人工智能领域来说,MLOps 是解决这一领域的系统工程,它结合了所有与机器学习相关的任务和流程,从数据...

MSE Nacos 配置变更审计平台使用指南

配置审计平台简介 Nacos[1]作为一款业界主流的微服务注册中心和配置中心,管理着企业核心的配置资产,由于配置变更的安全和稳定诉求越来越高,因此我们提供了安全和可追溯性保障机制。 配置变...

应用监控 eBPF 版:实现高效协议解析的技术探索

01 引言 随着 Kuberentes 等云原生技术的飞速发展,带来了研发与运维模式的变革。企业软件架构由单体服务向分布式、微服务演进。随着业务发展,多语言、多框架、多协议的微服务在企业中越来越...

阿里云推出 3.x Java 探针,解锁应用观测与治理的全新姿势

前言 随着春节大促即将到来,为了确保线上业务高效稳定地运行,电商企业大多会对旗下关键业务应用进行多轮测试。通过模拟线上较高流量的请求,来观察服务性能的实际表现。以某企业的业务测试...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部