云原生周刊:Istio 1.25.0 正式发布

server/2025/3/17 20:32:02/

开源项目推荐

Dstack

Dstack 是一个开源的 AI 计算管理平台,旨在简化 AI 任务的部署和管理。它支持本地和云端运行 AI 工作负载,并提供自动化的 GPU 资源调度,使开发者能够更高效地利用计算资源。Dstack 兼容 K8s,可以无缝集成到现有的基础设施中,适用于 AI 模型训练、推理和 MLOps 工作流。

SkyPilot

SkyPilot 是一个开源的云端任务调度和优化平台,旨在帮助用户高效地在多云环境中运行 AI 训练和计算任务。它支持自动选择最优的云提供商、智能分配计算资源,并提供低成本、高性能的计算优化方案。SkyPilot 适用于 AI 研究、分布式计算和大规模云端任务管理,可无缝集成 K8s 和多种云平台。

Kaito

Kaito 是一个基于 AI 的搜索引擎,旨在帮助用户更高效地检索和组织信息。它结合了大模型技术与搜索能力,使用户能够从多个数据源(如 GitHub、论文、网站等)中提取关键信息,提升研究和开发效率。Kaito 适用于开发者、研究人员和知识工作者,提供更智能的搜索体验。

RagApp

RagApp 是一个开源的 RAG(检索增强生成)应用开发框架,旨在帮助用户构建基于大语言模型的智能问答和知识检索系统。它支持从多种数据源(如文档、数据库、API)提取信息,并结合 LLM 进行智能回答,使 AI 更精准地提供基于上下文的响应。RagApp 适用于企业知识管理、聊天机器人和智能搜索等应用场景。

文章推荐

在 Kubernetes 中高效管理 AI/ML 工作负载的最佳实践

本文介绍了在 K8s 上高效运行 AI/ML 工作负载的最佳实践。首先,合理管理计算资源至关重要,建议使用 K8s 设备插件(如 NVIDIA 插件)优化 GPU 分配,并配置 CPU 和内存请求以避免资源争用。通过节点选择、亲和性规则和自动扩展机制,可以提高任务调度的灵活性和效率。此外,为了确保多租户环境的安全性,建议利用命名空间和网络策略进行隔离,并通过 RBAC 访问控制,防止未经授权的访问。

同时,监控和日志管理是保障系统稳定性的关键。集成 Prometheus 进行实时资源监控,有助于优化性能并及时发现潜在瓶颈,而集中化日志管理系统能够提升故障排查效率,确保 AI 任务的顺畅执行。通过这些实践,企业可以更高效地管理 K8s 上的 AI 训练和推理任务,提升计算资源的利用率和系统的可靠性。

K8s 1.31 中云控制器管理器的初始化挑战与解决方案

本文介绍了 K8s 1.31 版本中针对云提供商集成架构的重大变更。官方在此次更新中移除了内置的云提供商相关代码,转而采用云控制器管理器(Cloud Controller Manager,CCM)来处理云平台特定的控制逻辑。这一迁移提升了 Kubernetes 的可扩展性和云平台兼容性,但也引发了一个关键的“先有鸡还是先有蛋”问题:当 kubelet 启动并向 API 服务器注册节点时,节点仍缺少关键的云提供商信息(如地址和区域标签),而这些信息依赖 CCM 来填充,而 CCM 又需要节点完成初始化才能生效。这种相互依赖可能导致节点就绪的延迟,并带来潜在的故障风险。

为解决这一问题,集群管理员和安装工具(如 kOps 或 Cluster API)需要采取额外措施,确保 CCM 在集群启动过程中能够正确配置并与其他组件协调运行。通过优化初始化流程和资源调度策略,可以减少 K8s 1.31 迁移带来的影响,提升集群的稳定性和可管理性。

vivo 大规模容器集群运维平台实践

vivo互联网服务器团队针对大规模容器集群运维难题,自主研发了北斗运维管理平台,通过白屏化、自动化手段解决了初期黑屏操作复杂、人工巡检低效、多集群管理困难等挑战。该平台构建了节点扩缩容工具实现全流程自动化(20台扩容时间从60分钟缩短至10分钟),开发kube-doctor组件支持集群资源/节点/自定义巡检,并整合资源管理、事件中心、监控告警等核心功能,形成覆盖集群安装、组件管理、故障定位的运维体系,成功支撑 20+ 生产集群、数万节点的高效运维,累计执行 5000+ 扩缩容任务,显著提升运维标准化程度与系统稳定性。

云原生动态

istio.io/latest/news/releases/1.25.x/announcing-1.25/" rel="nofollow">Istio 1.25.0 正式发布:全面增强 Ambient 模式与流量管理

Istio 1.25 版本引入了多个重要更新和改进,增强了可观测性、安全性和可扩展性。新版本优化了 Istio 的流量管理,改进了 Sidecar 的资源使用效率,并增强了对 Kubernetes Gateway API 的支持。此外,Istio 1.25 进一步提升了身份验证和访问控制机制,增加了更多的策略配置选项,提高了整体安全性。该版本还改进了可观测性,增强了日志和指标收集能力,帮助运维人员更好地监控和管理服务网格。

Dapr v1.15 正式发布

Dapr 1.15.0 版本正式发布。此版本引入了多项新特性和改进,包括将调度器服务(Scheduler service)提升为稳定版。在此版本中,调度器服务默认用于管理 Actor 提醒(Actor reminders),取代了之前的放置服务(Placement service)。

升级至 Dapr 1.15 后,现有的 Actor 提醒将自动从放置服务迁移至调度器服务。此外,Dapr 1.15 还包含其他增强功能和修复,旨在提升分布式应用的开发体验和系统性能。

关于KubeSphere

KubeSphere (https://kubesphere.io)是在 Kubernetes 之上构建的开源容器平台,提供全栈的 IT 自动化运维的能力,简化企业的 DevOps 工作流。

KubeSphere 已被 Aqara 智能家居、本来生活、东方通信、微宏科技、东软、华云、新浪、三一重工、华夏银行、四川航空、国药集团、微众银行、紫金保险、去哪儿网、中通、中国人民银行、中国银行、中国人保寿险、中国太平保险、中国移动、中国联通、中国电信、天翼云、中移金科、Radore、ZaloPay 等海内外数万家企业采用。KubeSphere 提供了开发者友好的向导式操作界面和丰富的企业级功能,包括 Kubernetes 多云与多集群管理、DevOps (CI/CD)、应用生命周期管理、边缘计算、微服务治理 (Service Mesh)、多租户管理、可观测性、存储与网络管理、GPU support 等功能,帮助企业快速构建一个强大和功能丰富的容器云平台。


http://www.ppmy.cn/server/175776.html

相关文章

微软 AI 发布 LongRoPE2:近乎无损地将大型语言模型上下文窗口扩展至 128K 标记,保持 97% 短上下文准确性

大型语言模型(LLMs)虽然取得了显著进展,但其在有效处理长上下文序列方面的局限性依然存在。尽管像 GPT-4o 和 LLaMA3.1 这样的模型支持长达 128K 个标记的上下文窗口,但在扩展长度上保持高性能却颇具挑战。旋转位置嵌入&#xff0…

Android Room 框架表现层源码深度剖析(三)

一、引言 在 Android 应用开发中,表现层(Presentation Layer)扮演着至关重要的角色,它负责将数据以直观、友好的方式展示给用户,并处理用户的交互操作。Android Room 框架作为一个强大的数据库抽象层,为数…

AGI大模型(5):提示词工程

1 什么是提示词工程(Prompt) 所谓的提示词其实指的就是提供给模型的⼀个⽂本⽚段,⽤于指导模型⽣成特定的输出或回答。提示词的⽬的是为模型提供⼀个任务的上下⽂,以便模型能够更准确地理解⽤户的意图,并⽣成相关的回应。 2 什么是提示⼯程(Prompt Engineering) 所谓的提…

Windows下安装Git客户端

① 官网地址:https://git-scm.com/。 ② Git的优势 大部分操作在本地完成,不需要联网;完整性保证;尽可能添加数据而不是删除或修改数据;分支操作非常快捷流畅;与Linux 命令全面兼容。 ③ Git的安装 从官网…

《灵珠觉醒:从零到算法金仙的C++修炼》卷三·天劫试炼(35)山河社稷图展开 - 编辑距离(字符串DP)

《灵珠觉醒:从零到算法金仙的C++修炼》卷三天劫试炼(35)山河社稷图展开 - 编辑距离(字符串DP) 哪吒在数据修仙界中继续他的修炼之旅。这一次,他来到了一片神秘的山河社稷图,图中有一卷古老的山河社稷图,图面闪烁着神秘的光芒。图前有一块巨大的石碑,上面刻着一行文字…

Spring Cloud 中的服务注册与发现: Eureka详解

1. 背景 1.1 问题描述 我们如果通过 RestTamplate 进行远程调用时,URL 是写死的,例如: String url "http://127.0.0.1:9090/product/" orderInfo.getProductId(); 当机器更换或者新增机器时,这个 URL 就需要相应地变…

机器学习与深度学习中模型训练时常用的四种正则化技术L1,L2,L21,ElasticNet

L1正则化和L2正则化是机器学习中常用的两种正则化方法,用于防止模型过拟合。它们的区别主要体现在数学形式、作用机制和应用效果上。以下是详细对比: 1. 数学定义 L1正则化(也叫Lasso正则化): 在损失函数中加入权重参…

【计算机网络】2物理层

物理层任务:实现相邻节点之间比特(或)的传输 1.通信基础 1.1.基本概念 1.1.1.信源,信宿,信道,数据,信号 数据通信系统主要划分为信源、信道、信宿三部分。 信源:产生和发送数据的源头。 信宿:接收数据的终点。 信道:信号的传输介质。 数据和信号都有模拟或数字…