百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

kubecon 2023丨阿里云原生专题分享学习笔记

liuian 2025-06-08 22:35 3 浏览

公主号链接,欢迎关注:
https://mp.weixin.qq.com/s/M5DST_SmrWdxIsrt4tBNzA

本文整理自 kubecon 2023 阿里云原生相关主题分享,原文可参考
https://developer.aliyun.com/article/1338251

  • 前四分享偏细节和干货
  • 后三分享偏务虚

《智能运维下的生产环境容器网络排障实践》

概述

端到端网络诊断数据链路工具,卖点是 “数据全” + "自动化 (导致排查问题快)"

内容

  • 容器网络运维复杂原因
    • 概念复杂:service / network-policy / ingress ...
    • 实现复杂 (定位困难):压测环境 -> 多处抓包 -> 定位丢包点 -> 分析配置 (iptables / kernel conf / vendor ...)
  • 容器网络诊断
    • 接入、连通性、深度网络异常 (下图,最终透出 abnormal metrics、log、event)
  • 案例:部分请求超时
    • 原因:节点 VPN 软件网段与下游 Pod 所在节点网段重叠,数据包路由到错误的网络设备
    • 优势:自动诊断排查时间从传统定位手段 1h 减少到 5min
  • 案例:upstream 偶发 499/504
    • 原因:JVM GC 导致服务关闭连接过慢,upstream 连接队列溢出导致 ingress 处理时间久,客户端超时关闭
    • 过程:安装 exporter 观察 TCP 连接数突涨,且同时 ListenDrops 和 ListenOverflow 均大于 0

《尚游网络基于 OpenKruise Game 游戏云原生化实践》

概述

针对有状态服务定制新的编排模型 GameServerSet,卖点是 "场景定制"

内容

  • 背景:尚游 全面微服务后的痛点
    • 响应延迟:有高响应延时要求的业务应该使用异步模型 -> 自研框架
    • 有状态:抽象 Entity 作为有状态载体 (重点解决的问题)
      • Entity = 小型 Service,可动态加载和销毁,并可在有状态 pod 中转移和负载均衡
    • 多服务/集群:配置管理复杂
  • OpenKruise:
    • GameServerSet 在游戏场景下增强 StatefulSet:70% 字段相同 (迁移平滑)
    • 优势
      • 固定 IP:节约 proxy 成本 (以及对应的路由开销)
      • 自动扩缩:StatefulSet 只能从大到小缩容,GameServerSet 可指定回收某个 pod (根据负载)

《基于 Fluid 加速 AIGC 模型推理服务的技术解析和优化》

概述

针对数据密集性应用 (eg. AIGC) 提供数据编排模型 Fluid,卖点是缓存管理 "自动化" (客户端配合优化)

内容

  • 背景
    • AIGC 模型推理最大问题:“数据” 高延迟+高带宽
    • 预估:从对象存储中加载 Bloom-175B 模型 (约 340GB),耗时约4300s
      • 对象存储 I/O 吞吐 = 100MB/s~500MB/s,非容器化本地 SSD I/O 吞吐 = 1~2GB/s
    • 可选项:cache,但仍然会带来 cache 管理的工程问题 (重点解决的问题)
  • Fluid
    • 概述:帮助用户管理和运维缓存、简化系统部署和访问、编排数据消费流程
    • 优势
      • 数据抽象:Dataset、Runtime、Data Operations 分别描述 数据源、缓存运行时、缓存操作
      • 缓存弹性
        • 带宽弹性:可用带宽正比于分布式缓存的节点规格和数量
        • 回收策略:根据不同业务的特点定制不同的缓存副本弹性策略
      • 异构兼容
      • 数据编排:自动化
  • 优化
    • "多线程读" 和 "预读" 等手段优化客户端模型加载

《费芮互动使用 Higress 作为 Kubernetes Ingress 实现稳定性和性能提升》

概述

基于 Higress 解决 nginx 网关的若干痛点问题,卖点是 "纯系统" 的 扩展、稳定、性能 ...

内容

  • 费芮互动:集成多平台/渠道实现用户串联
  • 痛点:nginx ingress
    • 稳定性
      • ingress 共享 controller,单个配置变更会导致 reload 太频繁 (影响长链接)
      • 连接过多,导致健康检查容易超时
    • 性能:控制面/数据面共享 Pod,开启 ModSecurity 模块性能下降 10 倍 ...
    • 功能:限流策略不够灵活
    • 运维
      • 独立节点部署:资源隔离;ExternalTrafficPolicy 设置为 Local 模式内部服务无法正常访问 Ingress
      • daemon 部署:资源干扰;ExternalTrafficPolicy 设置为 Local 模式可减少一次 NAT
  • 解法:Higress
    • 稳定性
      • 控制面/数据面 分离
      • 配置变更后不需要 reload 数据面
    • 性能
      • 定时扩缩容
      • 数据面直连后端 POD (不经过 NodePort 转发):这块我理解的点在于网络定制
    • 功能
      • 集成 Sentinel 全局限流
      • 自建认证鉴权服务
      • 对接阿里云安全产品
      • ...
    • 运维
  • 开源
    • 不和 K8S 生态完全绑定,但同时满足 高集成、标准化、易扩展、热更新 等各种能力

《基于 eBPF 构建下一代智能可观测系统》

本分享相对比较水,没有什么干货,下图分别是 eBPF 字节码示意图 和 “网络栈接收数据包" 的概览图

《Serverless 研发平台—极简上云体验》

同样没有什么干货,比较像介绍 SAE 的软文

  • 云优势
    • 效率:全链路栈
    • 降本:弹性;多类型业务整合利用率
    • 稳定:容灾
  • serverless 应用 (生态)
    • 流量托管:南北 (多租路由)、东西 (注册中心)
    • 弹性伸缩
    • 数据库:支持对接 自建、RDS
    • 文件存储:对接阿里云 NAS、OSS ...
    • 监控:ARMS ...
    • 日志:推荐 Kafak / SLS,不推荐本地
    • ......

《Apache RocketMQ 5.0 的 Serverless 化之路》

同样没有什么干货,重点介绍 RocketMQ “存算分离” 支持云原生化

  • 存算分离
    • 轻量级 SDK
    • 无状态代理层
    • 无主化的存储节点 Broker
    • 云原生基础设施

相关推荐

如何使用postman做接口测试(菜鸟级攻略)

首先,什么是接口呢?接口一般来说有两种,一种是程序内部的接口,一种是系统对外的接口。系统对外的接口:比如你要从别的网站或服务器上获取资源或信息,别人肯定不会把数据库共享给你,他只能给你提供一个他们写好...

postman教程-15-Runner说明及创建业务流

经常我们要把编写好的用例进行回归测试,这时我们就可以通过Runner来选择我们要运行的测试集进行回归。Runner介绍进入Runner有两个入口,第一个就是选择一个集合,点击右三角进入,点击RUN;第...

Postman 接口测试实战教程:从入门到精通,全网最全项目详解

什么是接口?为什么需要接口?因为接口能使我们的实体或者软件内部数据能够被外部进行修改、查询。从而使得内部和外部实现数据交互,所以,需要用到接口。软件接口:右称:API(applicationprog...

HTTP Cookies知识-查看、发送、获取、返回

1简介HTTPCookies是服务器发送到用户浏览器并保存在本地的一小块数据,它会在浏览器下次向同一服务器再发起请求里被携带并发送到服务器上。Cookie主要用于以下三个方面:会话状态管理(如用...

Jmeter和Postman测试工具的区别(postman和jmeter的优缺点)

区别一:用例组织方式不同的目录结构与组织方式代表不同工具的测试思想,学习一个测试工具应该首先了解其组织方式。Jmeter的组织方式相对比较扁平,它首先没有WorkSpace(工作空间)的概念,直接是T...

Postman接口测试之:添加Cookie伪造请求

1、获取cookie值登录某网站,通过开发者工具(或者fiddler抓包工具),获取登录成功后的请求头中的cookie值。大家肯定奇怪,明明访问首页的时候就已经生成了cookie值,为什么还登录呢?虽...

PostMan循环发送请求(postman重复请求)

我们在开发中,测试一个或者多个接口时,经常需要循环的去访问这个接口,用来测试接口的性能,使用postman可以做到这一点。不仅能循环测试一个接口,还能同时循环测试多个接口。一PostMan循环发送请求...

手把手教你搭建一个文件存储服务器minio,实现文件存储

Minio是一个开源的、自托管的对象存储服务器,它提供了类似于云存储服务的功能。你可以使用Minio搭建自己的私有云存储解决方案,或者作为公共存储服务的替代方案。安装官网:https://min.io...

存储_AWS的S3实践之路(aws 文件存储)

前言当今的开发基本已经基于云开发了,遥想当年自己也曾扛过交换机、抬过服务器和防火墙。读书人一声长叹,时代变化弹指一挥间。好吧,过去心不可得。说到云上存储,当属阿里云的OSS和亚马逊的S3。今天就入个S...

Java 编程技巧之单元测试用例编写流程

温馨提示:本文较长,同学们可收藏后再看:)前言清代杰出思想家章学诚有一句名言:“学必求其心得,业必贵其专精。”意思是:学习上一定要追求心得体会,事业上一定要贵以专注精深。做技术就是这样,一件事如果做...

快来试试这款一行代码实现多平台文件存储的工具!

大家好,我是Java陈序员。文件上传下载,是我们在开发中经常会遇到的需求!无论是本地存储、还是云存储,我们可以自己封装API来实现功能。今天,给大家介绍一款一行代码实现多平台文件存储的工具,开箱...

“全”事件触发:阿里云函数计算与事件总线产品完成全面深度集成

随着云原生技术的普及和落地,企业在构建业务系统时,往往需要依赖多个云产品和服务,产品互联、系统协同的需求越来越强。事件驱动架构将事件应用于解耦服务之间的触发和交互,能够帮助用户很好实现产品、系统之间...

2.2k star,一款业界领先的私有云+在线文档管理系统

简介kodbox可道云(原KodExplorer)是业内领先的企业私有云和在线文档管理系统,为个人网站、企业私有云部署、网络存储、在线文档管理、在线办公等提供安全可控,简便易用、可高度定制的私有云产品...

再次升级!阿里云Kubernetes日志解决方案

背景针对K8S日志采集存在的采集目标多、弹性伸缩难、运维成本大、侵入性高、采集性能低等问题,在18年2月份日志服务和容器服务团队一起发布了阿里云Kubernetes日志解决方案。1分钟内即可完成整个集...

基于Spring+SpringMVC+Mybatis分布式敏捷开发系统架构(附源码)

前言zheng项目不仅仅是一个开发架构,而是努力打造一套从前端模板-基础框架-分布式架构-开源项目-持续集成-自动化部署-系统监测-无缝升级的全方位J2EE企业级开发解...