18601502305 | [email protected] | https://resume.phiy.me/K8s
- 7 年微软云原生与私有云平台经验,专注稳定性建设与可观测性
- 落地Azure私有云压测平台、完成AKS私有化监控接入与自动诊断
- 熟悉云原生、监控系统的原理与二次开发,构建测试平台并进行瓶颈分析/性能优化
北京大学 本科 2011-2015 计算机科学与技术专业
北京大学 硕士 2015-2018 计算机系统结构专业 网络与信息系统研究所
- 主要研究云存储、文件系统、memcached等方向
主要参与 Azure Stack(现 Azure Local)私有云研发,将Azure各项服务移植至4~数十节点的私有云,满足合规、离线、低延迟等场景
2023~2025,在私有云上提供API兼容的AKS(Azure Kubernetes Service)服务;
通过云端+本地Operator管理CRD的形式维护虚拟机、K8s等集群资源
- 可观测性:基于OpenTelemetry exporter重构宿主机监控系统,实现将日志/监控接入微软后端
- SRE:对K8s Operator、Ansible脚本二次开发适用于Day0场景的主动/被动日志收集工具,对故障场景进行自动诊断,并整合进CI提高排查效率,实现(开发早期阶段)测试通过率从85%以下增长到95%+
- CI/CD:重构因新版本变更失效的CI任务,解除近1个月的团队阻塞
- 基于K8s DaemonSet开发面向用户的一键SSH访问恢复脚本
2019~2022,强云端管理的混合云平台,实际应用资源部署在客户的数据中心,但管理全部在微软云端完成
- 可观测性:基于云函数/消息队列/NoSQL数据库开发监控数据(Metrics)接入平台,为基于标签(Label)的监控数据增加鉴权功能,适配私有云平台;实现跨区域高可用容灾,支持灰度/滚动升级与运维自动化
- 稳定性建设:重构存储环境全链路压测工具(对象存储/块存储),配合公有云资源模型迁移(经典/Classic模型迁移至Azure资源模型/ARM),实现不依赖公有云资源自托管运行,统一配置、运行与结果收集
- 项目期间被借调到美国团队,英语远程工作对接欧美PM/Dev团队
项目使用Reed-Solomon冗余码对抗网络丢包;
典型场景为移动网络下手机游戏网络连接
- 使用Linux+tc搭建网络环境模拟平台
- 使用iperf3压力测试,通过perf+火焰图定位瓶颈
- 优化代码,实现性能提升15%~40%
- 云原生、Kubernetes的维护与二次开发;基于OpenTelemetry等组件的日志(Logs)、监控(Metrics)、分布式追踪(Tracing)等
- Azure云的架构与使用,了解其他云及常见虚拟化/VPS方案
- Linux系统、网络等诊断与优化
- 应用Git工作流与开发规范、CI/CD与自动化系统
- 使用Golang、C#、C/C++等语言开发;使用Python、JavaScript、PowerShell、Shell等语言编写脚本
- 构建压力测试平台进行性能测试,使用perf、火焰图等工具进行瓶颈分析并针对性优化
- English sufficient for daily communication (meetings, emails, etc.)
- CKA (Certified Kubernetes Administrator) 证书 (编号LF-f6dzfa12dy)
- 在2023年6月微软大范围服务中断中,协助定位原因为网络被屏蔽导致重试风暴
- 北京大学信息科学技术学院2011级本科生优秀论文
- NOI2010 全国信息学奥林匹克竞赛 银牌