KL个人博客 首页>>2026-04

2025 KL的年终总结

2025 KL 的年终总结 2025 年对我来说,是一个从“支撑系统稳定运行”走向“推动关键基础能力重构”的年份。也是我真正把 AI 融入日常工程工作的第一年。 过去一年里,我主要做了三类事情: 继续维护基础设施底盘,保障 xxljob、Apollo、Otel、OSS、SLS、Redis、CDN 等关键系统稳定运行。 推动自建机器学习训练平台从云厂商体系迁移到 Kubeflow,并围绕 TensorFlow、PyTorch、训练 IO、checkpoint、模...

阅读全文 »