2024 KL 的年终总结 时间过得飞快,转眼便迎来了 2025 年。回想上一次写年终总结还是在 2023 年,那时正沉浸在疫情彻底告别后的自由感中,而今年则展现了另一番风景。回顾 2024 年,满满的收获萦绕心头。工作上迎来了显著变化,我加入了一个新项目【优化算法训练成本】,挑战虽多,却也让我在技术上实现了新的突破。开源方面,我继续深耕熟悉的领域;生活中,陪伴家人、享受点...

ClickHouse CPU 100%的问题排查与优化
背景 本文同步发布 OSC : https://my.oschina.net/klblog/blog/17901561 最近我们收到用户反馈,Sentry Web 无法正常刷数据,过一会儿又好了。经过初步排查,发现问题根源在于 ClickHouse 的 CPU 使用率居高不下,甚至达到了 100%,导致系统性能瓶颈。以下是我们对问题的详细分析、解决过程以及后续优化的总结,希望对遇到类似问题的团队有所帮助。 问题现象 从用户的反馈来看,Sentry Web 数据无法...
OpenTelemetry Collector 节点宕机场景下的排查与优化
前言 本文同步发布在 OSC : https://my.oschina.net/klblog/blog/17885767 OpenTelemetry Collector 是 OpenTelemetry 的核心组件,但在底层基础设施(如 Kubernetes 节点)故障时,可能暴露出阻塞或延迟问题。本文通过一次因 Sampling 服务节点宕机引发的故障,结合代码分析其原因,并提供临时和长期解决方案。 问题描述 一天,收到告警,OpenTelemetry 出现 Exporter Trace 异常的情况,具体表现为: OpenTelemetry Collect...