害怕打破生产?使用grafana!

发布者

在Taboola中,我们处理规模,巨额。一个小问题可能会在几个小时内变成灾难。重新编写和替换现有服务与新的服务是一个真正的挑战,而且没有造成这样做停机是可怕的

日志不是一个选项。日志是巨大的,笨重的,跨越多个机器。结合并分析它们需要数小时。在这篇文章中,我将与您分享在Grafana中的三个图表,我认为是用于观察新代码的必须。开始吧…

我打破了生产吗?

你写了闪亮的代码,你(偶数)测试它,但是,你如何验证这一点你没有打破生产环境?幸运的是,我们使用格拉纳,这实际上有很大的不同。我的计划是比较Grafana的旧代码与新品,但是在哪里开始?

你有Grafana ...让我们使用它!

坦率地说,我对Grafana一无所知。

走过办公室,我在我的同事屏幕上看到了,花哨,彩色图表。然而,我无法理解他们的一件事。当我寻找要复制的现有图表时,我发现太多了。所以复制和粘贴是不可能的。令人沮丧......

我决定从地上学习Grafana。我花了几乎两天 -我用了Grafana初学者在YouTube上的指南作为起点。这真的很有不同。

哪个图表绝对是必须的?

假设您使用的是JVM,您想观看垃圾收集器堆用法,因为JVM的内存至关重要。如果它太高,它会打破一切。

必须具有图1号:内存(堆)

提示:使用移动平均功能见锯齿。

你的图表将不那么准确;然而,它将为您提供更清晰的内存模式视图。更重要的是,它将一目了然地为您提供更好的见解。

接下来,监视OS本身,跟踪CPU.。根据经验,避免达到80%-90%的利用率。请记住,有峰值,您的服务需要平滑地应对它们。

必须有图表2号:CPU

番外篇 -这种图有助于我说服生产它给我更多的计算能力,因为我可以向他们展示我正在劫持CPU。

到目前为止,这些是技术知识分子,现在,呢?申请KPIS?

将苹果与苹果进行比较 - 保持相同的指标

如果您希望确保仍然有效,请在新的和旧代码中使用相同的KPI。如果您的图表行继续呈现相同的趋势 - 您可以确定它仍然有效。

放在旧的和新的指标在一起在相同的图表中,因为你希望它很容易看到任何错误对齐。

在下图中,新的指标是正面的并且旧的实现由负数。这种“镜像视图”在眼睛上很容易,有助于点污机。

必须有图表第3号:旧和新的一起

提示:您可以通过此效果将旧度量乘以-1。

要记住的事情

  1. 花时间学习格拉多纳- 对于大规模应用来说是绝对关键的
  2. 监控两者OS.JVM,此外适用性KPIS.
  3. 坚持旧度量标准- 为了特色奇偶校验和趋势破坏
  4. 您可以使用平均移动缩放到-1为了轻松比较

虽然在没有停机时间的情况下更换服务是可怕的,但是格拉纳真的可以做出很大的不同。Grafana为您提供了可见性,以确保新代码正在运行并且应用程序稳定。

立即创建您的内容广告系列!