2025年1月26日(日)に開催されたSRE Kaigi 2025に参加していました。
最初に、SRE Kaigi 2025運営の皆様ありがとうございました。 カンファレンス初登壇で緊張もありましたが、終わってみると懇親会も含めて総じて楽しく過ごせたかなと思います。
登壇
「監視SaaSの運用におけるObservability改善の歩み」というタイトルで登壇させていただきました。
監視SaaSのサービス基盤におけるO11y改善ということで、多少物珍しい内容だったかなと思います。
Mackerelはメトリクスを中心とした監視機能を提供していて、ドッグフーディングを兼ねてサービス基盤の監視をMackerel自身で行っています。
そのような背景はありつつも、O11yの改善の進め方・学びにおいては事例として共有する価値があると感じたので、今回は改善の過程に焦点を当てて、なるべくMackerelの機能理解に依存しないような形でセッションの構成を考えてみました。
テレメトリーの性質、ラムズフェルドの4象限を用いたO11yの分類という汎化された要素を使って、改善の歩みを整理できたかなと思います。
気になったセッション
登壇の緊張と終わった後の脱力感もあって一部のセッションは見れなかったのですが、都合の良い時間帯のセッションはチェックしていました。
セッション自体は見れなかったのですが、資料を見たものもいくつかありました。
個人的に一番面白かったのは @nari_exさんの「インシデントキーメトリクスによるインシデント対応の改善」です。指標として馴染みのあるMTTRの問題点を切り口に、データの変動性を抑えて改善箇所を明確にできるTTXメトリクスの紹介と活用について語られていました。
障害対応のプロセスを改善するにあたって「もっと素早く障害復旧できるといいよね」という会話がよくなされると思います。一方で、細かく要素分解をしていくと検知・調査開始・修正など「どこまでの期間を短縮したいか」という切り口があるので、TTXメトリクスの図を共通認識としておくと改善の議論において目線を揃えられそうだなと感じています。
懇親会(二次会)
懇親会や二次会でも色々な方とお話しできてとても楽しかったです。
話した内容で何か一つ抜粋しようかなと思ったので(手前味噌ですが)はてなのSRE標準化委員会の取り組みがあまり知られてなかった割に反応が良かったので紹介しておきます。
はてなの初期は自社toCサービスの一事業だった経緯もあり、インフラやアプリケーション実行基盤は一枚岩で構成されていて、それをメンテナンスする専任のチームを置いていました。その後現在のように事業が多角化していき、すべてのサービスが同じ基盤に乗るのは開発・運用の面でさまざまな不都合があるというわけで、インフラも含めて開発チームがプロダクト全体のオーナーシップを持つように体制を変えていきました。 すると当然ながら、各チームが使う技術やノウハウがばらばらになっていったんですよね。ここで事業をサイロ化させていくことは、はてなの職能組織として本意ではない、ということでチーム横断的に技術を標準化していく取り組みを始めることになりました。
はてなのSRE標準化委員会は、チーム横断的に技術を標準化することを目的とした集まりです。CI/CDの標準化、社内向けのTerraform Modulesの管理やSRE向けのオンボーディングプログラムの作成など色々行なっています。
組織図に現れない「同好会」的な立ち位置だと思いますが、一定のアウトプットが出るように一つのテーマに2,3人のチームで活動しています。組織的な拘束力はないけど社内理解もあるので一定の工数を割けて、半期ごとにアウトプットも継続して出してます みたいなことをお話ししました。
SRE標準化委員会の取り組みとして社外に見えるものは SRE連載 という形で公開しているので、気になった方はぜひご覧ください。
終わりに
今回のSRE Kaigi 2025では、スピーカーとして登壇したこともあり多くの刺激と学びを得ました。今後もイベントに定期的に顔を出していく予定なので、何かしらの形でSREコミュニティに参加・貢献できればと思います。