先日、「SRE をはじめよう」という本を読了しました。gr1m0hさんと一緒に読書会形式で読み進めていたのですが、本の内容・読書会の進め方も全て含めて満足度が高かったので、そのことについてブログを書いてみようと思います。
書籍の翻訳をされた山口さんも、SRE に取り組んでる人で書籍を輪読をしながら感想・意見交換をすることを推奨されていましたが、これを実践した人の体験談としてお読みいただければと思います。
私が訳者としておすすめしたいのは、読者のみなさんの組織の中でSREに取り組んでいる方々全員で、本書を輪読をしながら感想や意見を交換することです。
「SREをはじめよう」について
「SRE をはじめよう」という本の内容を端的に説明するのであれば、オライリー・ジャパン社のサイトにある下記の文章が適していると思います。「個人としてどのように SRE を始めればいいのか?」「組織としてどのように SRE を始めればいいのか?」という 2 つの主題を軸に、トイル、ポストモーテムなど SRE に関する様々なトピックについてまとめられています。どのようなトピックについてまとめられているかは、下記 HP の目次を参照してください。
本書は、自身もSRE/DevOps/システム管理の分野で40年のキャリアを持つ筆者による、個人がSREになるための、また組織がSREを導入し、発展させるための指針を平易かつコンパクトにまとめた書籍です。 「SREとはどのようなものか」「SREになるには何をすればよいのか」「SREを導入するにはどのように始めればいいのか」「するべきこと、避けるべきこと」といった、SREにまつわるさまざまなトピックを幅広く解説します。
SRE として仕事をする場合、多くのプラクティス・技術に向き合う必要があり、自分個人に閉じるだけでなく個人の動きから組織の活動につなげるようなトピックが多く存在します。そういった中で、SRE の実践に関する全体像が見えず何をどのように始めたらいいかという部分に不安を感じることもあるかと思います。この書籍は、そのような人に SRE の実践のための概要と道筋を提供する書籍だと思います。
読書会の進め方
読書会は KWL チャートを利用して行いました。具体的には、Miro で各章ごとに KWL チャートのボードを作成して、読書 (カードの作成) → ボードに貼られたカードを眺めながら議論という形式で進めました。参加者の負担にならないように事前準備は一切不要としたのですが、その結果として書籍の読了に繋げることができました。
KWL チャートは What I Know (K), What I Wonder (W), What I Learned (L) の 3 セクションで構成されていますが、途中から 感想コーナー のセクションを設けるようにしました。KWL にも当てはまらないが共有しておきたい内容を感想として書くことで、「話のネタ」的にそこからカードの内容を拾って会話・議論に繋がった場面が何回もありました。
読書会の時間としては、1 回あたり 2 ~ 2.5 時間程度かかっていました。読書 (カードの作成) もその場で実施するので、どうしても読書会 1 回あたりの所要時間は長くなってしまいます。一方で、それだけの時間をかけても損はないくらいの気づき・学びを本書と読書会での議論を通じて得ることができたと思っています。
読書会に利用した Miro のボードは最終的に下記のようになりました。左から What I Know (K), What I Wonder (W), What I Learned (L), 感想コーナー の順に分かれているのですが、各セクションの内容を連携させながら議論が発展している様子がわかるかと思います。

「SREをはじめよう」を読んだ上での感想
本書で個人的に面白かった章について、2 つほどピックアップしてみます。読書会の中での会話・議論についても軽く触れますが、具体的な内容について全て言及することは難しいので多少ぼやかして書いています。
4章 SREについて語る (SREの提唱)
章のタイトル通り、SRE の提唱というトピックについて語られています。「SRE とは何で、なぜこれが重要なのか」ということを組織に説明するために、効果的な提唱方法やストーリーテリングにおける重要なポイントについて説明しています。SRE は様々なエンジニアリング・運用に関するプラクティスを中心に構成されており、SRE の実践においてはそれらを組織に導入・展開していく必要があります。その際に、SRE の実践を主導する人々はプラクティスの提唱に必然的に向き合うことになるでしょう。逆に、組織において理解を得ることなくプラクティスや各種ツールを導入しても、それらは長続きしない可能性が高いということは直感的に理解できるかと思います。
私は Mackerel というオブザーバビリティプラットフォームの SRE として働いているのですが、先日の Observability Conference Tokyo 2025 の Mackerel ブースで実施したアンケートボードでも、オブザーバビリティツールの組織内への展開・利用促進に課題感を抱える方々が一定数いました。これも、SRE 分野における提唱に関する課題の 1 つかと思います。
著者は、SRE の提唱においては、複雑で多変量な情報を関連づけるためのストーリーの整理とストーリーを伝える相手について理解することが重要であると語っています。ストーリーを伝える上での課題についてもいくつか語られていますが、「吠えなかった犬」の例え話について 1 つピックアップしてみます。これは、SRE の実践において個人的によく見聞きする課題です。SRE の価値は、「何が起きなかったか」という点に表れるため、障害が起きなかったことやデータ損失が防げたことなど、否定的な事象からストーリーを語るのは容易ではないという課題について取り上げています。この課題に対しては、コントラスト(対比) を意識した上で物事がうまくいっている要因を整理し、それらがなかった場合に物事がより悪化する可能性があるという点について認知させることが重要だと著者は述べています。
この章の読書会では、提唱における課題と実践的なアプローチについて議論しました。例えば、ストーリーを語るタイミングとしていつが適切かであったり、具体的な提唱のアプローチ (e.g. チーム内外で提唱のアプローチを変える、提唱の主体をあえて SRE ではなく別の人にする、ストーリーの整理の段階で組織を巻き込む) について語っていました。また、ストーリーテリングの難易度においては、組織構造など変動要因がいくつか存在し得るという話題もありました。
14章 Dickersonの信頼性の階層構造 (良い出発点)
この章では、SRE を組織に導入する際に、何から手をつけるべきかというトピックについて語られています。このトピックに対する 1 つの答えとして「Dickerson の信頼性の階層構造 (The Dickerson Hierarchy of Reliability)」が取り上げられていました。本書内では、オリジナルの階層構造に少し修正を加えたものが取り上げられています。
We’ll use this hierarchy, illustrated in Figure 3-1, to look at the elements that go into making a service reliable, from most basic to most advanced.
この階層モデルは、信頼性の改善に向けた取り組みを監視/オブザーバビリティ・インシデントレスポンス・インシデント後のレビュー・テスト/リリース・キャパシティ/スケール・開発・UX の 7 つのレベルに分類しており、下位の階層から着実に積み上げていくことを推奨しています。最初の階層として監視/オブザーバビリティが取り上げられていますが、この階層は SRE の実践に関する取り組みが短期的・長期的な観点で信頼性にどのような影響を及ぼしているかを定量的に測るために重要な情報源であるとして説明されています。それ以降の階層についても説明されていますが、ここでは割愛します。
この章の読書会では、Dickerson の信頼性の階層構造について議論しました。監視/オブザーバビリティ・インシデントレスポンスといった各階層を構成するトピックは相互に関連しています。そのため、階層のトピックにある程度取り組んで次の階層に進むというものではなく、それぞれのトピックについてある程度満遍なく進めるという意味では螺旋のような 2 次元構造が実態に近いのではないかという議論をしていました。
最後に
「SRE をはじめよう」という本とその読書会についてお話ししました。(SRE を実践している 1 エンジニアとしての観点から) SRE の実践を目指す人にとって、まず最初に読むべき本としてぴったりの書籍だと思います。本記事を通じて興味を持った方は、ぜひ手にとってみてください。