プロダクト開発エンジニア全員で取り組むオブザーバビリティ

48.9K Views

April 11, 24

#オブザーバビリティ #APM #SRE #NewsPicks #モニタリング

スライド概要

TechBrew in 東京〜オブザーバビリティのベストプラクティス〜の発表資料です
https://findy.connpass.com/event/312930/

Yuki Ando

@integrated1453

スライド一覧

経済ニュースアプリのSREの仕事をしています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 3.4MB)

関連スライド

3年間運用したCDKの失敗から学ぶCDK開発のプラクティス

Yuki Ando 121.4K

意外とマネージドなECS on EC2の運用

Yuki Ando 108.8K

SREチームがNew Relicを使って AWSコスト最適化に貢献した話

Yuki Ando 67.8K

AWSコストを全体で43.75%削減するためのコストモニタリング技術

Yuki Ando 62.5K

最高の開発者体験を目指してAWS CDKでCI/CDパイプラインを改善し続けている話

Yuki Ando 45.7K

[JAWS DAYS 2022] 円安と戦うために複数のAWSサービスでGravitonに移行した話

Yuki Ando 41.9K

各ページのテキスト

プロダクト開発エンジニア全員で取り組むオブザーバビリティ株式会社ユーザベース安藤裕紀 TechBrew in 東京〜オブザーバビリティのベストプラクティス〜 2024/4/11

00 自己紹介安藤裕紀 / あんどぅ株式会社ユーザベース NewsPicks事業 SRE Unit Leader SREチームのマネージャー兼テックリード特技：AWSコスト削減や障害対応を愚直に100本ノックすること好きなSREのプラクティス：非難なきポストモーテム文化 Incident Response Meetupというイベントを運営しています ©Uzabase, Inc. All Rights Reserved.

00 本日のアジェンダ 1. NewsPicksの開発体制とサービスの運用体制 2. 開発・サービス運用の課題意識 3. プロダクト開発エンジニア全員でオブザーバビリティに取り組む 3.1. APMを徹底的に使いこなし、開発・運用に組み込む 3.2. 周辺サービスとのService Mapを拡充する 3.3. SLOを整備して、アラートとCUJを直結させる 3.4. o11yツールの市民権を獲得して、全員が使えるようにする 4. まとめ ©Uzabase, Inc. All Rights Reserved.

01 NewsPicksのプロダクト開発組織、エンジニア体制ユーザベースグループ内にNewsPicks独自のプロダクト開発組織があり、70名ほどのエンジニアが在籍していますユーザベースグループ(約1,200名※業務委託含む) NewsPicks Product Domain (15Unit 約100名) プロダクトマネージャーデザイナーカスタマーサポート ©Uzabase, Inc. All Rights Reserved. プロダクト開発エンジニア (12Unit 約70名) Media Experience Unit Media Infrastructure Unit Subscription Product Unit NPEx Product Unit SBD Product Unit BDD Product Unit Stage Product Unit NP4B Product Unit Mobile App Unit Web Platform Unit Analytics and Data Lab Unit SRE Unit 発表者はSREチームのリーダーとして、サービス運用の改善や開発基盤の改善に取り組んでいます

01 「全員プロダクト開発エンジニア」という文化エンジニアが開発から運用までオーナーシップを持ち、常に改善を続けるエンジニアはフルサイクルの問題解決を自走する過程で何度もデプロイを繰り返すことになり、リリース後にはオンコールで障害対応も行い、サービスを継続的に改善する。安全かつ高速に開発・リリースでき、問題が発生してもトラブルシューティングできる状態を追求することが、NewsPicksのユーザーに価値を届けることにつながると考えている。 ©Uzabase, Inc. All Rights Reserved.

01 チームが分かれていても、全員で同じオンコールシフトに入る ● ユーザーから見たら一つのアプリ、一社のサービス運営会社。障害対応はエンジニア全員の仕事 ○ もしニュースが配信できない障害になったら「チームが違うから」とか言ってる場合ではない ● 経済ニュースのサービスなので、24h/365dのオンコールシフトを組んでいる (PagerDutyで管理) ○ 運用当番は、障害が発生した際の一次切り分けとエスカレーション、状況報告を推進する 24d/365d常時モバイルアプリ担当1名とサーバー担当2名の3名が『運用当番』発表者はSREチームですがインフラのアラートだけ対応しているわけではなく、運用当番のときはBizメンバーとのやりとりやアプリケーションの障害対応もしています。Bizメンバーからすると、バックエンドもSREも関係なく「(問題を解決してくれる)テックの人」 ©Uzabase, Inc. All Rights Reserved.

10.

11.

02 「全員プロダクト開発エンジニア」の価値観は素晴らしいが… エンジニアは流動性の高い職種。10年続くサービスの広範囲に渡って開発・運用のオーナーシップを醸成していくことは簡単ではない ● 入社3年以内のメンバーが大半。5年以上前の仕様や経緯を知っている人は2~3名しかいない ● 10年モノの共通バックエンドサーバーのモノリス、コードベースが大きいので認知負荷が高い ● マイクロサービス的に作られた周辺サーバー、メンテナンスを担当するチームしかわからない ● 「XX業務で問題が発生している」ときにBizメンバーの業務やオペレーションを知らないのでシステムでの問題解決やワークアラウンドをすぐに提示できない(Bizメンバーは数百名在籍) →ユーザーのために良いプロダクトを作り改善したいと思っているが理解できないものにオーナーシップを持つことは（普通は）難しい ©Uzabase, Inc. All Rights Reserved.

12.

オブザーバビリティは理解し説明できる力の尺度。上げたいです 02 書籍『オブザーバビリティ・エンジニアリング』より ❝ 簡単に言うと、私たちが考えるソフトウェアシステムの「オブザーバビリティ」とは、システムがどのような状態になったとしても、それがどんなに斬新で奇妙なものであっても、どれだけ理解し説明できるかを示す尺度です。また、そのような斬新で奇妙な状態に対しても、事前にデバッグの必要性を定義したり予測したりすることなく、システムの状態データのあらゆるディメンションやそれらの組み合わせについてアドホックに調査し、よりデバッグが可能であるようにする必要があります。もし、新しいコードをデプロイする必要がなく、どんな斬新で奇妙な状態でも理解できるなら、オブザーバビリティがあると言えます。 ©Uzabase, Inc. All Rights Reserved. ❞

13.

14.

00 本日のアジェンダ 1. NewsPicksの開発体制とサービスの運用体制 2. 開発・サービス運用の課題意識 3. プロダクト開発エンジニア全員でオブザーバビリティに取り組む 3.1. �� APMを徹底的に使いこなし、開発・運用に組み込む 3.2. 周辺サービスとのService Mapを拡充する 3.3. SLOを整備して、アラートとCUJを直結させる 3.4. o11yツールの市民権を獲得して、全員が使えるようにする 4. まとめ ©Uzabase, Inc. All Rights Reserved.

15.

ユーザーに価値を届ける上で、とにかくユーザー視点を優先する 03 書籍『入門監視』より ❝ まず監視を追加すべきなのは、ユーザがあなたのアプリケーションとやり取りをするところです。Apacheのノードが何台動いているか、ジョブに対していくつのワーカが使用可能かといったアプリケーションの実装の詳細をユーザは気にしません。ユーザが気にするのは、アプリケーションが動いているかどうかです。とにかくユーザ視点を優先した可視化が必要です。最も効果的な監視ができる方法の1つが、シンプルに HTTPレスポンスコード(特にHTTP 5xx番台)を使うことです。その次として、リクエスト時間(レイテンシとも言う) も有益です。このどちらも何が問題なのかは教えてくれませんが、何かが問題で、それがユーザに影響を与えていることは分かります。 ©Uzabase, Inc. All Rights Reserved. ❞

16.

03 効果的かつ効率よくモニタリングできるAPMに全振りするユーザーに近い ● ● Synthetic Monitoring, RUM(Real User Monitoring) ○ Synthetic Monitoringはすべてのユーザーストーリーを監視するにはコストが高すぎる ○ RUMは一般的な製品ではWebのみの機能。スマホアプリが中心の事業では適さない APM(Application Performance Monitoring) ○ ● APIエンドポイントごとのHTTPレスポンスコードやレイテンシがわかりユーザーストーリーに接続できる Infrastructure ○ CPU・メモリ・ディスク使用率、タスク数などユーザーが使えているかどうかを示すものではない ○ 例えばApplication Load BalancerのCloudWatchメトリクスでは全体のレスポンスコードやレイテンシしかわからないので、一部のクリティカルなAPIが落ちてもわからないユーザーから遠い →俺はたった今からインフラのメトリクスを捨てる！(インフラ歴13年選手) ©Uzabase, Inc. All Rights Reserved.

17.

18.

03 コードを読む前にAPIの内部処理がざっくり理解できる💡 あるAPIのトレースのセグメントブレークダウン ● ● ● ● DynamoDBのどのテーブルにgetItem/batchGetItemしているか MySQLのどのテーブルにselect/updateしているか Redisのzscore(ソート済みセットのスコア確認)などオペレーション xxx.ne.jp に外部HTTPアクセスしている →開発をする時にAPIが何をしているかの理解の助けになる「この分岐は本番では通らないからロジック廃止できるのでは」の確認ができるどの処理に時間がかかっていてパフォーマンス改善の余地があるかがわかる ©Uzabase, Inc. All Rights Reserved.

19.

03 本番のトラブルシューティングでロールバック判断に使う New RelicのDeployment Marker(Change Tracking)を見て特定のリビジョンのデプロイが障害の原因と判断してロールバックする運用 CI/CDのデプロイ時にマーカーデプロイしたユーザーとrevisionの情報を New Relicに連携→グラフにデプロイの縦線が入る ©Uzabase, Inc. All Rights Reserved. デプロイの特定デプロイしたユーザーとrevisionを特定し、リリース内容の影響を確認し、ロールバック

20.

00 本日のアジェンダ 1. NewsPicksの開発体制とサービスの運用体制 2. 開発・サービス運用の課題意識 3. プロダクト開発エンジニア全員でオブザーバビリティに取り組む 3.1. APMを徹底的に使いこなし、開発・運用に組み込む 3.2. �� 周辺サービスとのService Mapを拡充する 3.3. SLOを整備して、アラートとCUJを直結させる 3.4. o11yツールの市民権を獲得して、全員が使えるようにする 4. まとめ ©Uzabase, Inc. All Rights Reserved.

21.

03 共通バックエンドから、周辺システムにも広げていくバックエンドの後ろのマイクロサービスの障害のユーザー影響を知りたい結局どのユーザー操作に影響があるのか New Relic APM Agent スマホアプリ共通バックエンド (Spring) Web Web(Next.js) 課金広告配信検索 BFF(Apollo) フィード →各システムにNew Relic APM Agentを導入して分散トレーシングを行う ©Uzabase, Inc. All Rights Reserved.

22.

23.

00 本日のアジェンダ 1. NewsPicksの開発体制とサービスの運用体制 2. 開発・サービス運用の課題意識 3. プロダクト開発エンジニア全員でオブザーバビリティに取り組む 3.1. APMを徹底的に使いこなし、開発・運用に組み込む 3.2. 周辺サービスとのService Mapを拡充する 3.3. �� SLOを整備して、アラートとCUJを直結させる 3.4. o11yツールの市民権を獲得して、全員が使えるようにする 4. まとめ ©Uzabase, Inc. All Rights Reserved.

24.

25.

03 ユーザー体験を開発チームにヒアリングし、CUJを確認チームのミッションクリティカルユーザージャーニーエンドポイント読者の体験改善ニュース記事の閲覧 ● 外部記事閲覧 ● オリジナル記事閲覧ニュースフィード閲覧 ● ニュースフィードトップ ● カテゴリタブニュースのPICK・コメント ● PICK・コメント ● コメント削除フォローリ��ト表示 ● フォローフィード取得新規登録 ● ● ● ● ● ● 投��者の体験改善新規ユーザー獲得 ©Uzabase, Inc. All Rights Reserved. Appleサインアップ・ログイン Facebookサインアップ・ログイン Googleサインアップ・ログイン Twitterサインアップ・ログイン Linkedinサインアップ・ログインメールアドレスのサインアップ・ログイン

26.

27.

03 SLOモニタリングをセルフサービスで設定できる仕組みを提供エンドポイントごとのSLOモニタリングリポジトリ (GitHub) 開発者 CDK for Terraform 反映設定(PR) cdktf deploy ダッシュボード確認チームチャンネルに通知 Slack アラート ©Uzabase, Inc. All Rights Reserved. New Relic ● ● ● ● ● Service Levels Dashboard AlertPolicy AlertConﬁtion Workﬂow

28.

03 開発チームはエンドポイントとSLOを設定してPR出すだけエンドポイントごとのSLOモニタリングリポジトリ (GitHub) 開発者設定(PR) CDK for Terraform 反映 cdktf deploy ダッシュボード確認チームチャンネルに通知 New Relic Slack アラート ● APIエンドポイント ● SLOターゲット ● ターゲットレイテンシー目標 ● 担当チーム ©Uzabase, Inc. All Rights Reserved. ● ● ● ● ● Service Levels Dashboard AlertPolicy AlertConﬁtion Workﬂow

29.

03 cdktf deployでNew Relicのリソース一式が反映されるエンドポイントごとのSLOモニタリングリポジトリ (GitHub) 開発者 CDK for Terraform 反映設定(PR) cdktf deploy ダッシュボード確認チームチャンネルに通知 Slack アラート ©Uzabase, Inc. All Rights Reserved. New Relic ● ● ● ● ● Service Levels Dashboard AlertPolicy AlertConﬁtion Workﬂow

30.

03 SLO・バーンレートからアラート閾値の自動計算、Slack通知これはCDK for Terraform + TypeScriptのかなり大きな利点エンドポイントごとのSLOモニタリングリポジトリ (GitHub) 開発者 CDK for Terraform 反映設定(PR) cdktf deploy ダッシュボード確認チームチャンネルに通知 Slack アラート ©Uzabase, Inc. All Rights Reserved. New Relic ● ● ● ● ● Service Levels Dashboard AlertPolicy AlertConﬁtion Workﬂow

31.

03 アラートを受けてダッシュボードを見れば、SLO違反の原因となったエンドポイント・デプロイの特定まで可能エンドポイントごとのSLOモニタリングダッシュボードにチーム別のタブがありチームの担当エンドポイントを確認できるリポジトリ (GitHub) 開発者 CDK for Terraform 反映設定(PR) cdktf deploy ダッシュボード確認チームチャンネルに通知 Slack アラート New Relic ● ● ● ● ● Service Levels Dashboard SLO準拠状況タイムライン AlertPolicy AlertConﬁtion Workﬂow Transaction / DeploymentMarker ©Uzabase, Inc. All Rights Reserved.

32.

00 本日のアジェンダ 1. NewsPicksの開発体制とサービスの運用体制 2. 開発・サービス運用の課題意識 3. プロダクト開発エンジニア全員でオブザーバビリティに取り組む 3.1. APMを徹底的に使いこなし、開発・運用に組み込む 3.2. 周辺サービスとのService Mapを拡充する 3.3. SLOを整備して、アラートとCUJを直結させる 3.4. �� o11yツールの市民権を獲得して、全員が使えるようにする 4. まとめ ©Uzabase, Inc. All Rights Reserved.

33.

03 オブザーバビリティ(o11y)にはお金がかかる New Relicのプライシングモデルはみんなで使うとお高い ● オブザーバビリティの活用にはネットワーク効果がある ○ みんなで使って複数のシステムに導入するほどサービス全体でわかることが増えて便利になる（分散トレーシング） ○ ● みんなで使うとノウハウが共有され習熟度が上がる高い。高いがみんなで使っていきたい・・・ ○ New Relicは一部のシステムにしか導入されていないとか、一部のエンジニアしか使えないから野良o11yツールが導入されるのは避けたかった ©Uzabase, Inc. All Rights Reserved.

34.

03 エンジニアへの普及とAWSコスト削減を合わせて段階的に購入量を増やす活用を広げて効果を説明し、コスト削減で予算を交渉しながら徐々に市民権を獲得した 2021 2022 2023 2024 New Relic FSO 6ライセンス (SREのみ) New Relic FSO 12ライセンス (SRE+Webリアーキチーム) New Relic FSO 20ライセンス (SRE+Web+シニアエンジニア) New Relic FSO 50ライセンス (エンジニア社員ほぼ全員) AWSコスト削減 ©Uzabase, Inc. All Rights Reserved. AWSコスト削減 AWSコスト削減

35.

36.

37.

04 ● まとめオブザーバビリティに取り組むのは、サービスやユーザーのことを理解したいから ○ 事業ミッションやユーザーストーリーにコミットするストリームアラインドチームが使いこなして開発生産性やトラブルシューティングの効率を改善するアウトカムが重要 (DevOpsのFour Keysには変更失敗率や平均修復時間もあります) ○ そのためSREチームとしてAWSコストを削減して、プロダクト開発エンジニア全員に使ってもらえるように導入・普及する活動を推進しました ○ オブザーバビリティというとOpenTelemetryなど計測の実装技術に注目されがちですが、『開発組織で使いこなす』『そのために普及し予算を確保する』も大事だと思います ● プロダクト開発エンジニア全員で使いこなす道を選んで、もはや日常業務のインフラです ○ 計装の技術をおもちゃにして遊ぶよりも組織で使い��なして他社と差をつけよう！ ○ ただ、オブザーバビリティの商用サービスはもう少し安くならないかなぁ・・・ ©Uzabase, Inc. All Rights Reserved.

38.

https://tech.newspicks.com/