レンタルサーバーやクラウド、ハウジングサービスといった、ネットワークの基盤を支えるサービスは、どんな時でも当たり前に稼働し続けることが求められます。しかし、この「当たり前」を実現するには、地震や台風といった、予測のつかないリスクへの備えが不可欠です。
さくらインターネットは、2018年9月に発生した北海道地震の際にも安定した運用を継続し、利用者に安心感をもたらしました。同社のサービスが安定運用を続けることができるのはなぜか? 先日紹介したデータセンター運用に続き、今回はネットワークの安定運用に焦点を当て、同社の技術本部ネットワークグループの3名に聞きました。
※この記事は、さくらインターネット株式会社によるSponsoredContentです。
Profile
-
山口勝司さん(やまぐち・かつし)
さくらインターネット株式会社 技術本部ネットワークグループ
-
西村一弘さん(にしむら・かずひろ)
さくらインターネット株式会社 技術本部ネットワークグループ GM
-
東 常行さん(ひがし・つねゆき)
さくらインターネット株式会社 技術本部ネットワークグループ 部長
石狩、東京、大阪を結ぶトライアングルネットワークが冗長性をつくりだす
──レンタルサーバーやクラウドなどのサービスを安定して提供するためには、さまざまなリスクを想定した設計や運用が必要になると思います。前回、主に石狩データセンターの運用についてはお聞きしましたが、他の地点にあるデータセンターも含めてどのような特徴があるのでしょうか。
西村 さくらインターネットでは東京、大阪、北海道と、地理的に離れた3箇所にデーセンターを置き、それぞれ独立したネットワークを構成しています。その三つをあわせたものが「さくらインターネット」となっています。
山口 ネットワークの全容は、以下の図を見ていただくとわかりやすいです。
山口 東京と石狩の間、大阪と東京の間はそれぞれ100Gbpsの回線2本、大阪と石狩の間は100ギガの回線1本で、三角形を作るような形で接続しています。合計5本の線を使って、フルメッシュに近い形で機器を接続し、冗長性を担保する設計になっています。
以前は大阪と石狩をつなぐ回線はなかったのですが、2019年1月に新設し、現在の構成にアップデー���されたのです。過去、大阪と石狩間のデータのやりとりは東京を経由していたため、東京地域に大きな災害が起きた場合、ネットワーク全体に影響が出てしまうリスクが想定されましたが、備えをより強固にしたのです。また、回線距離が短くなり、石狩と大阪の両方でサーバーをご利用いただいているお客さまの場合、遅延が削減できるという効果もあります。
回線が2本あるところは、それぞれ別のルートを通る線を採用しています。東京・石狩間の場合は太平洋側と日本海側を抜けるルート、東京・大阪間では太平洋側と長野県の中央自動車道の辺りを抜けて行くルートを採用しています。災害が起きて、仮に1本が切れた場合でも、もう1本の回線でサービスが維持できるようにしているわけです。
西村 ちょっと昔の話になりますが、東日本大震災発生の前日、3月10日が石狩データセンターの起工式だったんです。さあ回線工事、と考えたいた矢先、翌日の地震と津波によって、通信事業者に確保していただいていた東京までの海底ケーブル2系統が両方とも被害を受け、設計どおりの回線工事ができなくなってしまったのです。
その後、通信事業者に再設計していただき、2本のうちの1本は陸路にしたほうがよいとの提案があり、陸路・海路、別々のルートを通るような構成を採用したんです。
──やはり自然災害が頻繁に起こる日本では、その対���が重視されているんですね。実際に石狩データセンターは、2018年9月にも大地震に見舞われていますが、その時はいかがだったのでしょうか。
西村 それがネットワーク的には何の障害も発生しなかったので、「誤った情報が流れているんじゃないか」と逆に怖くなったくらいでした(笑)。
将来的にはトラフィックの量も見つつ、石狩・大阪間の回線も2本に増強する予定です。ただ、すでに石狩・東京間に通っている2本を含めると、東北地方周辺に4本の回線が通ることになります。日本列島は細長いので、回線間の距離を大きくとることが難しく、冗長性の確保に頭を悩ませながらの設計になりますね。
──回線の物理的な障害に備えて、あらかじめ別のルートを用意することでリスクを低減しているということですね。ほかには何か障害を防ぐ設計はされていますか?
山口 拠点間の接続に関しては、以前は回線の上で直接BGP(Border Gateway Protocol)というルーティングプロトコルを動かしていました。BGPの経路数は80万という大量の数に及ぶため、経路の切り替えの処理に時間がかかり、長い時は10数分程度、通信が不安定な時間が発生するという問題がありました。2018年頃からはMPLS( Multi-Protocol Label Switching )という技術を採用し、MPLSの上でBGP接続を行う複数層のネットワーク構成に変更しています。
MPLSの仕組みの中にファーストリルートと言われる仕組みがあり、切断を検出してからmsec単位での短時間で経路の切り替えができる設計になりましたので、お客様からは瞬断かほぼ断絶なしに見える仕様になりました。
▲回線障害発生時の動作イメージ。Primaryパス回線(緑線)に障害が発生した場合、Secondaryパス1(赤線)に瞬時に切り替わる。さらに東京↔石狩間の2本の回線に障害が発生した場合、大阪を経由したSecondaryパス2(オレンジ先)に切り替わる仕組みだ。 画像出典:『東京・大阪・石狩を結ぶ100Gbpsネットワーク 〜さくらのバックボーンネットワークの設計と運用(1)〜』より
西村 インターネットには、それぞれの拠点ごとに経路を確保しています。対外接続の回線容量は随時増強し、現在の対外接続の総計は、データセンター専業事業者としては最大規模の1.56Tbpsの容量となっています。
拠点間の通信が不安定になったとしても、それぞれに独立したインターネットへの出口があるので、通信を確保できます。
山口 石狩の外部接続はKDDIの1社になります。北海道では大きい帯域を提供できる事業者さんの選択肢が少なく、価格も高いという問題があるため、東京や大阪ほどは用意できないというのが理由としてあります。安定性はもちろんとして、通信原価も事業者選定の条件になります。
石狩が東京と大阪両方に直接接続したことで、外部接続に関しても、以前に比べて冗長性を高めることができました。石狩の外部接続は少ないため、インターネットに接続する場合、東京や大阪を経由するルートを通る場合も多いのですが、例えば大きな災害が起きて東京が機能停止するような事態になったら、石狩の通信にも影響が出てしまいます。しかし、大阪経由でも外部につながるようになったため、安定した通信を確保できるようになったのです。
──ネットワークの冗長性担保には非常に注力されているのですね。ハードウエア導入や運用では安定性確保にどのような努力をされているのですか?
山口 新しいネットワーク機器の導入時や、新規機能を使い始めるときには、かなり厳密なテストを実施しています。似たような環境をラボで再現して、様々なケースを想定した動作確認を行ったり、作業手順の確認をあらかじめ実機を使ってテストしたりしたうえで、実際の作業を行うといったことを進めています。
東 人がオペレーションをする以上、必ずミスは発生します。だからこそ、原因の究明や再発防止策を考えるほか、ミスが発生しない仕組みを作ることが重要です。防止策として、電源やケーブルの抜き差し、オペレーション時のコマンドラインの確認など、重要な作業は必ず2人ペアで確認し合ってから行っています。また、もっと根本的なところで、人が行うオペレーションの自動化の検討も始めています。
ネットワークの中の人が見る、トラフィックのいま
──ネットワークやトラフィックは、今どのような状況にあるのでしょうか
東 普段からトラフィックは頻繁にチェックしています。最近の状況で興味深いことというと、3月の1週目から通信量が増加しているんですね。コロナウィルス感染症の拡散防止のため、在宅勤務が増え始めたことが要因だと推測できます。
あと、特異的なこと���言えば、2019年の9月と10月に全体としての通信量が劇的に減ったことがありました。これは大型の台風(15号、19号)が原因で、細かく見ると多くの人が外出を控えたため移動体向けの通信が大きく減り、一方で家庭向けの通信は増えていました。もう少し長い期間で観測し、年単位で見た場合、10年前の総通信量と比較すると、現在の総通信量は約5倍にまで増加しています。
──通信量の増加は容易に想像がつきます。しかし、それは同時にネットワークの圧迫にもつながると考えられます。さくらの回線はいまどのような状態にあるのでしょうか?
東 現在のバックボーンの総容量は1.56Tbpsありますので、現在の総通信量に対してもかなり大きなキャパシティがあります。外部に抜ける箇所が限られているという要因はありますが、かなりゆとりをもった設計と言えますね。
山口 回線容量はトラフィックの増加を想定して増強していっています。今まで主流だった10Gbpsの回線から、100Gbpsの回線にどんどん切り替えていっているので、この1年ほどで総容量は激増しています。
また、ここ2年くらいの傾向ですが、マルチクラウドで弊社のクラウドとAWSやGCPを併用しているお客様が増え、クラウド間のトラフィックが大きく伸びているという動向があります。それに合わせてクラウド事業者さんとの接続も増強しています。
東 そのほかの変化としては、トラフィックの量の増加のほか、サービスの質が変わり、外部にトラフィックが出ないサービスが多くなってきたという傾向もあります。これに伴って、データセンターの内部通信が増えていますね。これまで主流だったレンタルサーバーやVPSの他にも、専用サーバやクラウド、高火力コンピューティングなど、トラフィックを使うよりも内部のコンピューティングリソースを利用するサービスが増えてきたということがあります。
──なるほど。そうした新たな傾向はみなさんの業務ーーネットワークの設計にはどのような影響を与えているのでしょうか。
西村 先ほど紹介したようなトラフィックの状態から、今後どのような方針でネットワークを構築し、増強を行えばよいのかということを常に考えています。ほかに外部的要因と内部的要因というのは考えるべきところですね。
外部的要因というのは、例えば外部の通信事業者の傾向として、モバイル型の通信が増えていることは明らかですので、そちら側の接続回線を増やしていこうという方針があります。一方で、内部的要因というのは、先ほども触れましたが、コンピューティングリソースを使うサービスをメインとしていくなら通信量は爆発的に増えないだろうということです。石狩は電気代が安いので、CPUの処理能力を商材とする、通信遅延を気にするお客様に対しては外部への回線が太い東京のデータセンターを使っていただくというようなところです。
山口 ゲームや広告用途では、通信遅延が発生しないことが求められていますので、外部への接続先も積極的に増やし、できるだけ最短ルートで到達できるように意識しています。災害時の迂回路や十分なキャパシティの確保、突発的な大量のトラフィックへの対応など帯域的な品質にも非常に気を使っています。
西村 現場のオペレーションスタッフでも、トラフィックが急激に増えたときの対応を行っています。自動的にアラートが出る仕組みを作り、そのアラートを見て、どの回線に輻輳が発生しそうか見極めて対応策を検討し、実施するということをやっています。
ネットワークを「湯水のように」活用してほしい
──サービスの改善や設計は、どのように進めているのでしょうか?
山口 だいたい3年後くらい先のことを見据えて計画し、設計を行っています。ネットワークの更新なども、それくらいの長期計画で進めることが多いです。
東 時間がたつに従って、速い回線の価格が下がって一般的になったり、より高速なインターフェイスが出てきたりするなど、状況は変化して行きます。3年程度のスパンであれば予想できますが、それより長期でものを見ても、世の中が大きく変わる可能性も高くなり、都度、改めて考えていく必要があります。
西村 通信インフラの準備は、通信業者さんにリクエストして、次の日には増強する、というものではありません。かなり前のことになりますが、動画コンテンツを扱っているお客様が入ったとき、用意していた回線の帯域をあっという間に使い切ってしまったということもありました。しかし今はトータルの通信容量をかなり増強しましたので、自信をもって対応できます。
──3年後の社会を支えるインフラを、今から作り始めているんですね。最後に、みなさんがネットワークという領域で、今後、お客様にどのような価値を提供していきたいかを聞かせてください。
東 先ほどクラウド業者さんとの接続ニーズが高まっているという話をしましたが、エッジコンピューティング(高速レスポンスが処理に対し、クラウドを経由せず、ユーザー / デバイスに物理的に近いリソースで処理する技術)の方で提供できるものがあるのではないか考えています。エッジコンピューティング特有の問題として、ユーザーから近い距離にサーバーを置かなければ意味がありません。そのため、多様な設置場所が必要になりますが、いまはそこを検討している段階です。VPSの接続やクラウドサービスへの接続に関しても、今より簡単に、意識せず、安心して使えるようなネットワークサービスを目指して行きたいと思います。
西村 我々はデータセンター事業者という“箱”を基本としたサービスです。つまり、サービスを利用いただく方々、コンテンツを持っているお客様の成長こそが、我々の成長の原動力となります。それだけに、我々が大事にしている方針は「ネットワークがお客様の成長の足かせにならないように」です。お客様には、ぜひ湯水のごとくネットワークを活用していただきたいのです。例えば、我々の提供する「さくらのクラウド」ではお客様にネットワーク課金を行っていません。コンテンツ配信系サービスなど、高トラフィックが必要なサービスを運営されているお客様でも、存分にネットワークを活用いただけると思います。
山口 お客様が使いたいと思った時に、使いたい構成で、必要な帯域速度が常に高品質で使える状態を維持していくことが重要だと思います。今後ということでは、まだ具体的に言えるような段階ではありませんが、回線の帯域を増やす以外にも、お客様がより自由にネットワーク構成を組めるようなバックボーン設計にも取り組んでいきたいですね。
▲新型コロナウィルス感染拡大防止の観点から取材はリモートで行われた。
[SponsoredContent] 企画・制作:はてな
取材・構成:森嶋良子