400G超通信におけるMPOコネクタの品質について考えよう!

さくらのナレッジ編集部の法林です。

2025年1月22日(水)-24日(金)の3日間、京都市勧業館みやこめっせにてJANOG55ミーティングが開催されました。そこで実施されたセッションの中から、1月24日(金)に行われた「400G超通信におけるMPOコネクタの品質について考えよう」の模様をレポートします。発表者は、NTTアドバンステクノロジ株式会社の藤原稔さんと村上雅之さん、当社の東常行と平田大祐です。

発表者の藤原さん、村上さん、東、平田 (左から)

セッションの概要

セッションの詳細をレポートする前に、全体像としてどのような発表が行われたのかを紹介します。

さくらインターネットでは生成AIをはじめとするGPU利用のためのサービスとして「高火力」シリーズを提供しています。前回のJANOGミーティング(JANOG54)では「生成AI向けパブリッククラウドサービスをつくってみた話」と題して、高火力 PHY(NVIDIA H100を搭載した物理サーバ)のサービス開発、特にネットワークインフラの構築について発表しました。さくらのナレッジでもレポートしていますが、GPU基数が2000超、ネットワーク速度が400Gbpsという超高速かつ大規模な基盤です。

生成AI向けネットワーク基盤の全体像

今回の発表は、その生成AI向けネットワーク基盤を構築する際に発生したトラブルと原因の究明、そして解決までを追ったものです。特にトラブルの原因がMPOコネクタ(複数の光ファイバーを一括接続できる接続端子)によるものであったことから、MPOコネクタの構造や特性についての詳しい解説がありました。

発生したトラブル

今回構築したネットワーク基盤のうち、問題が発生した区間の模式的な構成図を上に掲げます。スイッチ側は400Gで接続していますが、これを200G×2系統に分割し、パッチパネルを経てサーバ側ラックに接続しています。

このうち200Gで接続している区間の一部において、通信不良やリンクフラップ(接続と切断を繰り返す状態)が発生しました。発生状況に規則性が見られず、対応に苦慮しましたが、問題が発生している区間は伝送損失(IL: Insertion Loss)が大きいことから推測して当該区間のMPOケーブルに不良がある可能性を疑い、ケーブルを交換してみたところ症状が改善しました。このことから、MPOケーブルやコネクタについて調査を行っていきました。

MPOコネクタの形状や特性の解説

このあと、MPOコネクタの形状や特性について、藤原さんと村上さんから詳細な解説がありました。本セッションの持ち時間はディスカッションを含めて60分ありましたが、そのうちの半分弱の時間をこれに費やしました。お二人に登壇いただいたのは、当社が本件の原因究明に奔走する中で、JANOGで面識があり、過去のJANOGミーティングでもMPOコネクタに関する発表をされていた藤原さんに相談したところ、的確な情報提供や検証への協力をいただき、原因を特定できたという経緯によるものです。

回収したケーブルの光学特性測定結果

調査のはじめに、まず不良の疑いがあるMPOケーブルの光学特性を測定しました。その結果、挿入損失(IL)が大きく良好な品質とは言えないこと、さらに反射減衰量(RL: Return Loss)が非常に大きく、ファイバー同士が正常に接続されていないのではないかと推測されるほどの値を示していました。

そこで次に、コネクタの端面がどのような状態になっているかを三次元形状測定器を使って調べました。この測定器ではIEC PAS 63267-3-31というマルチモード用MPOコネクタの規格に合致しているかどうかを検査しますが、結果としてはコアディップという項目が規格値である120nmを大きく超える500nm程度の値を検出しており、規格に適合していないという結果になりました。コアディップはMPOコネクタの端面を研磨する工程で生じる凹凸で、これが大きいと接続面に空洞ができてしまって反射が増大し、性能が悪化します。

コアディップのサイズ別に品質を測定

そこで次の調査として、コアディップがどこまで性能を悪化させ、通信に影響を及ぼすかを検証しました。

まず多数のメーカーからMPOケーブルを買い集め、コアディップのサイズを測って選別し、以下の4種類のサンプルを用意しました。

  • (A) コアディップがほとんどない高品質なファイバー
  • (B) コアディップは存在するが規格値(120nm)以下の標準的なファイバー
  • (C) 120nmを超える大きなコアディップを持つ低品質なファイバー
  • (D) 120nmを大きく超える特大のコアディップを持つ粗悪品のファイバー

これらのサンプルを組み合わせて接続し反射減衰量を測定した結果が上のスライドです。(D)の粗悪品を使用するとどんな組み合わせでも反射減衰量が非常に大きくなることや、(C)のような低品質なファイバーを使った場合も通信規格で要求される反射減衰量(-20dB)よりも悪い値(-19や-17など)になってしまう例が多いことがわかります。

石狩データセンターでさらに検証

このように大きなコアディップがあると通信品質が劣化することがわかったところで、当社で発生しているトラブルがこれに起因するものかどうかを確認するために、本件のネットワーク基盤が存在する当社の石狩データセンターにこれらのサンプルを持ち込み、症状が再現するかどうかをテストしました。反射減衰量が規格値を下回るサンプルを接続したところ、リンクフラップが発生しました。また、この状態でコアディップが影響しないような処置をしてみたところ、リンクフラップが収束しました。よって、コアディップによって反射が大きくなることが今回のトラブルの一因であると推定するに至りました。

コネクタの端面形状もトラブルの原因に

ところが検証を重ねていく中で、コアディップが規格値以内のサンプルを組み合わせているのに、反射減衰量が極端に悪い値を示す例も散見されました。上のスライドで-17や-18といった値を示している箇所がそれです。この事象をさらに詳しく調査したところ、コネクタの端面形状に問題がある場合にも劣化が発生することがわかりました。

MPOコネクタ端面形状の主要パラメータとして、マイナスコプラナリティ、フェルールX軸端面角度(X角度)、フェルールY軸端面角度(Y角度)といったものがあります。これらの値が悪いファイバーは端面形状に問題があるので接続相手のファイバーとの接触性が悪化し、それが反射の増大、すなわち性能の低下を招きます。

このような端面形状のばらつきが起きる原因としては、端面の研磨工程の巧拙が挙げられます。上のスライドは研磨工程を解説したものですが、非常に繊細な作業であり、高い技術が求められます。つまりメーカーの技術力の見せ所で、この巧拙によって端面形状の品質に大きな差が出ます。ちなみにコアディップは上記の研磨工程のうち最後の仕上げの部分で発生します。ていねいに研磨するときれいな端面になりますが大きなコアディップが発生しやすいというトレードオフがあるそうです。

スイッチ側のトランシーバはAPCコネクタを使用

端面形状の話題に関連して、上記の構成図の左側にあるスイッチ側のトランシーバではAPCコネクタを使用していることにも触れました。APC(Angled Physical Contact)コネクタとは、端面が直角ではなく少し傾いているものです。こうすることで端面の形状不良による反射の影響を低減することができます。

上の図はAPCコネクタを使用して反射減衰量を測定したものです。低品質/粗悪品のケーブルを使用してもAPCコネクタで接続すれば反射減衰量を低く抑えられることがわかりました。もっともこれは400G程度の通信における話で、もっと高速な通信になるとAPCコネクタを使用しても接続不良などの問題が起きてくるかもしれないとのことです。

問題の解決に向けて

発表の最後に、これらの検証を経て当社がどのような対策を行ったかの話がありました。

ネットワーク構成の変更

まずネットワーク構成を上図のように変更しました。400Gを200G×2系統に分割するブレイクアウトケーブルを廃止し、スイッチとサーバの両方に400Gのトランシーバを設置して、シングルモードのMPOケーブルで接続しています。シングルモードにした経緯としては、マルチモードの400Gで構築しようとすると機材の調達が難しくなるからです。構成変更の結果、以前のように頻発していたトラブルは解消され、安定して稼働するようになりました。

しかし、代わりに浮上した問題はコスト増です。マルチモードで構築していたときに比べて構築費用は1.6倍になりました。特に本件のネットワーク基盤はこれらの機材を数百〜数千台といった規模で購入して構築しているので、1.6倍というのは金額にすると莫大なコスト上昇になってしまいます。そう考えると今後構築するネットワーク基盤をすべてシングルモードで…というのは費用面を考えると難しいと言わざるを得ません。そこで、これまでの構築・運用経験から安心してマルチモードを採用できると思われる箇所については引き続きマルチモードを採用することにしました。

MPOケーブルの調達先変更

それから、今回のトラブルを踏まえて、MPOケーブルの調達においても品質を厳しくチェックするようにしました。挿入損失の値だけでなく反射減衰値や形状規格も確認し、それらの検査に合格している証跡付きのMPOケーブルを購入するようにしました。その結果、リンクフラップのような障害が発生することはなくなり、安定したネットワーク基盤を稼働させることができるようになりました。

MPOコネクタ選定で気を付けるべきこと

また、今回の件で得た知見として、MPOコネクタ選定においてはコネクタの端面形状の品質を要求仕様に盛り込んだ方が良いことを挙げました。具体的にはIEC PAS 63267-3-31という形状規格があるので、これを満たすようなものということになります。

ちなみに現在発売されているMPOケーブルの中には「低ロス品」と銘打ったものがありますが、これは挿入損失の値が良いものであり、反射減衰値が良いわけではないので注意が必要です。挿入損失を少なくするにはファイバ位置の精度を高める必要がありますが、異なるメーカーのケーブルを接続すると位置ずれが起きて精度が下がるので、同じメーカーのケーブルでそろえた方がよいようです。

ディスカッション

一通りの発表を終えた後、参加者を交えたディスカッションの時間がありました。質疑応答の模様を紹介します。

質問者: 光ファイバーやコネクタの接続テストはどうするのがよいと考えていますか?
村上: テスト方法については明確な答えは持ち合わせていません。まずはきちんとしたものを購入するとか、端面形状を指定して購入するのがよいと考えています。

質問者: 端面の計測や品質調査を自分たちでやるのは大変なので、今回のように検査結果が添付されたケーブルやコネクタは非常に良いと思ったのですがどうですか?
東: 確かに良いですが、数量が多いので検品が大変だったり、1つずつビニール袋に入っているのでゴミの量が相当多くなってしまうのが難点ではあります。
藤原: でも品質が担保されているのはとても重要ですね。

質問者: APCコネクタに変えると粗悪品ケーブルを接続しても不良が治ったという話ですが、そのときのAPCコネクタは粗悪品メーカーの物を使ったのですか?それとも検証者側で磨いて作ったのですか?
藤原: APCコネクタはもともとそのように加工されたものを買いました。

質問者: 我々もクリーナーの検証を行っているのですが、清掃したときにコアの部分を顕微鏡で見ると結構汚れが残っていたいします。そこで質問ですが、クリーニングした後にどれぐらい汚れが付着しているかという情報は持っていますか?
藤原: コアディップがあったりすると、そこに微細な物が入ってしまうと確かに取れないですね。これについては検証していないので、またの機会に確認してみたいと思います。

おわりに

今回のトラブルの原因になったMPOケーブルのコアディップの大きさはナノメートル(10億分の1)規模という非常に小さなものですが、このような極小サイズの凹凸が数百Gbpsのネットワークの性能劣化やひいては障害を引き起こすことを知り、現代のインターネットはこのような高精細な技術に支えられていることに驚きました。また、その問題を解決するにあたり、JANOGで知り合った人に協力をお願いし、その成果をまたJANOGに還元するという、コミュニティの良さが感じられる発表でした。

発表内容はとても専門性の高いものでしたが、JANOG55の参加者アンケートにおけるプログラムの評価では全プログラムの中で最高点を記録したようです。高評価をいただきありがとうございました。JANOGのウェブサイトに本セッションの紹介ページや資料、動画(期間限定公開)がありますので、さらに詳しく知りたい方はぜひご覧ください。

それではまた次回のイベントでお会いしましょう!