4か月で世界ランク49位へ:オープンネットワーキングとSONiCで築いたGPUスパコン「さくらONE」の裏側

2025年6月14日、さくらインターネットが自社構築したマネージドHPCクラスタ「さくらONE」が、国際的なスパコンの処理性能ランキングTOP500(https://www.top500.org/lists/top500/2025/06/)において世界49位を獲得しました。この記事では、その開発の様子を解説します。
The Linux FoundationにUser storyとして寄稿した次の記事を、さくらのナレッジ編集部で日本語化・再整理したものです。
目次
開発の背景:AI開発を支える堅牢かつ持続可能な計算基盤の提供を目指す
多様な業務を効率化できる生成AIや大規模言語モデル(LLM)の需要が急速に高まる中、これらの技術開発を支えるインフラ基盤として、高性能なスパコンの重要性が増しています。スパコンは製造業や医療、金融など、さまざまな産業分野にてAI分野における研究および開発を加速させるための中核的なインフラとしての活用が進んでいます。
さくらインターネットは、こうした生成AIの急速な普及に伴う計算インフラ需要の拡大に対応するため、次世代GPUの継続的な調達と、自社データセンターでの安定的な運用体制の整備を進めています。中でも、デジタル社会の持続的な発展に貢献するデジタルインフラ企業として、生成AI向けクラウドサービスを提供しつつ、今後も増大する需要に対応するために取り組んでいるのが、次の課題です。
- 特定のベンダーに依存しない供給:特定のGPUメーカーや海外サプライチェーンに依存せず、多様な調達経路を確保する
- 中立性の高い技術の採用:オープンスタンダードや相互運用性を重視した「中立的な技術基盤」を採用することで、急速に進化するAI技術に柔軟に対応できる体制を整える
- デリバリー速度の強化:生成AI関連の研究や事業開発はスピードが勝負となるため、クラウドリソースのデリバリーを迅速化し、お客様がすぐに利用できる体制を構築する
これら3つの課題の解決を目指すことで、さくらインターネットは国内外のAI開発を支える堅牢かつ持続可能な計算基盤を提供し、デジタル社会の持続的な発展に貢献することを目指しています。
技術選定:オープンでデリバリー速度を強化できるSONiCを選択
この課題を解決するため、新たな800基のGPUクラスタを稼働させるためのネットワークOSとして、SONiCを導入しました。SONiCは、オープンソースのネットワークオペレーティングシステム(NOS)で、複数ベンダーのスイッチハードウェアやチップセット上で動作することを特長としています。Debian/Linuxベースで実装された透明性の高い構成を特徴としており、世界中のコミュニティによる活発な開発支援を受けながら活発に開発が続けられています。そのため、下記のような強みがあり、私たちの抱える課題を解決できると考えました。
- 特定のベンダーに依存しない:Debian/Linuxベースで実装されており透明性が高い
- 中立性の高い技術の採用:世界中のコミュニティの支援のもと、新機能の開発が活発である
- デリバリー速度の強化:Linuxサーバーと同じ技術で、オペレーションの効率化を目指せる
さくらインターネットには、OSSの活用とボトムアップな文化が浸透しています。今回の事例に限らず、全社的にLinuxをはじめとしたオープンソースを活用することで、新規性の高いサービスを迅速にお客様へ提供してきました。そして、その陰には、エンジニアが自ら課題を発見し、OSSを活用して解決するマインドが根付いています。
オープンソースをベースとしたSONiCの存在は、これらのさくらインターネットの価値観にもフィットしていたことも、採用の大きなモチベーションとなりました。
SONiCの活用で、4か月でGPUインフラを構築
今回、SONiCを活用することで、4か月という短期間でGPUインフラを構築することに成功しました。その後、さくらインターネット研究所を中心とした試行錯誤を経て、クラウド型スーパーコンピュータ「さくらONE」の初期型にあたるGPUクラスタを開発するに至ります。この「さくらONE」はISCが主催する世界中のHPCのベンチマークを競うランキングにおいて、"TOP500"で世界49位・上位100位におけるSONiCとEthernetを採用した唯一のシステムとして成果を収めました。
この結果により、SONiCとOSSを用いたオープンな実装が世界的に高い成果を出せることを示せたと考えています。
図1に、クラスタのネットワーク構成の概略を示します。
マルチテナンシーと輻輳への耐性が求められるGPU基盤の要素技術
GPUクラスタを構築してお客様に提供するためには、サーバーの”安定稼働”と"セキュリティ"の担保が必須です。そのためには、利用者同士のセキュリティを担保するマルチテナンシーと、GPU間で直接通信をするRDMA(Remote Direct Memory Access)通信特有事情から、広帯域・輻輳への耐性が求められます。これを実現するために、次の要素技術を活用しています。
- EVPN/VXLAN:
Clos topologyの採用により、ネットワーク機器を隔てた仮想NW(Overlay)の構築が必要となりました。EVPN(EtherVPN)による経路制御とVXLAN(Virtual Extend LAN)によるトンネリング技術の組み合わせにより、仮想NWを構築・マルチテナンシー実現を行っています。なお、その際に必要なGateway冗長はAnycast gatewayにて実装されています。 - RoCEv2(ECN/PFC/CNP):
GPUサーバー間は、通常のネットワークに比べてパケットの損失が許容されない環境です。本件では、ECN/PFC/CNPと呼ばれる技術を組み合わせることで、ロスが発生する前に輻輳が通知されるようにしています。これにより、パケット損失を防ぎつつ輻輳の緩和を実現しています。 - Dynamic Load Balancing(Flowlet mode):
RoCEv2と同様に、通信フローを小さな単位(Flowlet)に分割し、ネットワークの複数経路へリアルタイムに振り分ける技術です。今回のようなリンクが多数ある環境においても、各リンクへ可能な限り平等に負荷分散をすべく同技術を用いています。なお、パケットの順序性を維持する為、本件ではFlowlet単位で分散をしています。
今回の件では、これらの機能をサポートしている商用版のSONiCを導入しています。
ネットワークアーキテクチャとしてClos Topologyを採用
このプロジェクトではより多くのGPUサーバーを収容するため、さくらインターネットのGPU基盤では、当時初採用の2 Tier Clos Topologyを採用しています。
- 2 Tier Rail-Optimized topology
- フルバイセクション(Uplink/Downlink 1:1)
- Switch間接続 : 800G (800GBASE-SR8)
- サーバー接続 : 400G (800GBASE-2SR4 / トランシーバー内breakout)
サーバーとつながる16台のLeafと、それを束ねる8台のSpineで構成されています。Clos Topologyの採用により、サーバー数収容数を向上しつつ、大規模環境に耐えうる広帯域を実現しています。
Debianを最大限に活用したデリバリー高速化
さくらインターネットでは以前からDebianを活用しており、Debian JP Projectに対してもサーバを提供してきました。こうした経緯から、社内にはDebianを運用してきたナレッジが貯まっており、今回もSONiCの中で動いているDebianを活用することで、オペレーション負荷の低減を実現しました。
- Ansible : ZTPと組み合わせたオペレーションの自動化
- Prometheus : Exporterによる柔軟なメトリクス監視
- Python : 必要な追加コマンド等を自社で内製
なお、この構成はInfrastructure as Codeの精神に基づき、GitHubを中心にコードベースで管理されています。構成変更時には、Pull Requestに基づいたレビューにより、オペレーション時間の短縮と品質維持の両立を実現しています。今後はCI/CDの拡充により、継続的なデリバリーを目指した機能拡張を行っていきます。
図2に、オペレーション自動化の概略を示します。
さくらONEで、世界水準の成果を上げる
私たちはSONiCとOSSを活用することで、透明性の高い技術を用いてGPUに特化したクラウドインフラを迅速に構築・展開しました。結果として、下記のような成果を得ました。
- 世界水準の性能:TOP500ベンチマークにおいて、Linpack 33.95 PFlop/s、HPL-MxP 339.86 PFlop/s を達成し、世界第49位にランクイン
- オープンでスケーラブルな設計:SONiCとOSSによるオープンな実装を通じて、GPU特化型クラウドインフラを実現
- 低コストとスピード感の両立:OSSを活用することで、優れたコスト効率と迅速な提供を実現
今回の開発事例は、オープンな技術によって、性能・コスト効率・透明性を兼ね備えた競争力の高いサービスを実現できました。これはさくらインターネットに限らず、オープンネットワーキングのコミュニティ全体にとっても重要なマイルストーンとなる成果だと考えています。
教訓と今後の展望
SONiCとOSSを活用したことで、私たちのGPU基盤の立ち上げは大幅に加速することが出来ました。一方で、立ち上げをする過程から、いくつかの課題も見えています。
- 個別のハードウェアを意識した設定が必要。これは自動化の複雑化にもつながっている
- 複数のbranchにまたがっているため、Bug trackingが複雑になるケースがある
- プロダクトが発展途上であるため、利用者自身が改善や追加実装を担う場面がある
さくらインターネットでは、これらの課題に対して、時にはSONiCのリポジトリを参照し、ソースコードを直接調査することで解決を進めてきました。「ソースコード内部を見られる」ことはOSSであるSONiCの大きな利点であり、同時にネットワークエンジニアにおけるOS内部の理解の重要性を改めて感じました。今後は、私たちがGPU基盤でSONiCを適用した経験を外部に発信することで、コミュニティへの還元をしていきたいと考えています。そのためにも、提供ベンダーやコミュニティとの密接な協力関係を築き、ひいてはSONiCにもその成果を還元できればと考えています。
まとめ
さくらインターネットは、SONiCを用いて800基のGPUクラスタをわずか4か月で構築しました。 このGPUクラスタを、クラウド型のスーパーコンピュータ「さくらONE」と名付け、TOP500ベンチマークで世界49位にランクイン。OSSベースの実装であっても世界レベルの性能を発揮できることを実証しました。現在の「さくらONE」は本技術をもとに再構築を行い、新たなるGPUと共にマネージドスーパーコンピュータとして商用化を果たしています。
「さくらONE」により、AI研究者や産業界は、自前で大規模なGPUクラスタを保有せずとも、即座に生成AI基盤を利用することが可能となります。この取り組みを通じて、日本全体のAI研究開発スピードを加速し、デジタル社会の持続的な発展に貢献するデジタルインフラ企業となることを目指しています。
関連ページ
技術詳細
本環境の技術的な詳細について、下記のイベント発表でも解説しています。
- SONiC Users Group Japan
SONiCで構築・運用する生成AI向けパブリッククラウドネットワーク - Speaker Deck
https://speakerdeck.com/sonic/sonicdegou-zhu-yun-yong-surusheng-cheng-aixiang-kepaburitukukuraudonetutowaku - JANOG56 in MATSUE
生成AIインフラを構築してわかったケーブリングの重要性
https://www.janog.gr.jp/meeting/janog56/wp-content/uploads/2025/06/JANOG56-cable-design.pdf
さくらONE
- さくらONE サービスページ
https://www.sakura.ad.jp/sakuraone/ - 全産業向けの大規模解析支援サービス「さくらONE」始動! スパコン世界ランキングに「内製」で挑む理由とは - さくマガ
https://sakumaga.sakura.ad.jp/entry/sakura_one/ - さくらインターネット研究所、クラウド型のスーパーコンピュータシステム「さくらONE」が処理性能ランキングTOP500で、世界49位を獲得
https://www.sakura.ad.jp/corporate/information/newsreleases/2025/06/11/1968219771/
TOP500
- TOP500 Official Ranking
https://www.top500.org/lists/ - SAKURAONE: Empowering Transparent and Open AI Platforms through Private-Sector HPC Investment in Japan
https://arxiv.org/abs/2507.02124