gpt-oss-120b を試す！高火力 DOK で始めるコンテナ型GPUクラウド活用

はじめに
gpt-oss とは？
高火力 DOK で gpt-oss を実行する方法
まとめ

はじめに

さくらインターネットの平山です。2025年8月、OpenAI からオープンウェイト言語モデル gpt-oss-120b と gpt-oss-20b がリリースされました。

今回は、コンテナ型GPUクラウドサービス高火力 DOK に gpt-oss モデルを vLLM 推論サーバー上で動作させ、Open WebUI を通してインタラクティブに利用する方法をご紹介します。

gpt-oss とは？

gpt-oss は、OpenAI が公開したオープンウェイトの大規模言語モデルであり、外部の推論 API に依存せず自前環境で運用できるため、機密性の高いシステムやオンプレミス環境でも安心して利用できます。研究機関での検証や企業のクローズド環境での業務活用など、幅広いユースケースを想定しています。

高火力 DOK とは？

高火力 DOK は、事前に準備した Docker イメージをクラウド上で実行できるマネージドなコンテナー型 GPU クラウドサービスです。くわしい操作方法などは過去の記事、「【生成AIに触れてみよう】高火力 DOKことはじめ #1 〜Dockerイメージ作成環境の構築〜」などもぜひご覧ください。

vLLM とは？

LLM を OpenAI 互換の API サーバーとして提供してくれるオープンソースライブラリです。HuggingFace とシームレスに連携可能で、公式の Docker イメージも提供されています。

高火力 DOK で gpt-oss を実行する方法

高火力 DOK のタスクを新規作成

高火力 DOK のコントロールパネルからタスクを新規作成します。

イメージは公式の vllm/vllm-openai:gptoss を指定します。

コマンドに --model openai/gpt-oss-120b --gpu-memory-utilization 0.95 を指定します。オプションは以下の意味を持ちます。

--model : HuggingFace から指定したモデルを自動でダウンロードします。
--gpu-memory-utilization : GPU メモリの消費率を制限できます。

HTTP トグルをオンにし、ポートは 8000 で設定してください。

プランは h100-80gb を指定し、作成を押します。

gpt-oss は MXFP4 形式というデータ形式を採用しています。この形式にネイティブに対応しているのは NVIDIA H100 以降の GPU であるため、ここでは h100-80gb を選択します。

タスク画面では実行履歴や現在稼働中のタスク一覧を確認できます。

作成したタスクのタスクID をクリックすると、ログを確認可能です。

Application startup complete. が表示されれば起動成功です。

HTTP URL の詳細をクリックし、オリジンの URL を控えておいてください。

続いて、起動した LLM と会話するためのインターフェース Open WebUI をローカルに構築します。

Open WebUI とは？

完全オフラインで動作可能な、LLM を操作するためのオープンソース Web インターフェースです。Ollama や vLLM など OpenAI 互換 API サーバーと接続し、対話型の UI を提供します。

Open WebUI の起動方法

公式の Docker イメージが提供されています。Docker コマンドが使える環境で、以下を実行してください。（OPENAI_API_BASE_URL は高火力 DOK タスク詳細画面で控えた URL を指定してください）

docker run -d \
    --name open-webui \
    -p 3000:8080 \
    -v open-webui:/app/backend/data \
    -e OPENAI_API_BASE_URL=https://***.container.sakurausercontent.com/v1 \
    --restart always \
    ghcr.io/open-webui/open-webui:main

起動後、http://localhost:3000 にアクセスし「開始」をクリックします。

必須情報を入力し「管理アカウントの作成」を押します。

ログインすると、すでに openai/gpt-oss-120b が選択されています。

さっそく会話してみましょう！

まとめ

今回は高火力 DOK 上で gpt-oss を立ち上げ、Open WebUI でモデルと会話する方法をご紹介しました。

gpt-oss-120b は公式評価によると、OpenAI o4-mini に匹敵、もしくはそれ以上の性能を発揮します。また、完全クローズドな環境で稼働するため、入力した情報が外部モデルの学習に利用されることもありません。

この記事が皆様の AI 活用の一助となれば幸いです。