石狩データセンター、2年間の運用の歩み
さくらのナレッジをご覧の皆様、はじめまして。
さくらインターネットにてデータセンター運用を担当している玉城と申します。
今回は北海道石狩市某所に建設され、2013年11月を以って2周年を迎えた石狩データセンターについてご紹介いたします。
とはいえ、今まで様々なメディアにて、石狩DCの特徴である空調設備や、非常用の発電機などのファシリティについて取り上げていただいておりますので、今回は運用といったいわゆる、「現場作業」にフォーカスをあてながら、2011年11月の開所からいままでを、振り返ってみたいと思います。
スタッフ紹介
石狩データセンターでは、大まかに分けてシフト勤務と常勤の2種類の勤務形態があり、あわせて23名が勤務しています。
●シフト勤務:24H365日 3勤3休
●常勤 :平日8時間勤務、土日祝休み
2011年11月15日開所!!!
開所式では、私たち現場のスタッフも陰ながらお手伝いしていました。
その過程で見た、開所式の裏側をご紹介いたします。
データセンターカステラは、手詰めだった
下記の画像は、弊社取締役や各部門の部長、副部長らが開所式にいらしたお客様へお配りした「データセンターカステラ」を収める箱を、組み立てている画像です。
箱の組み立て後、データセンターカステラは手詰めされていきました。
この他にもエントランスへお客様用のスリッパ(200足分!)を並べたり、
デモンストレーション用のラックを構築したりといったことがありました。
よく冷える壁吹き出し方式
ご存知の方も多いと思いますが、
壁吹き出し方式とは、壁についたファンからサーバー室内へ冷たい空気を送り込む方式です。
サーバーも冷えるのですが、人もよく冷えます。
サーバー室内は、17度~27度の間で温度が保たれるようになっておりますが、ファンからの風を直接受けるスタッフの体感温度は室温よりも4度~5度は低いものになります。
画像のように、防寒着を着ていても指先は露出しているので、手がかじかんでキーボードが打ちづらくなっているスタッフをよく目にしました。
また、スタッフは作業時に作業指示が記載された書類を携帯するのですが、風で書類が飛んで行ってしまって拾い集めることになったり、風で指示書がめくれてしまって、読みづらかったりすることがありました。
北海道の寒い冬と暑い夏
冬の結露対策
サーバーやネットワーク機器が納品されたら、開梱をして、サーバー室内へサーバーを運び入れるのですが、 冬季の石狩DCではそうはいきません。
なぜなら、屋外と屋内の気温差が激しいため、急激な温度変化は結露を発生させてしまう恐れがあるためです。
冬季は最高気温も氷点下となり、-10℃を下回る日も珍しくありません。
右の画像の温度計は、トラックヤード[室内]の気温です。
そのため、納品されたサーバーが冷たくて触れない…と感じるくらい冷たい状態で納品されます。
そのため、納品された機器はトラックヤードに隣接した空調設備のある倉庫に一定時間保管し、サーバー室内に運び込んだ際に結露が発生しないように対応をおこなっています。
この対応のことを「結露対策」と呼び、冬季は必ずこの対応を行っています。
夏の外気空調
多湿や外気温度が高いため、外気のみでの冷却が出来ない場合は、下記のターボ冷凍機を動かしてサーバー室内へ取り入れる空気の温度を調整しています。
開所時は、年間100時間の稼働を見込んでおりましたが、例えば今年の夏では、後述の理由から536時間、ターボ冷凍機が稼働いたしました。
これは、今年の気候が多湿であったことや、コロケーションのお客様との運用部分での兼ね合いなどから特に稼働時間が長くなりました。
ターボ冷凍機稼動時でもPUEは1.4をマークしており、従来の都市型データセンターのPUEが2前後であることと比較して、十分に低いPUE値であることがわかります。
サーバー構築の話
石狩DCでは、2週間程度で240台のサーバーを構築することもあります。
構築時には、配線で苦戦しながらも、チェック体制の効率化に努めていました。
1000本を超えるケーブルの配線
スイッチサーバー間の配線本数は、1台のサーバーあたり3本となり、240台のサーバーでは720本の配線が必要になります。
電源ケーブルもあわせると総本数は1000本に迫ります。
そのため、右の画像のようにラック内にはたくさんのケーブルが密集します。
メンテナンス性や視認性を確保するため、ケーブリングには一定の制限がありつつ、
サーバーの機種やラック内に設置されるサーバーの構成次第でベストなケーブルルートや整線方法が変わるため、常に模索しながら改善を続けています。
チェック体制の効率化
配線が正しく行われているかの確認は、当初、人による確認作業を行っておりましたが、漏れがあったり時間がかかったりすることから、改善策としてWebのインターフェイスを用いた下記の手法をとることで1台につき1~2分程度の作業時間短縮に繋がりました。
●サーバーのMACアドレスとスイッチのarpテーブルに記憶されているMACアドレスを比較する
また、サーバー作成時に行うメモリ搭載容量や、DISKのI/Oスピードのチェックも人で行っていたものを、自動化することにより作業工数の削減と時間短縮が実現しました。
こうした、大量の構築を安定した品質で行うための改善は、現場だけではなくサービスに携わる全ての部署が協力しながら常に行われています。
サーバーの構築とは
下記の流れでサーバーを構築していくのですが、スタッフが行う作業はこれだけではありません。
スタッフの作業は、サーバーラックの構築からスタートします。
サーバーラックは、最初は何もついていない空のロッカーのようなものですから、ネットワーク機器やサーバー機器を稼働させることの出来る環境を構築します。
設置する電源設備や温度を測定するためのセンサーなどを設置しますが、石狩DCではラックファンもスタッフが取り付けます。
A/Bゾーンでは、下記のようにラック上部の開口部に、机の引き出しを押し込むようにファンを搭載します。
Cゾーンでは、ラック背面通路の天井部分にラックファンを取り付けるため、専用の作業台(高さ1.8m)にシフトスタッフが乗り、設置します。
部署の枠を超えて一丸となった構築作業
2012年秋には、さくらのVPS石狩リージョンが提供開始となり、
さくらの専用サーバもご好評いただいていたため、 二つのサービスの構築がばっちり重なった時期がありました。
この時は、東京や大阪からも応援をよび、構築作業を進めました。
右の写真は、いかに構築作業が詰まっていたのかを表しています。
というのも、この写真の手前に座っている3名はそれぞれ、開発部のマネージャー、技術チームのマネージャー、運用部の部長なのです。
まさに総動員。猫の手も借りたいと思っていたら、エライ人の手を借りちゃったの図…というワケです。
何をしているかといいますと、
さくらのVPS SSDプランで使用する600個ほどの SSDをひとつひとつマウンタへねじ止めしております。
サービス提供に向けて、関連部門が一丸となって作業に取り組んだ青春の1ページです。。
作業品質向上のための取り組み
ひとつのオペレーションミスが、大きな事故に繋がる恐れがあるため、
オペレーションミスを防ぐために様々な取り組みを行っております。
初期教育
初期教育では、ラックの構築からサーバーの設置、配線、設定といった一通りの作業を通して
データセンタースタッフのベースとなるスキルを身につけてもらいます。
引継ぎ
タスクを付箋にして、張りだし進捗や納期、タスクの総量などを全員が認識し、作業漏れがないように努めています。
また、手順のショートカットや手順の間違いが起こりやすそうな作業については、読み合わせを行い、しっかりと手順を意識して行えるように取り組んでいます。
指差し呼称
ラックの中には、同じ機種のサーバーがたくさんあります。
そのため、サーバーのリブート作業やハードウェア交換作業などを行う際に、作業対象を誤らないための基本的動作のひとつとして「指差し呼称」を行っています。
また、基本的にダブルチェックを行う際は現場で行うものの、現場のリソースが足りない場合はタブレット端末を使用して、大阪や東京のデータセンタースタッフにダブルチェックの役割を担ってもらうなどの取り組みも行い、作業ミスを極力減らすように努めています。
結びとして
この2年間のことを書き出すと、キリがないくらい色々なことがありましたし、作業の効率化や正確性を高めるために行っている取り組みは他にも多くあります。
このブログをみなさまに読んで頂いているころには、2号棟の運用が開始され、石狩DCの規模はどんどん大きくなっていきます。
棟が1棟だったときの運用をそのまま焼き直しして、2号棟へ適用することはできません。
それは棟が増えたことによって物品の保管場所や納品場所を最適化しなければいけませんし、 棟が増えても保守を素早くできる環境作りや1号棟での反省点を生かさなければいけません。
今後も、さらに自動化や作業の簡素化、間違えにくい仕組みづくりなど継続して改善していくことが重要だと感じています。
また、ファシリティ関連がフォーカスされることの多い石狩DCですが、運用部分もすごいんだと発信できるように、これからも運用を洗練していきたいと思います。
最後まで御覧いただき、ありがとうございました。
>> 石狩データセンター特設サイト
>> 用語解説「PUEとは」