【さくら石狩DCの業務体験】普段どんなお仕事してるの? 社内インターン体験レポート!
こんにちは!エバンジェリストチームの仲亀です!
さくらインターネットでは、社内インターンを不定期で催しています。今回はそんな社内インターンに実際に参加し、「石狩データセンター」で行われている業務を体験してきました!さくらインターネットの石狩データセンターってよく聞くけど、一体どんな業務があるんだろう?そんな疑問をレポートとしてご紹介いたします!
社内インターンとは?
さくらインターネットには、社内インターンという制度があります。自分が所属する部署やチーム以外の業務を短期間インターンとして体験できる制度です。この社内インターンは次の目的で催されています。
- 異なる部門の業務プロセスやメンバーを知ることで、チーム間の相互理解を高め、課題や問題点を含め共に解決していく組織風土を目指す。
- 社員個々の経験を広げ、所属の枠に捕らわれず専門性を発揮し、会社の成長・個人の成長に繋げる仕組みづくりに繋げる。
つまり、「他のチームの業務を経験することで自分たちの知見や仕事の幅を広げよう、更にはそれによって各部門に新しい風を送ってより良い組織・業務づくりをしよう!」ということです!
「インターン体験者」は自身の部門を超えた視点から業務の気付きを得ることができたり、「インターン受け入れ部門」は新しい人への教育の面での見直しや改善を行えるなど、単に「他部門を知る」だけではない効果を「社内インターン」はもたらします。
特に、「他部門からの視点」は、部門のマンネリ化や常態化を防ぎ、気付きを与えてくれます。何よりも、さくらインターネットで働いているのに、データセンターでどんなことが行われているのか知らないのは非常にもったいないです!また、この社内インターンへの参加は、決してエンジニアだけではなく、例えば営業やバックオフィスなど、さくらインターネットの社員であれば誰でも参加することができます。
石狩データセンターでの社内インターン
さくらインターネットのデータセンターは石狩、東京、大阪にあり、これらのデータセンターから任意の場所で社内インターンを体験することができます。データセンターでの業務は大きく分けて次の3つです。
- 構築
お客様へ提供するサーバを新規で構築を行う業務 - 保守
すでにお客様に提供済みのサーバが故障した際などに交換を行う業務 - 在庫
データセンターに存在する各種サーバや部品などの管理を行う業務
今回は、石狩のオペレーション業務に関する社内インターンに参加し、構築・保守の業務をそれぞれ1日ずつ体験してきました。
1日目: 保守業務
保守業務とは?
保守業務とは、主にお客様へご提供後の稼働しているサーバ等の故障対応などを指します。今回体験させていただいた主な業務は次のようなものがあります。
- ストレージ故障
- ストレージ以外の故障
ストレージ故障
その名の通りHDDやSSDなどのストレージに関する故障です。サーバには、一般的なPCと違い、1台あたり多いと24本(実はもっと多いものも存在します)ものディスクを搭載します。ディスクは特に故障しやすいものであるため、いくつものサーバがあるデータセンター内では、頻繁にどこかでディスク故障が発生します。当然、故障したディスクは使うことができないため、交換する必要があります。
故障したディスクはサーバ側で検知し、LEDによってどのディスクが故障したのかわかるようになっているので、そのディスクをサーバから抜き取り、新しいディスクを接続します。ディスクの交換は基本的に「活性交換」と呼ばれる、サーバが稼働中にもかかわらずほぼ影響を与えずに交換可能な方法で行われます。
交換すると、自動的にサーバの中で新しいディスクにデータをコピーする処理が行われ、自動的に再び冗長化が構成され、元の状態に戻ります。また、作業の際は必ず2名以上で行う体制が取られ、誤ったディスクを抜いてしまわないか、対象のサーバは正しいかなど、細かいダブルチェックが行われます。
ストレージ以外の故障
ストレージ以外というと、メモリや電源、ファンやマザーボードなどサーバのその他のパーツ等を指します。ストレージ故障では活性交換が可能ですが、これらのパーツは活性交換ができないものもあり、一度サーバを停止して交換を行う必要があります。特に、交換作業が数分で終わらないことが多いため、その作業の分だけお客様をおまたせしてしまいます。
そこで、ストレージ以外の故障が発生した際は、データセンター内に保守用として確保されているサーバから、対象の機器と全く同じ筐体を用意します。筐体だけではなく、メモリやCPUなどほぼ全ての構成を同一にしたサーバを用意します。そして、交換の際はそのサーバをまるごと交換してしまうのです。ただし、ストレージだけはお客様のデータが格納されており、全く同じものを用意することはできないため、交換後の新しいサーバにディスクを再接続します。
こうすることで、最短で交換作業を行い、故障した機器は後日ゆっくりと交換を行うのです。お客様への影響を最小限にした、多くのサーバが存在するさくらならではの方法ですね!また、当然このときも2人以上での作業が行われ、対象機器が間違いないか、ひとつひとつの作業毎に確実に確認が行われます。早く作業するのも大事ですが、トラブルや間違いがないように、ゆっくりと丁寧に、しかし迅速に行われるのがさくらの保守作業です。
ラックに新しいサーバを搭載し、ディスクやケーブルなどを接続し直すと、ほぼ自動的に検知され、各種チェックやディスクのマウント作業などが行われます。
また、保守作業は単純にサーバを交換して終わりではありません。交換した機器が正常に動いているのか、接続し直したディスクが正しく見えているかなど人の目による最後のチェックが行われ、問題がなければお客様へ引き渡されます。
ちなみに、こういったサーバは、いつ故障してしまってもすぐに対応できるように、各機種ごとに在庫として大量に保管されています。こうやって大量のサーバが棚に載せられているのはとても圧巻でした!
他にも
お客様がご利用されているサーバ、特にディスクについては慎重に扱わなければなりません。それはさくらのデータセンターでも同様です。お客様が利用停止したサーバのディスクは、全てデータの削除や初期化が念入りに行われています。ディスクのフォーマットをしたことのある方は経験があるかもしれませんが、すぐに終わってしまうことはありませんでしたか?クイックフォーマットといって、論理的にデータを削除しただけで、実はデータそのものは残っていることがあります。
また、データの削除の際にも実はデータが残ってしまっていることがあります。こういったことを防ぐために、さくらのデータセンターではディスクのすべての領域に対してデータを削除する処理を施しています。こうしてお客様のご利用されていたデータは全て削除されるわけです。実はこういった作業も保守チームの役割なんですね。
この様に、実は保守作業というのはサーバルームでの作業の他にも、そのための事前準備やその後の作業が非常に多く存在します。データセンターでの作業といえば、サーバルームでの作業のイメージが強いですが、それ以外の作業も多いです。当然ですが事務作業とかも意外と多く、他にも、例えば石狩データセンターにあるサーバを、東京や大阪のデータセンターへ移設することもあります。こういった作業も、保守業務のひとつです。
保守業務を体験して
保守業務は、サーバが稼働してから停止するまでずっと発生する業務です。特に、稼働中のサーバというのは一歩間違えれば別の正常なサーバに影響を与えてしまうということもあり、終始緊張感を持って業務に臨んでいることが伺えました。また、サーバはいつ壊れるかわからないため、常に交代で24時間365日データセンター内に常駐して、お客様の要望に合わせて臨機応変に対応する非常に重要な業務だとこのインターンを通してより一層感じました。
2日目: 構築業務
構築業務とは?
構築業務では、主にお客様へご提供するためのサーバを構築するほかに、ネットワーク機器のラッキングや設定など、非常に業務が多岐にわたります。例えばサーバについても、データセンターに納品されてからの開梱作業や設定作業、管理など事前の作業が多くあります。今回私はサーバを箱から出して、実際にラッキングするまでを体験させていただきました!
開梱からご提供まで
構築業務としてお手伝いさせていただいた作業は、新規にサーバをサービスへ組み込む作業です。今回は、 さくらの専用サーバ 用にお客様へご提供される予定のサーバの構築作業です。一口にサーバの構築作業と言っても、サービスや対象のサーバの種類などによって手順は異なります。今回の流れは、「さくらの専用サーバ」での構築作業の一例だとご認識ください!今回の構築作業は大きく次のような工程があります。
- サーバの開梱
- 初期設定
- ラッキング
- 自動チェック/エイジング
- 最終チェック
1. サーバの開梱
まずは、納品されたばかりのサーバを箱から出します。サーバの種類によって箱の形や梱包の方法が様々で、サーバ本体や他のオプションパーツなど、必要なものを順番に取り出していきます。また、当然箱から出す際に持ち上げるので、サーバを誤って落とさないように気をつけつつ、さらには自分の腰などを傷めないようにゆっくりと丁寧に台車へ運びます。今回は2Uという比較的標準的なサイズのサーバを3台開梱しました。ラックマウントサーバを実際に持ったことがある方であればわかるとは思いますが、標準的なサイズとはいえ、1台辺り25kgを超える重さがあります。頑張れば1人で持つこともできますが、これだけの重さであることや、非常に高価であることから、2名でゆっくりと1台ずつ台車へ運びました。
すべてを開梱して台車で乗せると、今度は初期設定を行うために、キッティングルームと呼ばれる部屋へサーバを運びます。特に、石狩データセンターには現在棟が3つありますので、サーバを運ぶだけでもそれなりの距離になります。
2. 初期設定
キッティングルームへ到着すると、サーバに電源を接続し初期設定を行います。初期設定の項目は、サーバベンダーや機種によって異なりますので、必要なマニュアルを探し、それに従って設定を行っていきます。石狩データセンターには非常に多くの種類のサーバがあり、そしてそれらのマニュアルの多くが細かく整備されていました。ドキュメントが整備されていることで、私のような何もわからないような人でも、正しい手順で作業を行うことができました。
また、この初期設定も、多くが自動化されており、必要な設定はBIOSやRAIDの設定だけでした。対象機器のマニュアルを見ながら、必要な設定を行っていきます。そして、各設定が問題なければ確認用のツールに都度チェックを入れていき、すべてのサーバの設定が完了すればいよいよラッキングです!
3. ラッキング
予めどこのラックの、どの場所にマウントするのか決められているため、そこまで初期設定を行ったサーバを運びます。場所を確認したら、まずはラックにサーバをマウントするための「ラックマウントレール」を設置します。ラックマウントレールが設置できたら、サーバを二人でゆっくりと持ち上げ、レールの上に載せてラックに格納します。また、このときはすでに稼働しているサーバがすぐそこにありますので、周りへ影響を与えないために、より慎重に作業を行います。
4. 自動チェック/エイジング
ラッキングが完了したら、自動チェックやエイジングを行うために電源やLANケーブルなどを接続します。LANケーブルや電源ケーブルを接続するためのPDU(データセンターでサーバ向けに利用される専用の電源タップ)などは事前に配線/設置されており、現地では単に接続するだけとなっています。特にLANケーブルは用途毎に色分けがされているため、マニュアルを見ながら、サーバのポートと色を確認して接続します。このときも、1人がケーブルを接続し、もう1人が反対側のすでに接続されているスイッチを見ながら想定したケーブルが接続されたかどうか、ひとつずつチェックしながら作業を行います。
LANケーブル、電源ケーブルを接続し、最後に現地で設定が正しいかチェックを行い、問題なければ自動でチェックとエイジングが行われます。各種ハードウェアは正常に動作しているか、負荷を掛け続けても問題ないかなど、多くの作業が自動で行われ、すべてが完了するとメールやSlackに通知がくる仕組みができあがっています。
5. 最終チェック
自動チェックやエイジングなどの内、いくつかのチェック等が完了したタイミングで、石狩データセンターから東京のデータセンターへ管理が移ります。そうして、すべての自動チェックなどの作業が完了後、東京のデータセンターの熟練のオペレーターによる最終チェックが行われます。全自動で行われているようで、最後はちゃんと人の目によって確認が行われています(もちろん機械でもチェックしていますよ!)。こうして、すべてのチェックが完了し、問題がないことを確認して作業はすべて完了です。あとはお客様がWeb上から利用申請を行うことで、自動で割り当てられ、お客様のサービスを動かす基盤として稼働し始めます。
また、稼働後に万が一故障が発生してしまった場合は、1日目にお手伝いさせていただいた保守チームによって迅速に保守対応が行われます。このようにして、石狩データセンターのサーバは新しく追加され、日々メンテナンスされているのです。
構築業務を体験して
保守業務とは打って変わり、箱に入ったところからお客様へお渡しする直前まで体験させていただきました。非常に多くのドキュメントが整備されており、業務知識のない私でも十分作業を行うことができました。また、自分たちが何気なく普段利用しているサーバがどの様に構築され、提供されるかを知ることで、またひとつ「クラウドサービス」について新しい視点を持つことができました。
まとめ
今回は石狩データセンターの、一部の作業をお手伝いさせていただきました。さくらインターネットの石狩データセンターといえば比較的ご存知の方も多いですが、そこでどんな業務が行われているのかご存知の方は少ないのではないでしょうか?ぜひ、本記事をお読みになって、データセンター業務の一部でも知っていただければ嬉しいです。
さらに、皆さんがこの記事をご覧になっている今も、北海道石狩にてオペレーターの皆さんがサーバに異常がないか常に監視し、迅速に対応する体制が取られています。これはさくらに限らず、世の中すべてのクラウドサービスやWebサービスなど含め、多くのサービスには24時間365日誰かが常に見守ってくれているのです。彼らのおかげで、私達は夜安心して眠ることができるのです。ぜひ、たまにでいいので、こういった支えてくださる方々のことを思い出していただけると幸いです。