2-5:多様化が進展するクラウドサービス
総務省 ICTスキル総合習得教材
[コース2]データ蓄積
【概要版】 eラーニング用
1 2 3 4 5
[コース1]データ収集
[コース2]データ蓄積
[コース3]データ分析
[コース4]データ利活用
本講座の学習内容(2-5:多様化が進展するクラウドサービス)
近年、注目されているクラウドの関連技術を紹介します。
PCやサーバを構成するパーツを紹介後、GPUクラウドコンピューティングを説明します。
分散化技術のイメージを紹介後、クラウドにおける分散化技術の利用方法を説明します。
座学
PCやサーバを構成する基本パーツの構成を理解
する。
GPUによる高速計算の特性を把握し、GPUクラ
ウドコンピューティングの概要を理解する。
分散化技術のイメージを把握し、クラウドにおける
分散化技術の利用方法を把握する。
[1]注目されているクラウドの使い方
【講座構成】
【学習のゴール】
【講座概要】
[2]GPUクラウドコンピューティング
[3]クラウドにおける分散化技術
注目されているクラウドの新たな使い方
[1] 注目されているクラウドの使い方
近年、注目されているクラウドの新しい使い方として
○クラウド上のGPUを利用して高速計算を行う「GPU クラウド コンピューティング」
○クラウド上の複数の物理サーバを利用する「分散化技術」
が挙げられます。
GPUクラウドコンピューティングは、クラウド上のGPU(画像処理装置)を使って高速計算を行います。
分散化技術は、複数の物理サーバを統合して、一体として利用する技術です。
• 仮想化技術は、物理サーバの中に仮想サーバを構築する使い方が一般的ですが、分散化技術は物理サーバの枠を広げる発想です。
この講座では、近年注目されているクラウドの新しい使い方を説明します。
• 従来のクラウド利用の主目的は「長期的なデータ蓄積」でしたが、「データ処理、計算」を主目的とする使い方が現れています。• 通常、コンピューター処理において「データ処理・計算」を担うのは、「CPU(Central Processing Unit:中央処理装置)」ですが、 GPUコンピューティングでは「データ処理・計算」に「GPU(Graphics Processing Unit:画像処理装置)」を使います。
CPU(中央処理装置)
GPU(画像処理装置)
コンピュータパーツを連結し、
データのやりとりを仲介
コンピュータを構成するパーツ
物理サーバやPCは、それぞれの役割を持つ5つの主要パーツで構成されています。
データセンターにある物理サーバ(サーバコンピュータ)でも主要なコンピュータパーツの構成は、一般
の人が普段利用するPCと変わりません。
• 普段利用しているデスクトップPCやノートパソコンも、ウェブサーバやデータベースサーバとして利用することができます。マザーボード
PCのパーツ構成と
一般的な利用における
各パーツの役割
CPU
(中央処理装置)
データ処理・計算
メインメモリ
一時的なデータ蓄積
(CPUとのデータのやりとりは高速)ハードディスクドライブ
長期的なデータ蓄積
(CPUとのデータのやりとりは低速)グラフィックボード
グラフィックボード上のGPUで
画像処理・ディスプレイへの表示
• メインメモリに蓄積したデータは電源を切ると消えますが、ハードディスクドライブに蓄積したデータは電源を切っても消えません。 • 長期的なデータ蓄積として、磁気ディスクに記録するハードディスクドライブの代わりに、半導体メモリに記録するSSD(ソリッドステートドライブ)を利用す るケースもあります。 • グラフィックボードは個別のパーツになっておらず、マザーボード上に一体化している「オンボードグラフィック」のケースもあります。 • 上記のパーツの写真はデスクトップPCのものですが、ノートPCではこれらのパーツが小型化、凝縮される形で格納されています。[1] 注目されているクラウドの使い方
サーバコンピュータで行う「データ処理・計算」
[2]GPUクラウドコンピューティング
サーバコンピュータの主要な役割を「データ処理・計算」とする利用方法が着目されています。
一般にインターネットにつながっているサーバコンピュータの主要な役割は「長期的なデータ蓄積」でした。
• GPUコンピューティングでは、画像データに限らず、あらゆるデータをGPUにて処理、計算しします。 • サーバコンピュータ内のパーツとしても「長期的なデータ蓄積」を担うHDDが特に重要視され、HDDのセキュリティに着目されていました。
HPCの中には、グラフィックボード上のGPUを計算に利用するGPUコンピューティングもあります。
近年、サーバコンピュータを「データ処理・計算」のために利用するHPC(ハイパフォーマンスコンピュー
ティング)が着目を浴びています。
• HPCは、スーパーコンピュータで実施するような高速計算、手元のPCでは時間のかかる計算をサーバ上で短時間で処理する利用が考えられます。 • HPCでは、「データ処理・計算」を担うコンピュータパーツはCPUおよびメインメモリの性能が重要視されます。サーバ用途:長期的なデータ蓄積
ウェブサイトやデータベースの運用
サーバ用途:データ処理・計算
HPC(ハイパフォーマンスコンピューティング)
特に重要なPCパーツは ハードディスクドライブ 特に重要なPCパーツは CPU+メインメモリ 特に重要なPCパーツは グラフィックボードCPU利用のケース
GPUコンピューティング
CPU・GPUの比較とGPUクラウドコンピューティング
並列計算が可能なデータ処理は、CPUよりもGPUで高速に計算できるケースがあります。
クラウド上の高性能GPUを短期間借りることで実施する「GPUクラウドコンピューティング」が注目を集めています。
• 一般にCPUにおけるコア数は10個以下ですが、GPUにおけるコア数は1000個以上となるケースもあります。 • 一方で、コア1つあたりの計算速度は、CPUがGPUを上回ります。
近年、着目されている「ディープラーニング」などの分析手法は、並列計算による大幅な高速化が可能
で、GPUを利用することでCPUよりも高速に計算できます。
CPUやGPUには、コアと呼ばれる「計算を受け持つ単位」が搭載されており、GPUの方がコア数が
多く並列計算による高速化の余地が大きくなっています。
CPU
GPU
Core i7 - 6 7 0 0 K
GEFORC E GT X 1 0 8 0
コア数/ スレッド数
4/8
2,560
クロック周波数( ターボ時)
4.0GHz(4.2GHz)
1.607GHz(1.733GHz)
最大メモリー帯域幅
34.1GB/秒
320GB/秒
対応するメモリの交換
交換、増設できる ボードと一体化し交換不可
Intel
NVIDIA
2015年8月
2016年5月
ユニット
本体
メモリと
の関係
メーカー
製品の発売
一般PC向けのCPUとGPUの比較
【出典】 Intel: https://ark.intel.com/ja/products/88195/Intel-Core-i7-6700K-Processor-8M-Cache-up-to-4_20-GHz NVIDIA: https://www.nvidia.com/en-us/geforce/products/10series/geforce-gtx-1080/
クラウド上のGPUを利用してデータ処理を行うことを「GPUクラウドコンピューティング」と言います。
• クラウドサービスでは分単位・時間単位でCPUやGPUを利用することができ、短期間の利用とすることで費用を抑えることができます。[2]GPUクラウドコンピューティング
GPUクラウドコンピューティングのサービス例
3大クラウドプラットフォームでは、それぞれGPUクラウドコンピューティングを提供しています。
クラウドにおけるHPCの進展により、スーパーコンピュータが1時間単位で安価にレンタルできるようになっています。
AWS、Azure、GCPは、GPUクラウドコンピューティングのサービスを2016年度に増強・新設しました。
AWS、Azure、GCPのそれぞれが提供するGPUクラウドコンピューティングは、最も安価なプランであれ
ば、1時間あたりの利用料金は1ドル前後となっています。
[2]GPUクラウドコンピューティング
© 2015 Google Inc. All rights reserved. Google Cloud PlatformはGoogle Inc.の商標です。 Microsoft は、米国 Microsoft Corporation
およびその関連会社の商標です。 Amazon Web Servicesは、米国 その他の諸国における
Amazon.com, Inc.またはその関連会社の商標です。
AWS(Amazon)
Azure (Microsoft)
GCP(Google)
一般的な仮想化のイメージ
分散化技術のイメージとクラウドにおける活用
[3]クラウドにおける分散化技術
分散化技術は「複数のコンピュータを一体として運用」し、物理的なコンピュータの枠にとらわ
れない技術です。
分散化技術は、一般的な仮想化とは逆に「複数のコンピュータを一体として利用」することで、データ蓄
積やデータ処理を分散する手法です
• 分散化技術によって複数のコンピュータや機器を一体として利用することで、個々のハードウェアの機能を越えた性能や容量を利用することができます。 仮想サーバC 仮想サーバB 仮想サーバA 物理サーバ(1) 物理サーバ(2) 物理サーバ(3)一体としてデータ蓄積・データ処理
分散化のイメージ
物理サーバ
分散化技術としてHadoop(ハドゥープ)、Spark(スパーク)が代表的です。
• HadoopおよびSparkは、Apache(アパッチ)ソフトウェア財団が開発しており、無償で利用することができます。• Hadoopは、第一段階に当たるHDFS(Hadoop Distributed File System)と呼ばれる複数のコンピューターへのデータの分割保存、第二 段階に当たるMapReduceと呼ばれる分散処理技術によって構成されています。
• Hadoopの第二段階のMap Reduceは、より高速で利便性の高いSpark(スパーク)に代替されつつあります。
HadoopやSparkが利用できるクラウドサービスがあり、個人レベルでも分散化技術を活用したビッグデータ分析
ができるようになりました。
クラウドにおける分散化技術のサービス例
3大クラウドプラットフォームでは、それぞれ分散化技術を活用したクラウドサービスを提供
しています。
クラウドに分散化技術の適用することで、非常に容量が大きいビッグデータの蓄積、分析が可能となりました。
分散化技術を活用することで、1台のサーバコンピュータでは取り扱うことが困難なTB(テラバイト)、
PB(ペタバイト)単位のデータであっても、データの蓄積や分析ができるようになっています。
[3]クラウドにおける分散化技術
© 2015 Google Inc. All rights reserved. Google Cloud PlatformはGoogle Inc.の商標です。 Microsoft は、米国 Microsoft Corporation
およびその関連会社の商標です。 Amazon Web Servicesは、米国 その他の諸国における
Amazon.com, Inc.またはその関連会社の商標です。
AWS(Amazon)
Azure (Microsoft)
GCP(Google)
3大クラウドプラットフォームが提供する分散化技術を活用したクラウドサービスの紹介
• 半角英数字の1文字のデータ容量が1Byte(バイト)であり、それを1000倍ずつ増加させた単位が、KB(キロバイト)、MB(メガバイト)、GB (ギガバイト)、TB(テラバイト)、PB(ペタバイト)となっています。