未来を切り拓く最先端 VLSI テクノロジー : 2.ソフトウェアとハードウェアの協調による組込みシステムの消費エネルギー最適化

全文

(1)LSI Technolog 2.. 小特集未来を切り拓く最先端 VLSI テクノロジー. ソフトウェアとハードウェアの協調による組込みシステムの消費エネルギー最適化高田広章（名古屋大学）. 我々の身の回りのさまざまな機器にコンピュータが. 性が求められることが多いことから，本研究プロジ. 組み込まれている現在，組込みシステムの消費エネ. ェクトでは，リアルタイム性（具体的には最大応答. ルギー削減は，社会全体の省エネルギー化のために. 時間）を保証するという制約下で，平均消費エネル. も重要な課題となっている．我々は，CREST 情報シ. ギーを最小化することを目標としている．すなわち，. ステムの超低消費電力を目指した技術革新と統合化. 保証すべき QoS として，リアルタイム性能を中心. 技術領域（以下，ULP 領域と書く）の採択テーマと. として取り組んでいることになる．また本研究プロ. して，ソフトウェアとハードウェアの協調による組. ジェクトの中では，リアルタイム性能のほかに，信. 込みシステムの消費エネルギー最適化に関する研究. 頼性に焦点を当てた研究も行っている．. プロジェクトに取り組んでいる．この研究プロジェ. 消費エネルギーを最小化するにあたっては，設計. クトは，名古屋大学，九州大学，東芝，立命館大学. 階層をまたぐことで最適化の可能性が広がることか. （2010 年度より）の共同で実施しており，2010 年度. ら，ソフトウェア開発からハードウェアの回路技術. が最終年度となる．本稿では，この研究プロジェク. までの設計階層にまたがる統合的な最適化を行う方. トの概要とこれまでの成果について紹介する．. 針としている．回路技術より下の階層（半導体プロ. 研究プロジェクトの目標と方針. セスなど）はスコープ外とした．エネルギー削減の数値目標をきわめて高いレベルに設定したことから，目標達成のためには，さまざ. 本研究プロジェクトの目標は，ソフトウェア技術. まな技術を総動員することが必要と考えた．そこで，. とハードウェア技術の協調により，アプリケーショ. 研究プロジェクトの進め方として，研究期間の前半. ンに必要な QoS を保証しつつ，組込みシステムの. でさまざまな要素技術を個別に開発し，後半でそれ. 消費エネルギーを大幅（数値目標は，ULP 領域全体. らを統合するというアプローチを採っている．. の目標を踏まえて，60 分の 1 としている）に低減す. また，ULP 領域全体が，5 年から 10 年先の実用. るための技術を開発することである．計算機システ. 化を目指していることから，本研究プロジェクトに. ムの構成要素の中で，プロセッサとメモリシステム. おいても，実用指向の研究を中心とする方針とし，. までを扱う範囲としている．. 理論研究に関しては，近い将来に実用化可能なもの. 組込みシステムにおいては，どのようなアプリケ. に絞って取り組んでいる．. ーションソフトウェアが実行されるかは分かっているのが通常であることから，本研究プロジェクトでは，アプリケーションの性質を最大限に活用して，. DEPS フレームワーク. 消費エネルギーの削減を行う方針としている．. 本研究プロジェクトにおける消費エネルギー削減. また，組込みシステムにおいては，リアルタイム. の中心的な手法として，我々は，DEPS（Dynamic. 846 情報処理 Vol.51 No.7 July 2010.

(2) 消費エネルギー. 2. ソフトウェアとハードウェアの協調による組込みシステムの消費エネルギー最適化. で動作させる手法が有力と考えられる．. ※C1∼C6はプロセッサの 6種類の構成を示す. C1. ここで行うプロセッサ構成の変更には，動作周波. C2. C1 C2. 数と電圧を変化させることはもちろん，キャッシュメモリの容量や構成の変更，さらには，異なるアー. C4. C4. C5. C5 C3 プログラム1. C3. キテクチャを持つ（たとえば，パイプライン段数の. プログラム2 C6. C6. 異なる）プロセッサを用意しておき，適切なものを選んで動作させることも含まれる． ☆1. 実行時間（性能の逆数）. 図 -1 DEPS における消費エネルギーと実行時間の関係. この手法を，我々は，DEPS と名付けた. ．. ▶ DEPS と DVFS の違い DEPS は，DVFS の一般化であるが，次の理由. 1）. Energy and Performance Scaling）を提案している．こ. により，DVFS を対象にした従来の最適化手法（特. こでは，DEPS の考え方とその枠組みについて述べる．. に，スケジューリング手法）が，そのままでは適用できない．. ▶ DEPS とは？. DVFS においては，プロセッサの動作周波数を変. プロセッサの消費エネルギーを削減するための有. 化させた場合に，プログラムの実行時間はそれに反. 力な手法として，要求される処理量の多いときには高. 比例して変化する．それに対して DEPS においては，. い周波数・高い電圧で動作させ，そうでないときは低. プロセッサの構成を変更した場合に，プログラムの. い周波数・低い電圧で動作させる DVFS（Dynamic. 実行時間がどのように変化するか予測することは容. Voltage and Frequency Scaling）がある．DVFS は，. 易ではない．さらに，プログラムの実行時間の変化. Crusoe プロセッサによって PC に導入され，PC に対し. は，プログラムの性質によっても異なる．. ては広く適用されているが，組込みシステムへの適用. 図 -1 は，プロセッサの構成を 6 種類変化させた. はそれほど一般的ではない．さらに最近では，プロセ. 場合の 2 種類のプログラムの消費エネルギーと実行. ッサの動作電圧の低電圧化から，電圧を変化させる余. 時間の関係のイメージを示す図である．線で結んで. 地が狭まっており，DVFS の有効性が低くなっている．. いないプロセッサの構成（プログラム 1 の C4 と C5，. 一方で，高性能なプロセッサはますます複雑化して. プログラム 2 の C3）は，有益でないため使用しない．. おり，本質的な処理以外の処理に大きなエネルギーを. どの構成が有益であるかは，プログラムの性質によ. 使っている．たとえば，加算命令の本質的な処理は加. って異なる．. 算であるが，それを高速化するためのパイプライン化やパイプラインハザードを防ぐための各種の機構，. ▶ DEPS フレームワークの概要. 投機的実行，またキャッシュメモリなどは，本質的な. DEPS による消費エネルギー削減を実現するため. 処理ではない（さらに言えば，命令を読み込んでそれ. に，我々は，次の 4 つのテーマの研究開発に取り組. をデコードする処理も，本質的な処理ではない）．. んでいる．. このことから，一般に，高性能なプロセッサはエ. （1）プログラムの性質にあわせて，消費エネルギーと. ネルギー消費が大きく，低性能なプロセッサはエネ. 性能をトレードオフさせるためのハードウェア技. ルギー消費が小さいことになる．そこで，DVFS を. 術と，それを適用したプロセッサなどの IPコア. 一般化し，要求される処理量の多いときには高性能・大エネルギー消費のプロセッサ構成で動作させ，そうでないときは低性能・小エネルギー消費の構成. ☆1. 筆者は，日本の研究者は，新しい概念や手法に名前をつけることが苦手で，それにより損をしているのではないかと感じている．そこで，新しい概念や手法には積極的に新しい名前をつけることとしている．. 情報処理 Vol.51 No.7 July 2010. 847.

(3) 小特集未来を切り拓く. LSI Technolog. 最先端VLSIテクノロジー. DEPS を実現するためには，ハードウェアが，消. タを必要とするが，これらのパラメータを求める手. 費エネルギーと性能をトレードオフさせる機能を持. 法についても研究を行っている．. っていることが必要である．我々は，動作周波数・. 電圧と，キャッシュメモリの容量およびウェイ数を. 2）. （3）最適なシステム構成を設計時に決定するための静的最適化技術と，それを実現するツール. 動的に変更できるマルチパフォーマンスプロセッサ. 実行されるアプリケーションが分かっている組込. コア（MPP コア）の設計と，MPP コアを複数搭載し. みシステムにおいては，実行時のオーバヘッドを最. 2，3）. 小限にするために，できる限り設計時にシステム構. たマルチ MPP コアチップの試作を行っている. ．. （2）プログラムの性質を機械的に調べる技術と，それを実現するツール. 成を決定するのが望ましい．そこで，実行トレースマイニングによって決定し. DEPS の制御を効果的に行うためには，アプリケ. た各ハードウェア構成における各タスクの消費エネ. ーションプログラムの性質が分かっていることが望. ルギーと実行時間の情報等から，各タスクのプロセ. ましい．前に述べた通り，本研究プロジェクトでは. ッサへの割付け（本研究プロジェクトでは，消費エ. アプリケーションの性質を最大限に活用する方針と. ネルギー削減のために，マルチプロセッサの使用を. しているが，ソフトウェア開発者の負担を軽減する. 大前提としている），各タスクへの実行時間バジェ. ためには，アプリケーションの性質をソフトウェア. ットの配分，最適なメモリ配置の決定を行う手法に. 設計者に記述させるのではなく，できる限り機械的. ついて研究を行っている. に調べるのが望ましい．. ここで，最適なメモリ配置の決定とは，プログラム. プログラムの性質を機械的に調べる方法として，. が使用するメモリ領域を，スクラッチパッドメモリ，メ. ソースコードを静的に解析するアプローチと，命令. インメモリのキャッシュ領域，メインメモリの非キャッシ. セットシミュレータを用いて取得したプログラムの. ュ領域のどこに配置するのが最適であるかを決定する. 実行トレースを解析するアプローチが考えられる．. ことに加えて，メインメモリのキャッシュ領域に置くプ. 本研究プロジェクトでは，ソースコードから消費エ. ログラムおよびデータを，キャッシュヒット率が上がるよ. ネルギーの情報を取得するのが困難なことと，近い. うに配置することを含んでいる．. 将来に実用化するという目標を考え，後者のアプロ. ここで，スクラッチパッドメモリ（以下，SPM と. ーチを採ることとした．後者のアプローチでは，網. 書く）とは，1 つのプロセッサのみからアクセスで. 羅性の高い実行トレースをどのように取得するかが. きる小容量・高速なオンチップメモリのことをいう．. 課題となるが，高信頼ソフトウェアの開発にあたっ. SPM は，同じサイズのキャッシュメモリよりも消. ては，プログラムのさまざまな実行パスを通るよう. 費電力が少なく，頻繁にアクセスするプログラムや. なテストケースを用意するのが通常で，そのテスト. データは，メインメモリに置いてキャッシュするよ. ケースを入力としてプログラムを動作させると，網. りも，SPM に置いた方がエネルギー効率が良い．. 5 ∼ 7）. ．. 羅性の高い実行トレースが取得できると考えられる．（4）最適なプロセッサ構成を実行時に決定するためプログラムの（大量の）実行トレースを解析して，そ. の動的最適化技術と，それを実現するリアルタ. の性質を抽出する技術を，我々は，実行トレースマ. イム OS. 4）. イニングと名付けた．. 設計時に決定するスケジューリングは，タスクの. また我々は，実行トレースから消費エネルギーの. 最大実行時間に基づいて決定するが，実際にシステ. 情報を取得するために，消費エネルギー見積りツー. ムを動作させると，実行時間が最大になることはま. ルを開発している．消費エネルギー見積りツールは，. れであり，余裕が生じる．そこで，実行時にこの余. 各命令を実行するのに必要なエネルギーや，各種の. 裕時間（これをスラックと呼ぶ）を算出し，それを考. メモリアクセスに必要なエネルギーなどのパラメー. 慮に入れて最適なプロセッサ構成を決定する機能を. 848 情報処理 Vol.51 No.7 July 2010.

(4) 2. ソフトウェアとハードウェアの協調による組込みシステムの消費エネルギー最適化. MPPコア1 データSPM 16KB. 特殊レジスタ転送回路. 命令SPM 8KB. PE-M 30MHz @1.0V. DMAC. レベルコンバータ. PE-H 60MHz @1.8V. MPPコア2. MPPコア3. 命令キャッシュ 2/4/6/8KB. BUS I/F. 図 -2 マルチ MPP コアチップの構成. 持ったリアルタイム OS である ULP RTOS の開発. 内容を転送する回路を設けることで，プロセッサコ. を行っている．. アの切換え時間を 1μs 程度に抑えることができた．これは，通常の DVFS プロセッサが電圧の変更に. ▶ MPP コアの設計. かかる時間と比べて，1 ∼ 2 桁高速である．. 図 -2 に，本研究プロジェクトで開発しているマ. もちろん，2 つのプロセッサコアを実装することでチ. ルチ MPP コアチップの構成図を示す．各 MPP コ. ップ面積は大きくなるが，プロセッサコアがチップ内で. アには，高い周波数・高い電圧で動作するプロセッ. 占める面積は小さいことや，半導体の微細化がさらに. サコアと，低い周波数・低い電圧で動作するプロセ. 進むトレンドであることを考えると，消費エネルギー削. ッサコアが含まれ，要求される処理量に応じてい. 減を重視する場合には有効なアーキテクチャと考えて. ずれか 1 つのプロセッサコアを動作させる．また，. いる．2 つのプロセッサコアを実装することによるリー. 8KB の命令キャッシュ，8KB の命令 SPM，16KB. ク電流の増加については，同時に動作するコアは片方. のデータ SPM，DMA コントローラとバスインタフ. のみであることから，動作していないコアへの電力供. ェースを持つ．. 給を停止すること（パワーゲーティング）で防ぐことがで. 通常の DVFS プロセッサでは，1 つのプロセッサ. きると考えられる（ただし，開発中のマルチ MPP コア. コアを異なる周波数・電圧で動作させるのに対して，. チップでは採用していない）．. MPP コアは，周波数・電圧ごとに別々のプロセッ. MPP コアの命令キャッシュは，4 ウェイセット. サコアを持っている．これは当初，一般的な EDA. アソシアティブで 8KB の構成となっているが，動. ツールが複数の電圧で動作する回路の設計に対応し. 作させるウェイをソフトウェアで切り換える機構を. ていないため，やむを得ず採用した方式であるが，. 持つ．そのため，2 ウェイセットアソシアティブで. 実際に設計・評価した結果，1 つのプロセッサコア. 4KB の構成や，ダイレクトマップで 2KB の構成を. を異なる周波数・電圧で動作させるよりも，さら. 取ることができる．キャッシュメモリは，プロセッ. に 30% 強の消費エネルギーが削減できた．これは，. サの中でも最も消費電力が大きいモジュールである. 同じ RTL 記述から，それぞれの電圧に最適化され. ため，リアルタイム OS がタスクごとに最適なウェ. た回路が合成されたためである．. イ数に切り換えて実行することで，大きいエネルギ. また，2 つのプロセッサコア間で特殊レジスタの. ー削減効果が見込める．. 情報処理 Vol.51 No.7 July 2010. 849.

(5) 小特集未来を切り拓く. LSI Technolog. 最先端VLSIテクノロジー. タスクのソースコード. タスクの頻度付きテストケース. ・チェックポイントの挿入・メモリ配置の決定・DEPSプロファイルの生成. ULP RTOS. タスク間最適化. タスク毎解析・最適化. タスクのメモリ配置情報タスクの DEPS プロファイル. ・プロセッサ間タスク割付け・タスク間実行時間バジェット配分・SPM割付け最適化. SPM管理テーブル. DEPS管理テーブル. ・SPM切換え・スラック算出・ハードウェア構成の切換え（DEPS）. ロードモジュール. タスクセットの情報（周期，デッドライン）. ハードウェア構成に関する情報（構成の種類，切換えオーバヘッド等）. 図 -3 ULP ソフトウェア開発環境の構成. ▶ ULP ソフトウェア開発環境. （動作周波数と電圧，キャッシュメモリの容量や構. 組込みシステムの消費エネルギー最適化作業をで. 成など）に変更するための ULP RTOS の機能を呼び. きる限り自動化し，ソフトウェア開発者の負担を軽. 出すコード（これをチェックポイントと呼ぶ）を挿入. 減するためのソフトウェア開発環境として，本研究. する．チェックポイントの挿入個所については，次. プロジェクトでは，ULP ソフトウェア開発環境の. の項で述べる．. 開発を進めている．ULP ソフトウェア開発環境は，. 次に，タスク単体でのメモリ配置の決定を行う．. DEPS フレームワークの概要の節で述べた（2）∼（4）. 具体的には，タスクの実行トレースからメモリへの. の解析および最適化を支援するものである．. アクセス履歴を取り出し，その情報から，各メモリ. 開発を進めている ULP ソフトウェア開発環境は，. 領域を，SPM，メインメモリのキャッシュ領域，メ. リアルタイム性を要求される組込みシステムを対象. インメモリの非キャッシュ領域のいずれに置くかを. としており，最大応答時間を保証するという制約下. 決定する．さらに，メインメモリのキャッシュ可能. で，平均消費エネルギーを最小化することを支援す. 領域に置くプログラムを，キャッシュヒット率が上. る．タスクスケジューリング方式としては，多くの. がるように配置する．配置結果は，タスクのメモリ. 組込みシステムで用いられている静的優先度ベース. 配置情報として，タスク間最適化に渡す．. スケジューリングを対象としている．また，タスク. 最後に，決定したメモリ配置下でのタスクの実行. セットとしては，リアルタイム性保証が可能な互い. トレースを取得し，各チェックポイントで選択する. に独立した周期タスク（または最小起動間隔が既知. ハードウェア構成の組合せごとに，最大実行時間と. の非周期タスク）を想定している．. 平均消費エネルギーを算出した表（これを，タスク. 図 -3 に，ULP ソフトウェア開発環境の構成図を. の DEPS プロファイルと呼ぶ）を生成する．タスク. 示す．プログラムの静的な解析・最適化は，まずタ. の実行トレースは，用意されたテストケースを入力. スクごとに解析・最適化を行った後，複数のタスク. として取得するが，平均消費エネルギーを算出する. を組み合わせた状態で最適化（タスク間最適化）する. ためには，テストケースに実行頻度の情報が付与さ. という 2 段階で行う．. れていることが必要である．. 最初のタスク毎解析・最適化においては，まず，. タスク間最適化においては，まず，各タスクを. タスクのプログラム中に，適切なプロセッサ構成. プロセッサへ割り付ける（現時点では，タスクの動. 850 情報処理 Vol.51 No.7 July 2010.

(6) 2. ソフトウェアとハードウェアの協調による組込みシステムの消費エネルギー最適化. 的なマイグレーションは考慮していない）と同時. いタイミングで決まっているはずである．そのため，. に，各タスクに実行時間バジェットを配分する処理. 実行時間が最大より小さくなることが決まった時点. を行う．タスクのプロセッサへの割付けは，各プ. でスラックを算出することで，早期に低性能・小エ. ロセッサの負荷をなるべく均等にすることが基本. ネルギー消費の構成へ変更することが可能になり，. となる. ☆2. ．各プロセッサの負荷に余裕が生じた場. エネルギー消費の削減につながる．. 合，その余裕分を，そのプロセッサに割り付けられ. このことから，タスクの実行時間が最大より小さ. た各タスクに分配し，タスクのデッドラインが満た. くなることが決まる場所，より正確には，タスクの. される範囲で，なるべく低性能・小エネルギー消費. 最大残り実行時間が大きく変化する場所に，チェッ. のハードウェア構成でタスクを動作させる．. クポイントを挿入する．典型的には，条件分岐で実. また，各タスクが使用する SPM の合計容量が，. 行時間の短い方のパスへ分岐した直後や，ループ回. プロセッサの持つ SPM の容量よりも大きい場合に，. 数が変動するループを抜けた直後がこれに該当する．. SPM をどのように時分割・空間分割して使用する. （b）プログラムの性質が大きく変化し，エネルギー. かを決定し，ULP RTOS が参照する SPM 管理テー. 効率の良いハードウェア構成が変化する場所. ブルを生成する．. たとえば，プログラムを効率的に実行するために. 最後に，各タスクの各チェックポイントごとに，. 必要なキャッシュの容量が大きく変化する場所では，. 取り得るハードウェア構成の候補を決定し，ULP. プロセッサのキャッシュ容量を変更することで，消. RTOS が参照する DEPS 管理表を生成する．. 費エネルギーが削減できる場合がある．このように，. 以上の静的な最適化の結果，ULP RTOS が行う. プログラムの性質が大きく変化する場所に，チェッ. べき処理は，（a）チェックポイントごとにスラック. クポイントを挿入する．. を算出する，（b）そのスラックを用いてデッドライ. 言うまでもなく，チェックポイントを多く挿入し過ぎ. ンが満たせる最低性能・最小エネルギー消費のハ. ると，チェックポイントの処理オーバヘッドにより消費. ードウェア構成に切り換える，（c）時分割使用する. エネルギーが増加してしまうおそれがあるため，有効. SPM 領域をタスクごとに切り換える，という 3 つ. なチェックポイントの絞り込みが重要である．. の処理のみとなる．なお，ULP RTOS は，マルチ. ソフトウェア開発への提案. コアプロセッサ向けのオープンソースのリアルタイム OS である TOPPERS/FMP カーネルを拡張する形で開発する．. 計算機システムにおいて，エネルギーを消費するのは直接的にはハードウェアであり，ソフトウェア開発. ▶ 実行トレースマイニング. 者が消費エネルギーのことを考慮してソフトウェア開発. タスク毎解析・最適化におけるチェックポイント. を行うことは少ない．本研究プロジェクトは，CREST. の挿入個所は，実行トレースマイニングの技術を用. ULP 領域の採択テーマの中で最もソフトウェア寄りの. いて，次の 2 つの観点から決定する．. テーマであることから，消費エネルギーの小さいソフト. （a）タスクの最大残り実行時間が大きく変化する場所. ウェアを開発することを，ソフトウェア開発者に動機付. 前に述べた通り，ULP RTOS はスラック（タスク. けすることにも取り組んでいる．. の実行時間が最大にならなかった場合に生じる余裕. ここでは，消費エネルギーの小さいソフトウェア. 時間）を算出し，最適なプロセッサ構成を決定する．スラックの算出処理は，タスクの終了時に，タスクの実際の実行時間から行うのが基本であるが，タスクの実行時間が最大より小さくなることは，より早. ☆2. 高性能なプロセッサ構成の方がエネルギー効率が低い場合（言い換えると，プロセッサ構成による消費電力の差が，性能の差よりも大きい場合）には，各プロセッサの負荷が不均等になり一部のプロセッサを高性能な構成で動作させるより，各プロセッサの負荷を均等にして各プロセッサをなるべく低性能な構成で動作させた方が消費エネルギーが小さくなる．. 情報処理 Vol.51 No.7 July 2010. 851.

(7) 小特集未来を切り拓く. LSI Technolog. 最先端VLSIテクノロジー. 開発を動機付けるための取組みとして，低消費エネ. 結果が得られる．すなわち，（最悪実行サイクル）. ルギーアルゴリズムと，消費エネルギーを考慮に入. ×（平均実行サイクル）という指標により，消費エネ. れた要求分析手法に関する研究成果について述べる．. ルギーからみたアルゴリズムの優劣を議論すること. 2. ができることになる．. ▶ 低消費エネルギーアルゴリズム. たとえば，この指標を用いてクイックソートとヒ. 消費エネルギーの小さいソフトウェアを開発する. ープソートの 2 つのソーティングアルゴリズムを. には，まず，消費エネルギーの小さいアルゴリズム. 比較すると，ソートする要素の数 N に対して，ク. に関する研究開発が重要になると考えられる．しか. （N × イックソートの平均消費エネルギーは O. しながら，上述した通り，エネルギーを消費するの. logN）であるのに対して，ヒープソートは O（N3 ×. はハードウェアであるため，ハードウェアを仮定し. logN3）となる．. ないアルゴリズムの議論だけで消費エネルギーの大. さらに，プロセッサの動作周波数と電圧を実行時. 小を議論するのは容易ではない．そこで，絶対的な. に変化させる状況を考えると，最大残り実行時間が. 大小ではなく，アルゴリズムが消費するエネルギー. 早く減少するアルゴリズムの方が，早期に低い周波. をオーダで議論できると良いと考えられる．. 数・低い電圧に変更でき，消費エネルギーを小さく. この観点で議論すると，基本的には，消費エネル. できる．. ギーは演算量と比例すると考えるのが妥当で，演算. ここでは，クイックソートを例として説明する．. 量の少ないアルゴリズム，すなわち，実行速度の速. クイックソートでは，ソートする要素の集合を，あ. いアルゴリズムが，消費エネルギーも少ないという. る値を境界として 2 つの集合に分割し，それぞれの. 当然の結論となる．. 集合を再帰的にソートする．再帰呼出しで使用する. それに対して，DVFS を行うことを前提に，本研. スタック領域のサイズを一定に抑えるためには，要. 究プロジェクトの方針に従い，最大応答時間を保証. 素数の少ない方の集合を先にソートし，要素数の多. するという制約下で平均消費エネルギーを議論する. い方の集合は，末尾再帰呼出しによりソートする必. 8）. 5. と，次のような興味深い結果が得られる．. 要がある．一方，最大残り実行時間を早く減少させ. 最初に，プロセッサの動作周波数と電圧を静的に. るためには，要素数の多い方の集合を先にソートし. 決定し，実行時に変化させない場合を考える．最大. た方が良い．この例は，使用するメモリ容量を最小. 応答時間を保証するためには，プログラムの実行に. にする場合と，消費エネルギーを最小にする場合で，. 最悪実行サイクルがかかったとしても時間制約を満. 最適なアルゴリズムが異なる例となっている．. たすように，動作周波数と電圧を決定する必要がある．そのため，最悪実行サイクルの小さいアルゴリ. ▶ 消費エネルギーを考慮した要求分析手法. ズムを用いた方が，プロセッサを低い周波数・低い. システムの消費エネルギーを削減するための最上. 電圧で動作させることができる．一方で，平均消費. 流からのアプローチは，過剰な品質要求によりエネ. エネルギーは，プログラムの平均実行サイクルにも. ルギー消費の無駄を生じていないか，システムの要. 大きく依存するため，プログラムの最悪実行サイク. 求仕様を見直すことである．もちろん，品質を下げ. ルと平均実行サイクルのどちらを重視してアルゴリ. ることでユーザの満足度を低下させるのは望ましく. ズムを選択すべきかという議論が成立する．. ないため，ユーザの満足度を保ちつつ，消費エネル. DVFS においては，消費電力は動作電圧の 3 乗に. ギーの削減を図ることが重要である．. 比例し，動作周波数と動作電圧が比例関係にあると. そこで本研究プロジェクトでは，ユーザ満足度を. 仮定すると，平均消費エネルギーは，（最悪実行サ. 損ねずに消費エネルギー削減を行うための要求適. イクル） ×（平均実行サイクル）に比例するという. 正化手法に関して研究を行っている．具体的には，. 2. 852 情報処理 Vol.51 No.7 July 2010. 9）.

(8) 2. ソフトウェアとハードウェアの協調による組込みシステムの消費エネルギー最適化. 要求分析に関する従来の知験を活用して，（1）要求本質的なユーザニーズの分析，（3）省エネ獲得，（2）ルギー仕様案の創出，（4）省エネルギー仕様案の実. クロック後段. 前段. （6）現方法具体化，（5）省エネルギー効果の見積り，省エネルギー仕様案による影響の見積り，（7）省エ. エラーの予報. ネルギー仕様の選択，（8）採用省エネルギー仕様による要求の調整の 8 つのステップからなる手法を提案している．. 遅延. 比較器. クロック図 -4 カナリア FF. その他の研究成果. 頻繁に実行されるコードを配置することで，消費電力を削減することができる. 11）. ．. 本研究プロジェクトでは，以上で紹介した以外にもいくつかの研究テーマに取り組んでいる．ここで. ▶ メモリの製造ばらつき考慮. は，そのうちのいくつかを紹介する．. 半導体の微細化による製造プロセスのばらつきにより，異常にリーク電流の大きいメモリセルができ. ▶ 電圧マージンの適正化. る場合がある．オンチップのキャッシュにこのよう. 半導体の微細化が進むにつれて，製造プロセスの. なセルが含まれていた場合，そのセルにリーク電流. ばらつき，電圧のゆらぎ，温度変化といった変動要. の小さくなる論理値を書き込んで使用しないことと. 因の影響が大きくなっている．従来行われてきたよ. し，スペアとして用意したセルを使用することで，. うに，最悪のケースを考えて電源電圧を設定すると，. リーク電流を削減することができる．また，遅延の. 典型的なケースでは過剰なマージンが取られている. 大きいセルをスペアで置き換えることで，過剰なマ. ことになり，消費電力の増大につながっている．. ージンの削減を行うことができる. 12）. ．. この問題に対応するために，カナリア方式と呼ばれるフリップフロップ（カナリア FF）を採用するこ. ▶ ゲーテッドフリップフロップ. とで，プロセッサの消費電力を削減できることを示. フリップフロップの消費電力を削減する手法とし. した．カナリア FF とは，図 -4 に示す回路構成によ. て，フリップフロップの出力が変化しない場合には，. り，電源電圧を徐々に下げていったときに，エラー. クロックの供給を停止するゲーテッドフリップフロ. の発生を予報することができるものである. 10）. ．. ップ（GFF）がある．ところが，GFF をプロセッサ設計に単純に適用すると，クロックの供給を停止す. ▶ ハイブリッドメモリ. る回路の電力消費により，消費電力削減効果が出な. オンチップの SPM を，低い電源電圧・低いスレ. いという問題がある．この問題に対応するために，. ッシュホールド電圧で動作するメモリと，それと等. クロックの供給を停止する回路を，1 つのレジスタ. しいアクセス時間を持ち，高い電源電圧・高いスレ. を構成する複数ビットのフリップフロップで共有す. ッシュホールド電圧で動作するメモリを組み合わせ. る方式を提案し，消費電力の削減効果が高まること. て構成する．前者のメモリは，動的消費エネルギー. を示した. 13）. ．. （メモリアクセスを行ったときにのみ消費するエネルギー）は小さく，静的消費エネルギー（リーク電流により，メモリアクセスがない場合にも消費するエネルギー）が大きいという特性を持つため，特に. 情報処理 Vol.51 No.7 July 2010. 853.

(9) 小特集未来を切り拓く. LSI Technolog. 最先端VLSIテクノロジーおわりに. 本稿では，CREST ULP 領域の採択テーマとして. 取り組んでいるソフトウェアとハードウェアの協調による組込みシステムの消費エネルギー最適化に関する研究プロジェクトの概要とこれまでの成果について紹介した．. 現在，本研究プロジェクトの成果を分かりやすく見せるために，テレビ会議システムの評価アプリケーションの開発を進めている．プロジェクトの終了時には，これを用いたデモンストレーションを実施する計画である．. 本研究プロジェクトでは，さまざまな要素技術の研究から開始して，それらの多くを統合できる枠組みとし. て DEPS フレームワークを提案した．DEPS フレームワークを構成する個々の最適化手法については，プロジェクト終了後も研究を進めることができるが，フレームワークを定義し，その全体を動作させることは，まとまった予算なしで実施するのは難しく，本研究プロジェクトの期間内に完成させたいと考えている．. 謝辞本研究プロジェクトは，科学技術振興機構の CREST ULP 領域の採択テーマとして実施してい. るものである．貴重なアドバイスをいただいている ULP 領域の南谷研究統括およびアドバイザ各位，本研究プロジェクトの遂行に協力いただいている名古屋大学，九州大学，東芝，立命館大学の研究メンバ各位に感謝する．. 854 情報処理 Vol.51 No.7 July 2010. 参考文献 1） Zeng, G., Tomiyama, H. and Takada, H. : A Generalized. Framework for Energy Savings in Hard Real-Time Embedded Systems, IPSJ Trans. on System LSI Design Methodology, Vol.2, pp.167-179（2009). 2） Ishihara, T. and Goudarzi, M. : System-Level Techniques for Estimating and Reducing Energy Consumption in Real-Time Embedded Systems, Int'l SoC Design Conference, pp.67-72 (2007). 3） Ishihara, T., Yamaguchi, S., Ishitobi, Y., Matsumura, T., Kunitake, Y., Oyama, Y., Kaneda, Y., Muroyama, M. and Sato, T. : AMPLE: An Adaptive Multi-Performance Processor for Low-Energy Embedded Applications, IEEE Symposium on Application Specific Processors, pp.83-88 (2008). 4）立松知紘，横山哲郎，菊地武彦，冨山宏之，高田広章 : 組込みシステムのタスク内 DVFS のための実行トレースマイニング , 信学技報 , Vol.108, No.478, pp.11-16 (2009). 5） Ishitobi, Y., Ishihara, T., and Yasuura, H. : Code and Data Placement for Embedded Processors with Scratchpad and Cache Memories, Journal of Signal Processing Systems (2008). 6） Takase, H., Tomiyama, H. and Takada, H. : Partitioning and Allocation of Scratch-Pad Memory for Priority-Based Preemptive Multi-Task Systems, Design, Automation and Test in Europe (2010). 7） Gauthier, L. and Ishihara, T. : Optimal Stack Frame Placement and Transfer for Energy Reduction Targeting Embedded Processors with Scratch-Pad Memories, IEEE Workshop on Embedded Systems for Real-Time Multimedia, pp.116-125 (2009). 8） Yokoyama, T., Zeng, G., Tomiyama, H. and Takada, H. : Analyzing and Optimizing Energy Efficiency of Algorithms on DVS Systems: A First Step towards Algorithmic Energy Minimization, Asia and South PacificDesign Automation Conference, pp.727-732 (2009). 9）安東孝信，中里竜，深谷哲司 : ユーザ満足度を損ねずに省エネルギーを目指す要求適正化手法，ウィンターワークショップ 2010・イン・倉敷 (2010). 10）佐藤寿倫 : カナリア・フリップフロップを利用する省電力マイクロプロセッサの評価 , SACSIS 2007, pp.227-234 (2007). 11）Matsumura, T., Ishihara, T. and Yasuura, H. : Simultaneous Optimization of Memory Configuration and Code Allocation for Low Power Embedded Systems, ACM Great Lakes Symposium on VLSI, pp.403-406 (2008). 12）Goudarzi, M. and Ishihara, T. : SRAM Leakage Reduction by Row/ Column Redundancy under Random Within-die Delay Variation, IEEE Transaction on VLSI Systems (2009). 13）Okuhira, T. and Ishihara, T. : Unification of Multiple Gated FlipFlops for Saving the Power Consumption of Register Circuits, 2010 Int'l Conference on Embedded Systems and Intelligent Technology, Vol.1, p.115 (2010). （平成 22 年 5 月 6 日受付）高田広章（正会員）[email protected] 名古屋大学大学院情報科学研究科教授．東京大学助手，豊橋技術科学大学助教授等を経て，2003 年より現職．2006 年より附属組込みシステム研究センター長を兼務．博士（理学）．組込みシステム開発技術の研究に従事．オーンソースのリアルタイム OS 等を開発する TOPPERS プロジェクトを主宰．.

(10)