Vol. 27 No. 4 Nov RTOS RTOS RTOS Windows RTOS Windows RTOS RTOS Windows COM RTOS RTOS RTOS RTOS RTOS ISS(Instruction Set Simuator ) Windows (

(1)

特集●ソフトウェア論文

オープンソース組込みシステム向けシミュレータの

マルチプロセッサ拡張

安積卓也古川貴士相庭裕史柴田誠也本田晋也

冨山宏之高田広章

本論文では，オープンソースとして公開している，組込みシステム向けのマルチプロセッサ対応シミュレータについて述べる．本シミュレータは，マルチプロセッサ向けリアルタイム OS やアプリケーション開発の効率化を目的とし，既存のシングルプロセッサ用 ISS (Instruction Set Simuator:命令セットシミュレータ) を拡張して，プロセッサ個数分のシミュレータを連携動作させることで，ISS の少ない変更で，マルチプロセッサ対応のシミュレーション環境を実現可能である．マルチプロセッサ対応のシミュレーション環境を実現するために，ISS 間の (1) 共有メモリ機構，(2) 排他制御機構，(3) プロセッサ間割込み機構，(4) タイミング同期機構，を新規開発した．さらに，リアルタイム OS のアイドル処理を利用したシミュレーション時間の短縮手法を提案する．本方式は，本研究で対象とした ISS 以外にも適用することが可能である．

This paper presents an open source simulator corresponding multiprocessors for embedded systems. The purpose of the simulator is to eﬀectively develop a real-time OS and application for multiprocessors. To realize the multiprocessor simulation environment, an ISS (Instruction Set Simulators) for a single processor is extended with few modiﬁcations and cooperate with other ISSes. There are four newly-developed mech-anisms between ISSes as follows: (1) a shared memory mechanism, (2) an exclusion control mechanism, (3) an interrupt mechanism, and (4) a synchronism mechanism. Moreover, the method of reducing simulation time to use the idle time of the real-time OS is proposed. It is possible to adapt this environment to other kinds of ISSes.

Open Source Simuator for Embedded System Ex-tended Multiprocessor.

Takuya Azumi, Hiroyuki Tomiyama, 名古屋大学大学院情報科学研究科，現在，立命館大学, Graduate School of Information Science, Nagoya University. Presently with Ritsumeikan University.

Takashi Furukawa, 名古屋大学大学院情報科学研究科，現在，京セラ株式会社横浜 R&D センター, Grad-uate School of Information Science, Nagoya Uni-versity. Presently with Kyocera Corporation Yoko-hama R&D Center.

Seiya Shibata, 日本学術振興会特別研究員/名古屋大学大学院情報科学研究科, Research fellow of the Japan So-ciety for the Promotion of Science/Graduate School of Information Science, Nagoya University. Hiroshi Aiba, Shinya Honda, Hiroaki Takada, 名古屋

大学大学院情報科学研究科, Graduate School of Infor-mation Science, Nagoya University.

コンピュータソフトウェア, Vol.27, No.4 (2010), pp.24–42. [ソフトウェア論文] 2009 年 11 月 13 日受付.

1 はじめに

近年，組込みシステムにおいても，性能向上・低消費エネルギーの観点からマルチプロセッサシステムの利用が増えてきた．しかし，組込みマルチプロセッサシステムのソフトウェア開発では，シングルプロセッサ用のRTOS(Real-Time Operating System：リアルタイムOS)を利用している場合が多い．効率的な開発のためには，マルチプロセッサ向けRTOS の利用が必要である．さらに，マルチプロセッサシステムは実機を使ったデバッグ環境が十分でない．そのため，マルチプロセッサRTOSに対応したシミュレータによるデバッグ環境が求められている．我々はこれまでに，シングルプロセッサ対応RTOS のシミュレーション環境として，RTOSシミュレータ[4] [10]を用いたコシミュレーション環境を開発し

(2)

てきた．RTOSシミュレータは，RTOSの依存部と呼ばれるプロセッサの違いを吸収するレイヤーを利用して，RTOSのタスクにWindowsのスレッドを割り当てることにより，RTOS及びアプリケーションをWindows上で動作させるプログラムである．そのため，特定のプロセッサに依存しないRTOSの共通部のコード及びアプリケーション開発に有用であり，これらがホスト計算機上のネイティブプログラムとして動作するため，非常に高速な実行が可能である．また，RTOSシミュレータと他のハードウェアシミュレータ等との通信を実現するため，デバイスマネージャと呼ばれるソフトウェアを開発した．デバイスマネージャは，WindowsのCOMを用いてシミュレータ間通信を仲介する．しかしながら，マルチプロセッサ対応RTOSのシミュレーションをRTOSシミュレータと同様の方式で実現しようとすると，RTOSの共通部のコードをシミュレーション用に書き換える必要があるため， RTOSの開発には向かない．本研究では，マルチプロセッサ対応 RTOSのホスト計算機上での実行を目的として，複数の ISS(Instruction Set Simuator：命令セットシミュレータ)をデバイスマネージャで接続することで， Win-dows上で動作するマルチプロセッサ対応のシミュレーション環境(TISE:TOPPERS Integrated Simulation Enviroment)†1を実現した．マルチプロセッサRTOSに対応したシミュレータを実現するためには，複数のプロセッサのシミュレーションができること，全てのプロセッサから同一のアドレスでアクセス可能である共有メモリを持つこと，プロセッサの識別機構を持つこと(プロセッサID)，任意のプロセッサへの割込み(プロセッサ間割込み) を発生可能であること，プロセッサ間の排他制御機構をプロセッサ数の2倍持つこと，すべてのプロセッサでタイミング同期ができること，のすべての要件を満たす必要がある．これらの要件を満たすために，既存のISSである SkyEye[14]を拡張(SkyEye-MP)した．具体的には， †1 http://www.toppers.jp/sim.html より，実行ファイ ルおよびソースコードをダウンロードできる． ISS間の(1)共有メモリ機構，(2)排他制御機構，(3) プロセッサ間割込み機構，(4)タイミング同期機構，を新規開発した． SkyEye-MPは，RTOSシミュレータと比較すると，シミュレーション速度は低速であるが，RTOSの共通部のコードのみならず，ISSがサポートしているプロセッサ用の依存部のコードを変更なしに実行できるため，RTOSの開発に有効である．さらに，RTOS の実行の命令レベルのトレースログが取得できるという利点もある． TISEでは，デバイスマネージャにより，ハードウェア記述言語(HDL)用のシミュレータや，最近普及が進んでいるSystemC言語用のシミュレータ[2]など，様々なシミュレータが接続可能である．さらに，ホスト計算機もマルチプロセッサである場合は，複数のISSでマルチプロセッサをシミュレーションするため，シミュレーション負荷の分散によって高速なシミュレーションが可能である．さらに，RTOSのアイドル時間を活用したシミュレーション時間の短縮手法を提案し実装した．本論文の構成は次のとおりである．まず2章で，マルチプロセッサ対応のシミュレーション環境のベースとなった，コシミュレーション環境と，SkyEyeの概要をそれぞれ解説する．3章でマルチプロセッサ向け RTOSについて述べる．4章で，マルチプロセッサ対応シミュレータの要件及び，マルチプロセッサ対応シミュレータの実現方針について述べ，5章でその実現について詳述する．6章ではISS間のタイミング同期について述べる．7章では，RTOSのアイドル時間を活用したシミュレーション時間の短縮手法について述べる．8章で関連研究について述べ，9章で開発成果の活用について報告する．最後に10章で本論文をまとめる．

2 シングルプロセッサ向けシミュレーション

環境

マルチプロセッサ対応のシミュレーション環境のベースとなった，コシミュレーション環境(RTOSシミュレータ及びデバイスマネージャ)と，シングルプロセッサ向けのISSであるSkyEyeの概要をそれぞ

(3)

図1 コシミュレーション環境の構成図 れ解説する． 2. 1 コシミュレーション環境我々は，これまでSoC開発向けに，プロセッサと専用ハードウェアにより構成されるシステムをホスト計算機上でシミュレーションするコシミュレーション環境を開発してきた．コシミュレーション環境の構成を図1に示す．本コシミュレーション環境は専用ハードウェアやセンサ，ディスプレイ等の物理デバイスをシミュレーションするハードウェアシミュレータ，アプリケーションソフトウェアとRTOSをシミュレーションするRTOSシミュレータ及び，ハードウェアシミュレータ/RTOSシミュレータ間を接続し，通信を実現するデバイスマネージャから構成される． 2. 1. 1 RTOSシミュレータ RTOSシミュレータはユーザプログラムと共にホスト計算機上のネイティブコードにコンパイルされ，高速に動作する．RTOSシミュレータは，シングルプロセッサ用RTOSの仕様である，µITRON4.0仕様[17] [19]に準拠している．また，RTOSシミュレータは文献[11]で定められたデバイスアクセス用API をサポートしている．このAPIを用いてアドレスを指定することにより，ユーザプログラムはデバイスマネージャを介してハードウェアシミュレータにアクセスする． 2. 1. 2 デバイスマネージャデバイスマネージャは，シミュレータ間の通信を仲介し，ハードウェアシミュレータに対するアクセス (リード/ライト)要求及び，割込み要求を実現する．各シミュレータは起動後にデバイスマネージャに接続する．本コシミュレータではメモリマップドI/Oを前提としており，各ハードウェアシミュレータには固有のアドレス空間がマッピングされる． RTOSシミュレータは，デバイスアクセス用API で指定されるアドレスを用いてハードウェアシミュレータにアクセスする．アドレス空間はデバイスマネージャが管理し，シミュレータからのアクセス要求があった時に，操作すべき適切なシミュレータを呼び出す．各シミュレータはデバイスマネージャへの接続後に，自分のアドレス空間をデバイスマネージャに知らせる．デバイスマネージャは，別の機能として共有メモリもサポートしている．各シミュレータは，ホストOS の共有メモリ機能を利用することでシミュレータ間の共有メモリを実現する．ホストOS上の共有メモリは，シミュレータの要求に応じてデバイスマネージャが作成する．さらに，デバイスマネージャはRTOSシミュレータ間の排他制御のための排他制御機構もサポートしている．RTOSシミュレータは，ホストOSのミューテックス機能を利用することで排他制御を実現する．ホストOS 上のミューテックスは，RTOSシミュレータからの要求に応じてデバイスマネージャが作成する．シミュレータ/デバイスマネージャ間の通信はCOM で実現しているため，ハードウェア記述言語(HDL) 用のシミュレータや，SystemC言語用のシミュレータなど，様々なシミュレータが接続可能である． 2. 2 命令セットシミュレータ：SkyEye SkyEyeはGDB/ARMulatorから派生したARM アーキテクチャのISSである．SkyEyeは，ホスト計算機上で1つのARMアーキテクチャプロセッサをシミュレーションする．シミュレーションは，ARMアーキテクチャ用のオブジェクトファイルを1命令毎に読み込み実行する．命令レベルのシミュレーションを行うため，命令単位のトレースを取ったり，実行サイクル数を計算できる．また，SkyEyeは，GDBを用いてデバッグが可能である．図2にオリジナルのSkyEyeのコンフィギュレーショ

(4)

1 cpu: arm7tdmi 2 mach: at91

3 mem_bank: map=M, type=RW, addr=0x00000000, size=0x01000000

4 mem_bank: map=I, type=RW, addr=0xf0000000, size=0x10000000 図2 SkyEye のコンフィギュレーションファイルの例 ンファイルを示す．図2の1行目では，CPUのアーキテクチャを指定する．この例では，ARM7TDMI を指定している．図2の2行目は，チップや開発ボードを指定する． 3，4行目ではメモリの設定を行っている．map=M とした場合にはその領域はRAM またはROMとして設定され，map=Iとした場合にはI/O空間として設定される．type=Rとした場合は読み出し専用となり，type=RWとした場合には読み書きが可能となる．addrとsizeによってその領域の開始アドレスとサイズを設定する．シミュレーション時には，このメモリマップの設定に従い，メモリへのアクセスやデバイスレジスタへのアクセスを行う．

3 マルチプロセッサ向け RTOS

TISEは，マルチプロセッサ対応RTOSのホスト計算機上での実行を第一目的としている．マルチプロセッサ対応RTOSとしては，ITRON仕様をマルチプロセッサ向けに拡張し，TOPPERS/FDMPカーネル[21](以下，FDMPカーネル)を対象とする． 3. 1 FDMPカーネルの概要組込みシステムのソフトウェア開発においては， RTOSが用いられることが多い．そのため，マルチプロセッサを用いて組込みシステムを構築する際には，マルチプロセッサ上でのシステム開発をサポートするRTOSが必要になる．拡張仕様は，µITRON4.0仕様のスタンダードプロファイルをベースにしており，プロセッサを跨いで通常のµITRON4.0仕様のシステムコールを実行することが可能である．タスクやセマフォなどのカーネルオブジェクトはいずれかのプロセッサに属する．タスク等の処理単位となるオブジェクトはそれが属するプ図3 プロセッサをまたぐシステムコールの実行例 ロセッサでのみ実行される．すなわち，あるタスクがどのプロセッサで実行されるかは静的にのみ決定され，システム動作中にタスクが実行されるプロセッサが変わることはない． FDMPカーネルは，組込みシステム向けに，リアルタイム性の確保が容易なAMP方式を採用しており，プロセッサ毎に独立したオブジェクトコードとなっている． 3. 2 プロセッサをまたぐシステムコールの実行例 FDMPカーネルでは，プロセッサ毎にそのプロセッサに所属するカーネルオブジェクトの管理ブロックを持つ．そして，それらの管理ブロックを配置するメモリとアドレスを共有し，お互いのプロセッサの管理ブロックを直接操作する(直接操作法)．プロセッサをまたぐシステムコールの実行例を図3 に示す．例えば，図3で，プロセッサ1のタスクA がプロセッサ2のタスクBを起動するシステムコールを発行すると，タスクAは，タスクBの状態を管理するデータ構造のポインタを取得して，このポインタを用いて値を書き換え，起動状態とする．タスク Bを起動した結果，プロセッサ2でのタスク切替えが必要になった場合には，プロセッサ1からプロセッサ2に割込みを発生させ，タスク切替えを依頼する (図中の2)． FDMPカーネルはプロセッサ毎に独立したオブジェクトコードとなっているため，起動時に各プロセッサの管理ブロックのポインタを他のプロセッサに渡し，システムコール実行時に用いる．

(5)

4 マルチプロセッサ対応シミュレータの

設計方針

本章では，マルチプロセッサ向けRTOSである FDMPカーネル対応のシミュレータを実現するための要件と，その実現方法について述べる． 4. 1 マルチプロセッサ対応シミュレータの要件マルチプロセッサ対応シミュレータを実現するための要件は下記のとおりである．要件(1) 複数のプロセッサのシミュレーションができる要件(2) 全てのプロセッサから同一のアドレスでアクセス可能である共有メモリを持つプロセッサをまたぐシステムコールの実現のために，プロセッサ間で，ポインタを受け渡して，そのポインタを用いて同一のデータにアクセスすることが必要である．要件(3) プロセッサの識別機構を持つ(プロセッサ ID) マルチプロセッサRTOSが，どのプロセッサで実行しているかを識別するために必要になる．要件(4) 任意のプロセッサの割込み(プロセッサ間割込み)を発生可能である 3. 1節で述べたように，プロセッサをまたぐシステムコールを実現するために，プロセッサ間割込みが必要になる．要件(5) プロセッサ間の排他制御機構をプロセッサ数の2倍持つマルチプロセッサRTOSで利用するロックを実現するために必要になる．タスクロック(タスク管理に関わるデータを利用する場合に利用)，オブジェクトロック(同期・通信オブジェクトに関わるデータを利用)をプロセッサ毎に持つため，プロセッサ間の排他制御機構がプロセッサ数の2 倍必要になる．要件(6) 任意の精度ですべてのプロセッサの同期ができる同期を行うことで，マルチプロセッサRTOS上で動作するプログラムのデバッグが容易になる．さらに，実行トレースログのサイクルが揃うことで，プログラムの解析が容易になる． 4. 2 マルチプロセッサ対応シミュレータの実現方法マルチプロセッサ対応シミュレータの実現方法として，以下の3つの方法を検討した． (A) RTOSシミュレータを作成する方法 (B) マルチプロセッサ対応ISSを作成する方法 (C) 複数のシングルプロセッサ対応ISSを接続する方法上記の3つの方法について，マルチプロセッサ RTOSの変更量，シミュレータの実行方法，シミュレータの開発工数に着目して比較検討した．これらに，着目した理由としては，既存のマルチプロセッサRTOSをシミュレータ上で実行する場合や，新規のマルチプロセッサRTOSをシミュレータ上での開発を考慮すると，マルチプロセッサRTOSの変更量をなるべく抑える必要がある．次に，シミュレーション時間の低減のために，シミュレータ自体の実行方法を考慮する．さらに，マルチプロセッサRTOS の変更量，シミュレータの実行方法を考慮した上で，シミュレータの開発工数も抑える必要がある． 4. 2. 1 マルチプロセッサRTOSの変更量 2. 1. 1項で述べたように，(A)のRTOSシミュレータを利用する方法は，ホスト計算機上で直接実行可能なため非常に高速に動作するという利点がある．この方法は，プロセッサ毎にプロセスを割り付け，複数のプロセスでシミュレーションする方法と，単一プロセスでシミュレーションする二種類の方法が考えられる．要件(2)より，プロセッサ間で共有メモリに配置した管理ブロックに対するポインタを用いたアクセスを実現する必要がある．複数のプロセスを用いる方法では，プロセス間でホストOSが提供する共有メモリを用いて，共有メモリ上に管理ブロックを配置することは可能であるが，各プロセスから見える共有メモリのアドレスはホスト OSが動的に設定するため，各プロセスでアドレスが異なり，ポインタを用いたやりとりができない．一方，単一プロセスでシミュレーションする場合

(6)

は，共有メモリは使用する必要がないため，要件(2) は問題とならない．しかしながら，FDMPカーネルはプロセッサ毎に独立したオブジェクトコードであることを前提として実装されているため，単一のプロセスとすると，RTOSの共通部の大幅な書き換えは避けられない． (B)，(C)のISS を利用する方法は(A)と異なり， RTOSの共通部の変更は必要ない． 4. 2. 2 シミュレータの実行方法 (B)は，単一プロセスで複数プロセッサをシミュレーションするため，プロセッサ間でのタイミングの同期を取りやすいが，プロセッサ数にほぼ比例してシミュレーション時間が増大するという問題がある．一方，(C)は，ホスト計算機がマルチプロセッサであればシミュレーション負荷の分散によって，(B)と比較して高速なシミュレーションが可能である．(C) は，個々のISSを別々のプロセスで実行するため，各 ISS間で同期を行う必要がある． 4. 2. 3 シミュレータの開発工数 (B)は既存のシングルプロセッサ用ISSをマルチプロセッサ対応するとISSのコードの変更量が多くなると予想される． (C)は，各シングルプロセッサISS間の通信や同期機構を追加することで実現できるため，ISSのコードの変更量は少ないことが予想される．同期機構は，既存のデバイスマネージャを利用することで実現できるため，工数を抑えられる． 4. 2. 4 TISEの実現方針 TISEの実現方針としては，(C)を採用した．(A) は要件(2)を満たせないことや，RTOSのコードの大幅な書き換えが必要となるため，実現方針としての採用を見送った．(B)と(C)を比較した場合，(C)の方がISSコードの変更量は少ない．さらに，(C)の問題点である各ISS間の通信や同期機構は，デバイスマネージャを利用することで，実現できると判断した．

5 マルチプロセッサシミュレーション環境の

実現

本章では，4章で検討した方針に従った，マルチプロセッサシミュレーション環境の実現方法について述べる．同期機構については，6章で述べる．マルチプロセッサに対応したシミュレーション環境 (TISE)を図4に示す．TISEは，ISS，ハードウェアシミュレータ及び，デバイスマネージャから構成される．マルチプロセッサのシミュレーションのために複数のISSを起動し，各ISSが1つのプロセッサをシミュレーションする．ISS間，ISS/ハードウェアシミュレータ間の通信は，デバイスマネージャを介した通信及び，ホストOSの提供する共有メモリ，ミューテックス機能により実現する．シミュレータ間の接続や，共有メモリオブジェクト，ミューテックスオブジェクトは，デバイスマネージャにより管理されている．

SkyEye-MPは，SkyEyeをベースに拡張され，ISS 本体を実行するメインスレッドとデバイスマネージャに接続するためのCOMスレッドにより構成されている． 4. 1節で述べた，マルチプロセッサ対応シミュレータの要件を満たすために，SkyEyeに共有メモリ，プロセッサIDの設定，プロセッサ間割込み，プロセッサ間排他機構の拡張を行った．本章では，それぞれの拡張の詳細について述べる．図5にSkyEye-MPのコンフィギュレーションファイルの例を示す． 5. 1 共有メモリの実現要件(2)より，共有メモリを実現する．共有メモリは，ホストOSであるWindowsの提供する共有メモリオブジェクトにより実現する．共有メモリオブジェクトを用いることにより，SkyEye-MPは，ローカルメモリと同様に共有メモリにアクセス可能である．共有メモリの管理はデバイスマネージャが行う方針とした．SkyEye-MPのいずれかをマスタとして，マスタにより，共有メモリを管理する方法も検討したが，SkyEye-MPの起動や終了の順序に制約が生じ，この順序を守らない場合は，共有メモリが正しく解放されない等の問題が発生する．さらに，SkyEye-MP により，共有メモリを管理することで，SkyEyeの変更量が増えることも予想される． 5. 1. 1 デバイスマネージャが提供するAPI デバイスマネージャがISSに提供する共有メモリの

(7)

図4 マルチプロセッサに対応したシミュレーション環境 //メモリ構成の設定

1 mem_bank: map=M, type=RW, addr=0x00000000, size=0x00100000

2 mem_bank: map=S, type=RW, addr=0x80001000, size=0x00001000, devm_addr=0x90000000 3 mem_bank: map=I, type=RW, addr=0xf0000000,

size=0x10000000 //排他制御の設定 4 devm_mutex_cont: base=0xffffff00 5 devm_mutex_obj: id=0 6 devm_mutex_obj: id=1 //プロセッサ割込みの設定 7 devm_int_id: 0x01 8 devm_int_out: base=0xffffff40 9 devm_int_in: subid=0x01, IRQ=0 10 devm_int_in: subid=0x00, IRQ=1

//プロセッサ ID の設定

11 prc_id: base=0xffffffa0, id=1 12 cycle_counter: base=0xffffffc0 //実行ホストプロセッサの設定 13 prc_affinity: id=0 //経過時間レジスタの設定 14 perf_time: base=0xffffff80 図5 SkyEye-MP のコンフィギュレーション ファイルの例 COMのAPIを図6に示す．デバイスマネージャは CreateSharedMemory()で要求された共有メモリオブジェクトの作成を行う．ReleaseSharedMemory() を呼ばれた結果，どのISSからも参照されなくなった共有メモリオブジェクトは，デバイスマネージャが自動的に削除する． 5. 1. 2 SkyEyeの修正点 SkyEye-MPのメモリ構成は，図5の1，2行目のようにコンフィギュレーションファイルで指定する．

1 CreateSharedMemory(unsigned long address, unsigned long size, BSTR lpName) 2 ReleaseSharedMemory(BSTR lpName) 図6 共有メモリに関する COM の API map=Mはローカルメモリを表し，map=Sは共有メモリを表す．この例ではアドレス0x00000000から0x00100000バイトをローカルメモリに，アドレス 0x80001000から0x00001000バイトを共有メモリにマッピングしている．共有メモリは複数作成することが可能であり，シミュレーション上の固有のアドレスとサイズにより識別される．上記の例では，シミュレーション上の固有のアドレスは，0x80001000である．各SkyEye-MPは，利用する共有メモリのサイズとシミュレーション上の固有のアドレスを指定して，作成要求(CreateSharedMemory())をデバイスマネージャに送信する．デバイスマネージャは要求されたサイズの共有メモリオブジェクトを作成して，そのハンドルをSkyEye-MPに渡す．SkyEye-MPは，受け取ったハンドルを元に，共有メモリオブジェクトを自プロセスにマッピングする．既に他のSkyEye-MP から同じ共有メモリが作成されている場合は，デバイスマネージャはハンドルのみを返す．デバイスマネージャは共有メモリオブジェクト毎に参照リストを持っており，参照管理する．SkyEye-MP は，シミュレーション終了時に共有メモリをアンマップして，ReleaseSharedMemory()を呼び出し，デバイスマネージャに通知する．

(8)

図7 メモリマップとアクセス関数 前述の通り，共有メモリオブジェクトをプロセスにマッピングすると，プロセス毎に異なるアドレスにマッピングされる．しかしながら，要件(2)より，共有メモリは，どのSkyEye-MP上で動作するプログラムからも同じアドレスとして参照できる必要がある．プログラムからのメモリアクセス要求は，シミュレーション上の固有のアドレスに対して行われる． SkyEye-MPはこのメモリアクセス要求を受け取ると，どの共有メモリに対するアクセスであるか判定し，対応する共有メモリオブジェクトのアドレスに変換する．マルチプロセッサ拡張後のメモリアクセスの様子を図7に示す．ローカルメモリにアクセスする場合には，SkyEyeのメモリアクセス用関数を使用して，通常のメモリ(配列に)にアクセスする．共有メモリをアクセスする場合には，SkyEye-MP内でアドレス変換を行い割り当てた共有メモリオブジェクトにアクセスする． 5. 2 プロセッサID 要件(3)に示すように，SkyEye-MP上で動作する RTOSでは，自分がどのプロセッサ(SkyEye-MP)で動作しているか判断する必要がある． 5. 2. 1 デバイスマネージャが提供するAPI デバイスマネージャは，プロセッサ間割込みを実現するために，各SkyEye-MPのプロセッサIDを管理している．デバイスマネージャへのプロセッサIDの登録/削除は，Map()/UnMap() (図8)を介して行う． 5. 2. 2 SkyEyeの修正点 RTOSがどのプロセッサで動作しているか判断するため，各SkyEye-MPにはプロセッサIDを割り当て

1 Map(unsigned long id) 2 Unmap(unsigned long id)

図8 プロセッサ ID に関する COM の API る．プロセッサIDの指定は，コンフィギュレーションファイル内で行う．このプロセッサIDをRTOSから参照可能とするため，プロセッサIDを格納するデバイスレジスタ(プロセッサIDレジスタ)をSkyEye-MP に追加した．図5の例では11行目でプロセッサIDレジスタのアドレスを0xffffffa0に，プロセッサIDを1に設定している． 5. 3 プロセッサ間割込み要件(4)のプロセッサ間割込みは，デバイスマネージャを介した通信により実現する．プロセッサ間割込みは，プロセッサIDを指定してデバイスマネージャに割込み要求を出す．前節で述べたように，デバイスマネージャはプロセッサIDを管理しているため，割込み要求を受け取ると，対応するSkyEye-MPを選択して，割込み要求を出す．プロセッサ間割込みの流れを図9に示す． 5. 3. 1 デバイスマネージャが提供するAPI 図10の1行目のRaiseInterrupt()は引数inhnoを取る．inhnoは32ビットの引数であり，上位16ビットで割込み対象のプロセッサIDを，下位16ビットで割込み番号を表す．デバイスマネージャは，図10の2行目の OnInter-ruptRequest()で指定されたプロセッサIDに対応するSkyEye-MPに割込み要求を出す． 5. 3. 2 SkyEyeの修正点プロセッサ間割込みをRTOSから使用するため，プロセッサ間割込みレジスタをSkeEyeに追加した． RTOSはプロセッサ間割込みレジスタの上位16ビットにプロセッサIDを，下位16ビットに割込み番号を書き込むことで，SkyEye-MPに対してプロセッサ間割込みの要求を出す．SkeEye-MPのメインスレッドは，プロセッサ間割込みレジスタへ書込みがあると， COMスレッドに割込み要求を送り，COMスレッドはデバイスマネージャに対して，割込み要求(図10

(9)

図9 プロセッサ間割込みの流れ

1 RaiseInterrupt(unsigned long inhno) 2 OnInterruptRequest(unsigned long inhno)

図10 プロセッサ間割込みに関する COM の API の1行目のRaiseInterrupt())を行う．デバイスマネージャは，指定されたプロセッサID に対応するSkyEye-MPに割込み要求(図10の2行目のOnInterruptRequest())を出す．割込み要求を受け取ったSkyEye-MPのCOMスレッドは，割込み番号に従ってSkyEye-MP上の割込みペンディングレジスタ(IPR)の該当ビットをセットする．IPRはメインスレッドからも変更されるため，変更時に排他制御を行う．割込み要求を受け取ったSkyEye-MPのメインスレッドは，現在実行中の命令を完了した後にIPRをチェックして，割込みが許可されていれば割込み処理を行う．図5の例では，7 行目でプロセッサIDを1に，8行目で割込み出力レジスタのアドレスを0xffffff40に，9，10行目で割込み番号1，0を外部割込み0，1にそれぞれ設定している． 5. 4 プロセッサ間の排他制御機構要件(5)で述べたプロセッサ間の排他機構を提供するため，SkyEye-MP間での排他制御機構を実現し RTOS側に提供する．SkyEye-MP間の排他制御機構は，ホストOSの提供するミューテックス機能により実現する．排他制御の流れを図11に示す． 5. 4. 1 デバイスマネージャが提供するAPI デバイスマネージャは図12の1行目の Create-Mutex()で指定されたミューテックスオブジェクト作成を行う．図12の2行目のCloseMutex()で図11 排他制御の流れ

1 CreateMutex(unsigned long number, BSTR * lpName) 2 CloseMutex(unsigned long number) 3 AcquireLock(unsigned long address,

unsigned long size) 4 ReleaseLock(unsigned long address,

unsigned long size)

図12 プロセッサ間排他制御に関する COM の API ミューテックスオブジェクトの削除を行う． Acquire-Lock()/ReleaseLock()(図12の3，4行目)を利用することで，COMを介した排他制御機構を利用することができる． 5. 4. 2 SkyEyeの修正点シミュレーション開始時に，SkyEye-MPからデバイスマネージャにミューテックスオブジェクト作成要求(図11の1行目のCreateMutex)を出し，デバイスマネージャが作成して，そのハンドルをSkyEye-MP に渡してSkyEye-MPがオープンする． RTOSからミューテックスを取得・解放するインタフェースとして，排他制御レジスタをSkyEyeに追加した．RTOSは，排他制御レジスタをリード/ライトすることで，SkyEye-MPがミューテックスをロック/アンロックする．SkyEye-MPがミューテックスのロックに失敗した時は，SkyEye-MP中で解放待ちにならずに直ちに結果をRTOSに返し，RTOS側でポーリングによってロックが完了するまで待つか，他のタスクに切り替える等の処理を行うか選択する．図5のコンフィギュレーションファイル記述例では，4行目でロック用のアドレスを0xffffff00に設定し，5，6行目でIDが0と1のミューテックスを使用することを指定している

(10)

5. 5 その他のSkyEyeの拡張マルチプロセッサ対応シミュレータの要件を満たすための拡張以外に，下記の拡張を行った． 5. 5. 1 専用ハードウェアへのアクセス専用ハードウェアへのアクセスはデバイスマネージャを介した通信により実現する． SkyEyeがシミュレーションするARMアーキテクチャでは，デバイスのデバイスレジスタはそれぞれ固有のメモリアドレスがマッピングされている(メモリマップドI/O)．プログラムはマッピングされたアドレスをリード/ライトすることでデバイスレジスタにアクセスする．デバイスレジスタへのアクセス要求が発生すると，デバイスレジスタ用アクセス関数が呼び出され，アクセス関数の中でアドレス毎に対応するデバイスレジスタの処理をシミュレーションする．デバイスについては，コンフィギュレーションファイルのmem bank オプションでmap=Iと指定されたアドレス空間とデバイスレジスタ用のアクセス関数が対応付けられて管理される． TISEでは，デバイスと同様に，専用ハードウェアにもそれぞれ固有のメモリアドレスがマッピングされる．プログラムはマッピングされたアドレスをリード/ライトすることで専用ハードウェアにアクセスする．これを実現するために，専用ハードウェア用のアクセス関数を用意し，コンフィギュレーションファイルのmem bankオプションでmap=Dを指定したアドレス空間と対応させる．専用ハードウェア用アクセス関数からはCOMスレッドに対してリード/ライト要求を渡し，COMスレッドからデバイスマネージャに対してリード/ライト呼出し(図13のRead()/Write())を行う．そして，デバイスマネージャは，マッピングされたハードウェアシミュレータの呼出しを行う． 5. 5. 2 性能評価機能性能評価機能用に，シミュレータの実行サイクル数を保持するレジスタ(サイクル数レジスタ)をSkyEye に追加した．実行サイクル数は，ARMマニュアルに記載されている命令毎のサイクル数の計算式を用いて計算する．プログラムはコンフィギュレーション

1 Read(unsigned long address,

unsigned long size, byte data []) 2 Write(unsigned long address,

unsigned long size, byte data []) 図13 専用ハードウェアアクセスに関する COM の API ファイルで指定したサイクル数レジスタをリードすることで，実行サイクル数を取得可能である．図5の例では，12行目でサイクル数レジスタのアドレスを 0xffffffc0に設定している． 5. 5. 3 実時間計測機能性能評価機能用に，ホスト計算機を起動してからの経過時間を保持するレジスタをSkyEyeに追加した．経過時間はクロック周波数とホスト計算機が起動してからのクロック数から計算し，クロック周波数は SkyEye-MP起動時に1秒間のクロック数を計測して求める．プロセッサID同様，コンフィギュレーションファイルに指定したアドレスをリードすることで実時間を取得可能である．図5の例では，13行目でホスト計算機のプロセッサ0で実行することを，14行目経過時間レジスタのアドレスを0xffffff80に，それぞれ設定している．また，ホスト計算機が起動してからのクロック数は，プロセッサ毎に異なる可能性があるため， SkyEye-MP毎に実行するホストプロセッサを固定する機能を追加した．実行するホストプロセッサの指定はコンフィギュレーションファイルにおいて行う(図5の 13行目)． 5. 5. 4 メモリ違反に対する警告 SkyEyeは，コンフィギュレーションファイルの mem bankオプションによって定義されていないメモリアドレスに対してリード/ライトを行っても，警告を出さずに処理を続行する．しかし，通常このようなアドレスに対してアクセスするのはプログラムミスが原因であり，それに起因する重大なバグが存在する可能性がある．デバッグ効率を上げるために，この違反に対して警告を出力するように拡張した．まず，未定義のアドレスに対してリード/ライトを行った場合，その時のプログラムカウンタの値と操作対象アドレスを表示し

(11)

て警告を出力する． 5. 6 開発規模 SkyeEye-MPは，SkyEyeに対して，24箇所の変更と9個のファイル追加して実現した．追加したソースコードは，2650行である．マルチプロセッサ向け RTOSに関しては，共通部は変更していない．依存部は，SkyEye-MP用に3560行の新規のソースコードを開発した．

6 ISS 間タイミング同期

本章では，ISS間のタイミング同期機構について述べる．

SkyEye-MPでは単一のISSではなく，複数のISS を用いることでマルチプロセッサのシミュレーションを実現している．各ISSはそれぞれ独立したアプリケーションとして動作するため，各ISSが保持するサイクル数には大きなずれが生じる．ISS間のサイクル数を同期させることにより(タイミング同期)様々なメリットが得られる． 6. 1 タイミング同期の利点 ISS間で同期をとることには，3つの利点がある． 1つ目の利点は，並列動作する複数ISSからなるシステム全体の動作に要する実行サイクル数を，ある程度の精度で計測できることである．ISSは内部で実行サイクル数を保持しており，その値をシステムの評価指標として用いることができる．このとき，ISS間で実行サイクル数の差が小さければ，より正確な値を得ることができる． 2つ目の利点は，デバッグが容易になることである．今回ISSとして用いたSkyEyeには，GDBを接続してデバッグを行うことが可能である．GDBによるデバッグ時に，1つのISS上のプログラムを停止させた場合，他のISSは，停止したISSの同期待ちとなるため，結果として，全ISSの実行を停止させることが可能になる． 3つ目の利点は，実行ログによるISS間の協調動作解析が容易になることである．これまでは複数のISS の実行ログを解析するとき，ある時点において，それぞれどのコードを処理していたのか調べることが困難であった．たとえば，2つのISSを用いる場合，2 つのISSの起動時刻が異なるだけで，起動時刻の差分だけ実行ログ中のサイクル数がずれてしまった．しかし，ISSを同期させることで，実行ログ中のサイクル数のずれが少なくなり，サイクル数をもとに，ある時刻におけるISSの実行コードを推測することが可能となる． 6. 2 タイミング同期の実現本研究では，各ISSの保持する実行サイクル数を任意の間隔で一致させることでISS間の同期を実現する．シミュレーション精度の観点からは，1サイクル毎に同期することが望ましいが，シミュレーション時間に対するオーバヘッドが膨大となることが予想される．そこで，シミュレーションの精度と時間のトレードオフをユーザが選択できるように，任意サイクル数で全てのISSが待ち合わせる，バリア同期手法を採用した．タイミング同期の実現手法としては， COMを用いた手法と，ホストOSの共有オブジェクトを用いた手法の二種類を実現した．タイミング同期のために，SkyEyeのコンフィギュレーションファイルを拡張した．具体的には，以下の記述により，ISSの数と同期を行う周期(サイクル数) を指定する．

sync: num=[ISS数], cycles=[同期サイクル数]

6. 2. 1 COM を用いた同期手法 COMを用いて同期を実現することにより，様々な言語で記述されたシミュレータとの同期が実現できる．各ISSは起動時に，ISS数と同期サイクル数(コンフィギュレーションファイルに記述される)をデバイスマネージャに通知する．ISS上のプログラムが動作を開始し，設定したサイクル数分のコードを実行したときに，デバイスマネージャにそのことを通知し，待ち状態に入る．デバイスマネージャは待ち状態のISS 数と起動時に設定されたISS数を比較し，同じであれば全てのISSの待ち状態を解除する．そして，再び次の同期地点までシミュレーションを開始する．デ

(12)

図14 COM を用いた同期の流れ バイスマネージャとISS間の通信にはCOM通信を用いる．図14にCOMを用いた2つのISSの同期の流れを示す. ISS1は先に同期地点に到着し，待ち状態になる．ISS2が同期地点に到着し，デバイスマネージャにそのことを通知すると，デバイスマネージャが内部で持つカウンタの値から，全てのISSが同期地点に到着したと判断し，待ち状態を解除している． 6. 2. 2 共有オブジェクトを用いた同期手法 COMを用いた同期手法は，通信に大きなオーバヘッドがかかる．そこで，オーバヘッドの小さいホストOSの共有オブジェクトを用いる同期手法を実装した．この手法では，同期用の共有変数やこの変数の排他制御用のミューテックス等の生成は，デバイスマネージャに依頼することで作成するが，同期処理は，デバイスマネージャを介さずにISSで直接行う． ISSは起動時に，デバイスマネージャに対して，待ち状態のISS数をカウントするための共有変数とミューテックスの生成を依頼して，そのハンドルを取得する．共有メモリの作成と同様に，他のISSが既に同期用の共有変数を作成している場合は，ISSに対してハンドルのみを返す．各ISSは同期地点到着時に共有変数の値を更新し，待ち状態になる．このとき，ISSは共有変数の値から，全ISSが同期地点に到着したかどうかを判断する．全ISSが到着したと判断したISSは，自分以外のISSの待ち状態を解除する．その後，各ISSは次の同期地点までシミュレーションを実行する．図15に，共有オブジェクトを用いた2つのISSの同期の流れを示す. 同期地点に先に到着したISS1は図15 共有オブジェクトを用いた同期の流れ 待ち状態になる．その後同期地点に到着したISS2は共有変数の値から，全ISS が同期地点に到着したことを確認し，他のISSの待ち状態を解除している． 6. 3 タイミング同期の評価 6. 3. 1 タイミング同期手法の比較二種類の手法の実行オーバヘッドを比較するため， 100,000回の空のforループ処理にかかるシミュレーション時間を計測した．図16は，ホストコア数を2 とし，2つのISSを同期させた場合の結果である．for ループに要したサイクル数は1,302,228サイクルであった．図16から，COMを用いた同期手法(手法1)では，共有オブジェクトを用いた同期手法(手法2)と比べて，非常に長いシミュレーション時間がかかることがわかる．同期サイクル数100の条件で比較すると，手法1は非同期時の約40倍の時間を要したのに対し，手法2では約1.5倍の時間に抑えることができた．ISS間のみで同期を行う場合は手法2を適用すべきである．しかしCOMには柔軟で汎用性が高く，記述言語に依存しないという利点があり，ハードウェアシミュレータと同期させる場合には手法1を利用するとよい． 6. 3. 2 タイミング同期の有用性の確認 FDMPカーネルに付属するトレース機能を用いて非同期時と同期時のトレース結果を比較し，同期の有用性を確かめた．図17(非同期時)と図18(同期時)に，オープンソフトの波形表示ツールであるGTKWave [7]を用いてトレース結果を波形表示した結果を示す． FDMPカーネルのトレース機能にはフェイズという概念があり，フェイズごとに異なるコード上の位置

(13)

図16 提案同期手法のシミュレーション時間の比較 (ホストコア数 2，ISS 数 2) を示す．トレース結果(図17，18)中では，1つのフェイズを1つの行(波形)に対応させて表示している．図では，タスク内の機能ごとにフェイズを対応させてトレースを取得した例を示しており，タスク名(例： PE1.MAIN TASK[1])の最後の数字([1])は，機能に割り当てられたフェイズ名を表している．波形の立ち上がりはフェイズの起動を意味し，横軸はサイクル数をもとにして計算された実行時間を示す．使用したテストプログラムでは，点線で囲まれたフェイズ3において，MAIN TASKが，別ISS上のPE2.TASK2 に対して起動要求を発行している．図17 は非同期時のトレース結果である．起動要求発行のタイミングと起動のタイミングがずれて表示されている．これは，それぞれのISSが保持するサイクル数が異なるためであり，この情報からプロセッサ間通信に要する時間を考えることなどはできない．実際には，FDMPカーネルの性質から，フェイズ3(PE1.MAIN TASK[3])の実行中に，別プロセッサ上のPE2.TASK2が起動することが想定される．それに対し，同期を行った場合の図18では，想定通り，MAIN TASKのフェイズ3の間にTASK2が起動されていることが確認できた．システム開発時にもこのように，実行ログを用いて検証やデバッグを行うことが考えられる．ISS間のタイミングのずれを解消することで，ISS間の協調動作の流れがわかりやすくなり，検証が行いやすくなる． 6. 3. 3 タイミング同期によるシミュレーションの高速化シミュレーションするプロセッサに対して，ホスト図17 非同期時のトレース結果 図18 同期時のトレース結果 計算機のプロセッサ数が少ない場合，タイミング同期をすることにより，シミュレーションが高速化することが分かった．図19に，タイミング同期の有無によるシミュレーション時間の変化を示す．図19では，タイミング同期をしない場合(非同期)は，一万サイクルごとに同期する場合(10000)の10倍近いシミュレーション時間を要したことを示している．これは，同期機構の実装前には想定しなかった事象であるため，以下にその原因について考察する． Windowsのプロセススケジューリングポリシーは，ラウンドロビンであるが，ISSのように，待ち状態とならないプロセスが複数ある場合，特定のプロセスに優先的にプロセッサ時間を割り当てる傾向があると考えられる．つまり待ち状態とならない複数プロセスに均等にプロセス時間が配分されない． ISSが待ち状態とならない理由は，ISS上で動作するRTOSがアイドル状態になったとしても，ISSそのものは内部でサイクル数経過をシミュレーションしているためである．そのため，ホストPCの持つプロセッサ数を超える数のISSを並行して実行しようとすると，特定のISS のみが実行され，全体のシミュレーションが進まない現象が発生すると考えられる．図19の非同期の場合は，この事態に陥ったと推測される．

(14)

図19 同期サイクル数によるシミュレーション時間の変化 タイミング同期は，ISSそのものを，同期タイミングごとにホスト計算機上で待ち状態に遷移させる． ISSが待ち状態になった場合，Windowsは自動的に他のプロセス，つまり他のISSを起動する．結果として，ホスト計算機のプロセッサ数を超える数のISS を動作させても，それらすべてが均等に実行される．

7 RTOS のアイドル時間を活用した

シミュレーション時間の短縮手法

本章ではRTOSのアイドル処理を活用したシミュレーション時間の短縮手法について述べる．RTOS上で実行すべきタスクが無い状態をアイドル状態という．ホスト計算機のホストプロセッサ数が実行中のシミュレータ数よりも少ない場合には，アイドル状態中は図20のように，他のISSのシミュレーション実行を行うことで，シミュレーション時間の短縮が可能である． 6章で述べた，タイミング同期の有無に応じて，二種類の実現方法を開発した． 7. 1 非同期時の効率化 ISS非同期時はRTOSがアイドル状態に遷移するたびにホストOSの時間待ちAPIを用いて一定時間待ち状態にし，起床時に割込みの有無を調べる．ただし，SkyEye-MPは一定数の命令を処理するごとにタイマ割込みを発生させる仕様となっているため，ISSが待ち状態の間は命令が処理されずタイマ割込みが発生しなくなってしまう．そこで今回は，ISS 起床時に，タイマカウンタの値にかかわらずタイマ割込みを発生させることとした．図20 効率化の概要 7. 2 同期時の効率化タイミング同期機構を適用している場合は，7. 1節の手法ではシミュレーション実行効率が悪くなる可能性がある．これは，ISSが時間待ちAPIを発行すると，ISS内部のサイクル数が進まなくなるため，結果として同期地点への到着が遅れ，すでに同期地点に到着していた他のISSの起床が遅れてしまうためである．そこで，ISS同期時には時間待ちAPIを用いず，同期地点への到着を早めることで効率化を行う．ただし本手法でも非同期時と同様に，タイマ割込みへの対応が問題となる．アイドル状態遷移時に次同期地点までサイクル数を進めてしまうと，ISS内部のタイマカウンタが更新されず，タイマ割込みが発生しなくなってしまう．そこで，アイドル状態遷移時にタイマ割込み発生までのサイクル数を計算し，同期地点までの残りサイクル数よりも少ない場合，すなわち，同期地点到達よりもタイマ割込み発生のほうが早い場合には，タイマ割込み発生までサイクル数を進め，タイマカウンタをリセットし，タイマ割込みを発生させる．そうでない場合には次同期地点までサイクル数を進め，そのサイクル数に相当する分だけタイマカウンタの値を更新する．図21はRTOS1のアイドル時にタイマ割込みが発生し，割り込み処理中にISS1が同期地点に到着した様子を表している．図21の左側では，ISS1がアイドル状態とタイマ割込み処理をシミュレーションした後，同期地点に到着して待ち状態になり，ISS2が起床する．図21の右側では，ISS1上のRTOSがアイドル状態に遷移した際，タイマ割込みの発生まで，シミュレーション実行を省略している．そのため同期地点

(15)

図21 タイミング同期時の効率化 への到着が早まり，結果としてISS2の起床を早められる． 7. 3 RTOSからISSへのアイドル状態通知方法本章の提案する効率化を実現するには，どのようにしてRTOSからISSへアイドル状態となったことを知らせるか，また，待ち状態のISSをどのようにして復帰させるかが課題となる． 7. 3. 1 アイドル状態遷移の通知，検出方法 RTOSのアイドル状態への遷移を検出するにはいくつかの方法が考えられる．まず，現在実行中のタスクを管理している変数を ISSが調べるという方法がある．FDMPカーネルではruntskという変数が現在実行中のタスクコントロールブロック(実行再開番地やスタックポインタなどタスクに関する情報を保持する構造体)をさしており，実行すべきタスクが無い場合はNULLをさしている．そこでISSがその変数のさすアドレスに格納された値からRTOSの状態を調べ，アイドル状態か否かを判断するということが考えられる．この方法は，アイドル状態の検出を全てISSが行うため，RTOS を書き換える必要が無いという利点がある．しかし，どの変数が現在実行中のタスクを管理している変数なのか，また，その内容がどうなっているときがアイドル状態なのかをISSが事前に知っている必要がある．今回研究対象としたISSであるSkyEyeには skyeye.confという設定ファイルがあり，そこに事前に知っているべき内容を記述しておくなどの対処法が考えられるが，それ以前に利用者がRTOSの内部を詳細に知っていなければならない．つぎに，RTOSの依存部でアイドル状態に遷移し

1 mem bank: map=I, type=RW, addr=0xf0000000, size=0x10000000

2 idle base: base=0xffffff88

図22 RTOS アイドル状態を通知するための設定 たことをISSに通知する方法が考えられる．この方法では，RTOSの共通部に修正を加える必要はなく， ISSからも比較的容易にアイドル状態への遷移を検出しやすいという利点がある．また，所定の通知方法を取ることで様々なRTOSにも柔軟に対応が可能である．以上より，今回は後述した方法を採用した．本研究で対象としたマルチプロセッサシミュレーション環境を構成するISSは，ISS間の割込みやホストOSのミューテックスへのアクセスなどの拡張機能の使用要求をISSへ伝えるのに，特定の番地へアクセスするという方法をとっている．そこでアイドル状態遷移の通知方法も同様に，RTOSがアイドル状態となった場合には特定の番地にアクセスするように変更を加えておき，ISS側ではその番地にアクセスされた場合には，RTOSがアイドル状態であると判断し，それに対応した処理を行うようにした．アイドル状態通知用アドレスは idle_base: base=[ベースアドレス] のようにコンフィギュレーションファイルにて設定するものとした．ただし，このベースアドレスはコンフィギュレーションファイル内でデバイスアドレスとして設定しておかなければならない(図22)． 7. 4 効率化の評価提案効率化手法の有効性を確かめるために，タイミング同期時と非同期時の効率化それぞれ実験を行った． 7. 4. 1 非同期時の効率化非同期時の効率化の効果を調べるため，デュアルプロセッサ用MPEG4デコードシステムのシミュレーション時間を計測した．図23は，非同期時の効率化手法適用前後のシミュレーション時間を比較したものである．アイドル時のISS 起床周期は1msecとしている．ホストプロセッサ数が1の場合，効率化手法の適用により，シミュレーション時間が従来の約90％減少

(16)

図23 非同期時のシミュレーション時間の結果 図24 効率化による MPEG4 デコーダの シミュレーション時間の変化した．ホストプロセッサ数が1の場合，提案する手法により，大幅にシミュレーション時間を短縮することができた．しかし，ホストプロセッサ数が2の場合，シミュレーション時間は，効率化前より長くなった．これは，ホストプロセッサ数とISS数が同じでありホストプロセッサを譲る必要がないため，シミュレーション時間が短縮されることはなく，時間待ちAPIによるオーバヘッドが追加されたためだと推測される．実験の結果から，ISS非同期時の効率的利用手法は，ホストプロセッサ数がISSのコア数より少ない場合に有効である． 7. 4. 2 同期時の効率化タイミング同期時の効率化手法の効果を調べるため，デュアルプロセッサ用MPEG4デコードシステムの1フレーム処理にかかるシミュレーション時間を計測した．ホストプロセッサ数は1とした．図24 は効率化前後のシミュレーション時間を比較したものである．同期サイクル数によらず，シミュレーション時間の削減ができている．特に，同期サイクル数が大きくなるほどシミュレーション時間の削減量が多くなっている．これは，同期サイクル数が大きいほど，一度に短縮できるサイクル数が多いためと考えられる．

8 関連研究

組込みシステム開発において重要なコシミュレーションに関して，これまで多くの研究がなされてきた．ソフトウェアのシミュレーション手法に着目すると，(1)ソフトウェアをホスト計算機上でネイティブに実行する方法と，(2)プロセッサのシミュレータ (ISS)を用いてターゲット用のオブジェクトファイルを読み込みながらシミュレーションする方法に大別できる． (1)の手法は，ネイティブ実行であるために非常に高速なシミュレーションが可能である．この場合，一般的にターゲット上のタスクをホスト上のスレッドに対応させてシミュレーションを行うが，ターゲット上の(RTOSの)タスクスケジューリングとホスト上のタスクスケジューリングとの違いがあり，ターゲット上での実行順序とシミュレーション時の実行順序が大きく異なってしまう．これを解消するために，RTOS のシミュレーションモデルを導入することが提案された[8] [18] [15]．文献[8] [18]では，特定のRTOSに依存しない一般的なRTOSモデルを利用したシミュレーションが提案されている．これは一般的な組込みシステム開発で利用可能であるが，RTOSのシミュレーションモデルは，ターゲット上で動作する実際のRTOSと比較すると，提供する機能やサービスコールが異なるため，シミュレーション用にソフトウェアを書き換える必要がある．文献[15]では，設計者がシステム記述言語である SystemC[16]により仕様を記述し，そこからソフトウェアを自動生成する手法が提案されている． Sys-temCに関してはオープンソースのSystemCシミュレータが公開されており，誰でも利用することができる．SystemCシミュレータを単純なRTOSモデルとみなし，タスク間通信等はSystemCの構文によって記述する．ソフトウェア自動生成ツールはSystemC の構文をRTOSのサービスコールに置き換える．本

(17)

ツールを用いることで，より一般的に使用されているSystemCでの記述によりシミュレーションが可能であるが，自動生成されたソフトウェアは一般的な RTOSを利用していて，文献[8] [18]と同様にソフトウェアの書き換えが必要となる．この問題を解消するために，我々の研究室では実際のRTOSのシミュレーションモデルを作成し，シミュレーションと実装に同一のソフトウェアが使えるようにした[10] [2]．本シミュレータはµITRONと呼ばれるRTOS仕様に完全に準拠している．µITRONは仕様定義であり µITRONに準拠したRTOSは多数存在するが，それらのRTOSを利用したソフトウェアは全て本シミュレータでシミュレーション可能である． (2)の手法はターゲット用のオブジェクトファイルを解析しながら実行するため，(1)の手法と比べて 100∼1000倍程度遅い[1]とされているが，命令単位のトレースを取ることができる．この手法を用いると RTOSのシミュレーションモデルは必要なく，ターゲット上で実際に実行されるRTOSを利用できる．そのため，ISSのサポートするプロセッサで動作するシステムは全てシミュレーション可能である．ISSでマルチプロセッサをシミュレーションする場合，単一スレッドでシミュレーションする方法と，複数スレッド(あるいは複数プロセス)でシミュレーションする方法がある．単一スレッドでシミュレーションする場合，プロセッサ間での同期を取りやすいという利点があるが，プロセッサ数にほぼ比例してシミュレーション速度が低下する．一方，複数スレッド/複数プロセスでシミュレーションを行う場合，ホスト計算機もマルチプロセッサである場合に負荷分散が可能であるため，ターゲットプロセッサ数が増えた時のシミュレーション速度は，スレッド間/プロセス間通信のオーバヘッドによりわずかに低下する程度である．文献[6]では柔軟なシミュレーション環境を紹介している．本環境はSystemC を中心としたシミュレーション環境であり，SystemC で記述された接続ツールに複数のISSやRTOSシミュレーションモデル，ハードウェアシミュレータを接続可能である．本環境を用いることで様々な抽象度のシミュレーションを行うことが可能になる．文献 [5] [3]では，RTOSとそのシミュレーションモデルの自動生成手法を提案している．自動生成されるRTOS シミュレーションモデルは本環境により使用可能である．我々がマルチプロセッサ対応シミュレータを検討し始めた頃には，QEMU[13]はマルチプロセッサ対応のシミュレータは対応していなかったが，最新版の QEMUではマルチプロセッサ対応のシミュレータを提供している．しかし，QEMUは，バイナリトランスレーションをベースとしているため，詳細なトレースログを取得することができない．さらに，ハードウェアシミュレータとの接続もできない

9 開発成果

TISEを2009年5月より一般に公開した†2．TISE はすでに，マルチプロセッサ対応RTOSやアプリケーションの実装や教育で利用されている．本章では，TISEの活用事例を紹介する． 9. 1 TOPPERS/FMPカーネルの開発での活用 TOPPERSプロジェクトにおいて，マルチプロセッサ向けRTOSであるTOPPERS/FMPカーネル[22](以下，FMPカーネル)を開発している．FMP カーネルは，プロセッサ間での通信や，プロセッサをまたいだタスク移動(タスクマイグレーション)をサポートする．FMPカーネルの開発は，TISEをメインターゲットとして進めた．プロセッサ間通信やタスクマイグレーションのためのAPI開発においては，複数のプロセッサ上でのプログラム状態を同期して観測することが可能であったため，TISEのタイミング同期機構とトレース取得機能が活用された． 9. 2 コンポーネントシステムでの活用組込みシステムに適したコンポーネントシステムであるTECS(TOPPERS Embedded Component System)[23]を提案している．TECSはコンポーネントを静的にインスタンス化・結合する静的なコンポー

†2 http://www.toppers.jp/sim.html より，実行ファイ

(18)

ネントモデルを採用しており，結合を最適化することにより，オーバヘッドを削減している． TISEは，TECSのソフトウェア開発にも利用されている．例えば，共有メモリを考慮したRPCチャネル[24]のプロトタイプの開発では，実機では困難なプロセッサをまたいだタスクの通信や同期の確認が，タイミング同期を用いることで容易になる． 9. 3 システムレベル設計ツールでの活用 SystemBuilder[20] [9]は，ソフトウェア・ハードウェア混在の並列システムの設計を効率化するツールである．TISEは，SystemBuilderが提供するシステム設計フローの一部として，並列システムの機能検証用シミュレータとして活用されている． SystemBuilderは，システムレベル設計と呼ばれる設計手法を支援する．SystemBuilderを用いた設計では，設計者はシステムの機能を表現する記述(機能記述)を，最終的な実装がソフトウェアかハードウェアかを意識することなくC言語レベルで作成する．ここで機能記述は，SystemBuilderが提供するメッセージパッシング通信用APIを用いて記述する．機能記述を元にして，SystemBuilderは，プロセッサ数などが異なる様々なターゲット向けに実装記述を合成することができる．複数のプロセッサやハードウェア上に分散して実装されたモジュール間通信の詳細実装は， System-Builderにより自動生成される．ただし，その通信 APIの使用(同期やメモリリード／ライト)の正しさについては保証されないため，実際に動作させて検証及びデバッグを行う必要がある．システムを高速に動作させるために，プログラマブルハードウェアであるFPGA上にシステムを利用することができる．しかしFPGAはハードウェアの内部動作を観測することができない，ログ取得に手間がかかる，などデバッグ性に乏しい． TISEを用いてシステムをシミュレーションすることにより，効率的な検証及びデバッグを行うことができる． 9. 4 組込みシステムの人材教育

NEP (NCES Education Program) は，名古屋大学の組込みシステム研究センターが主催する人材教育プログラムである[12]．本教育プログラムの中で， TISEを利用して組込みソフトウェア開発の教育を行っている．従来，無料で利用できるマルチプロセッサ対応シミュレータがなかったために，教育のためには評価用ボードを受講者数分だけ購入し用意する必要があった．TISEを利用することで，コストを削減し，ホストPCを用意するだけで教育を行うことができている．また，NEPの一部として，複数の企業が共同して研究・開発を行いながら教育を行う，共同研究型教育を実施している．共同研究型教育では，9. 1節で述べたマルチプロセッサ向けRTOSであるFMPを対象として，ソフトウェアテストの効率化に関する研究を行っている．マルチプロセッサのテストにおいては，並列に動作する2つ以上のタスクがシステムコールを行うタイミングが複数考えられる．このようなタイミングパターンを網羅的にテストするためのテストスイートを開発している．ここでテストパターン数は数百，数千にのぼるため，これらを逐次，評価ボードにロードして実行することは困難である．ホスト計算機上で動作するTISEを利用し，全テストパターンをバッチ実行することによりテストを効率化している．さらに本プロジェクトの中で，コードカバレッジ解析・出力機能gcovをサポートするようにSkyEye-MP を拡張した．これによりテストパターン実行時に所望の実行パスを通過したかどうかを確認することができている．

10 おわりに

本論文では，オープンソースとして公開している組込みシステム向けのマルチプロセッサ対応シミュレータ(TISE)について述べた．TISEは，マルチプロセッサ向けリアルタイムOSやアプリケーション開発の効率化を目的とし，既存のシングルプロセッサ用であるSkyEyeを拡張して，プロセッサ個数分のシミュレータを連携動作させることでマルチプロセッサ対応のシミュレーション環境を実現した．