• 検索結果がありません。

DPD Presentation Cover Sheet - Include this slide at start of all presentations to DPD Staff including DPD Staff Meeting, SRD and BRCs

N/A
N/A
Protected

Academic year: 2021

シェア "DPD Presentation Cover Sheet - Include this slide at start of all presentations to DPD Staff including DPD Staff Meeting, SRD and BRCs"

Copied!
34
0
0

読み込み中.... (全文を見る)

全文

(1)

2015 の新機能

インテル

® VTune™ Amplifier XE - パフォーマンス・

プロファイラー

より多くのプロファイル・データ

より多くのデータ解析

より簡単に使用可能

最新のプロセッサーおよび

OS をサポート

(2)

2

スケーラブルなマルチコア・パフォーマンスを実現

インテル

® VTune™ Amplifier XE パフォーマンス・プロファイラー

アプリケーションが遅いか

?

コア数の増加に伴ってスピードがスケーリングするか

?

データを利用しないチューニングは単なる推測作業

 正確な

CPU、GPU

1

、およびスレッドデータ

 強力な解析と結果のフィルター

 簡単なセットアップ、特別なコンパイラーは不要

SAS Institute Inc.

開発主任

Claire Cates 氏

「先週は、インテル

® VTune™ Amplifier

XE によりパフォーマンスがほぼ 3 倍向上

しました。そして、今週はさらに

3 倍パ

フォーマンスを向上できました。」

http://intel.ly/vtune-amplifier-xe

1

Windows* のみ

for Windows* および for Linux* $899 ~

(OS X* では GUI のみ利用可能)

(3)

インテル

®

VTune™ Amplifier XE

スケーラブルなマルチコア・パフォーマンスを実現

内容

 データ収集

-豊富なパフォーマンス・データ

 データ解析

-必要な情報を迅速に表示

 柔軟なワークフロー

-

GUI とコマンドライン

 結果の比較

 リモート収集

2015 の新機能!

 まとめ

(4)

2 つのデータ収集方法

インテル

® VTune™ Amplifier XE

4

ソフトウェア・コレクター

ハードウェア・コレクター

OS の割り込みを使用

オンチップのパフォーマンス・モニタリング・ユニット

(PMU) を使用

1 つのプロセスツリーから収集

システム全体または

1 つのプロセスツリーから収集

デフォルトの収集間隔は約

10ms

デフォルトの収集間隔は約

1ms

(より細かく、小さな関数のデータも収集)

インテル

® プロセッサーと互換プロセッサーに対応 インテル® プロセッサーに対応

コールスタックで呼び出しシーケンスを表示

コールスタックの収集はオプション

仮想環境に対応

VM でサポートされる場合のみ VM に対応 (例 vSphere* 5.1)

ドライバーは不要

ドライバーが必要

- Windows* では簡単にインストール可能

- Linux* では root でインストールする必要がある

(または、スタック情報を含まないデフォルトの perf

ドライバーを使用する)

特別なコンパイラーは不要

- C、C++、C#、Fortran、Java*、アセンブリー

(5)

豊富なパフォーマンス・データ

インテル

® VTune™ Amplifier XE

ソフトウェア・コレクター

ハードウェア・コレクター

Basic Hotspots (基本的な hotspot)

最も時間を費やしている関数は?

Advanced Hotspots (高度な hotspot)

最も時間を費やしている関数は

?

どこをインライン展開すべきか? - 呼び出しカウントの統計

Concurrency (コンカレンシー)

並列処理のチューニング

コアの使用状況を色分けして表示

General Exploration (全般)

パフォーマンス向上の可能性が最も高い場所は

?

キャッシュミスは

? 分岐予測ミスは?

Locks and Waits (ロックと待機)

スレッド・パフォーマンスが悪い最大の要因をチューニング

:

- コアがアイドル状態で待機している

Advanced Analysis (高度な解析)

アクセス競合など細かいチューニング

すべての

IA86 プロセッサーと VM に対応、

ドライバーは不要

より細かい粒度、低オーバーヘッド、

システム全体に対応

特別なコンパイラーは不要

- C、C++、C#、Fortran、Java*、アセンブリー

(6)

インテル

®

VTune™ Amplifier XE

スケーラブルなマルチコア・パフォーマンスを実現

内容

 データ収集

-豊富なパフォーマンス・データ

 データ解析

-必要な情報を迅速に表示

 柔軟なワークフロー

-

GUI とコマンドライン

 結果の比較

 リモート収集

2015 の新機能!

 まとめ

6

(7)

必要な情報を迅速に表示

インテル

® VTune™ Amplifier XE

関数をダブルクリックして

ソースを表示

データのグループ化を調整

… (リストの一部を表示)

[+] をクリックして

コールスタックを表示

選択したタイムライン

(またはグリッド) でフィルター

プロセスやその他の

コントロールでフィルター

チューニングの可能性はピンクでハイライトし、

カーソルを移動するとヒントを表示

(8)

ソース

/アセンブリーでプロファイル・データを表示

グリッドまたはタイムラインでダブルクリック

8

右クリックで命令リファレンス・マニュアルを表示

ソース、アセンブリー、または両方を表示

CPU 時間

クリックして対応するアセンブリーへジャンプ

アセンブリーへ素早く移動

:

ソースを選択してアセンブリーをハイライト

hotspot へ素早くスクロール:

スクロールバーに

"ヒートマップ" を表示

(9)

並列パフォーマンスの問題を視覚化

一般的なパターンに注目

粗粒度のロック

ロック競合が頻発

ロード・インバランス

低コンカレンシー

(10)

タイムラインでスレッドの動作を視覚化

インテル

® VTune™ Amplifier

オプション

: API でフレームとユーザータスクにマークを追加

オプション

: 収集中にマークを追加

10

CPU 時間

カーソルを

移動すると

詳細を表示:

遷移

Basic Hotspots

Advanced Hotspots

(11)

インテル

® VTune™ Amplifier

スケーラブルなマルチコア・パフォーマンスを実現

内容

 データ収集

-豊富なパフォーマンス・データ

 データ解析

-必要な情報を迅速に表示

 柔軟なワークフロー

-

GUI とコマンドライン

 結果の比較

 リモート収集

2015 の新機能!

 まとめ

(12)

コマンドライン・インターフェイス

解析の自動化

amplxe-cl コマンドライン:

– Windows*: C:¥Program Files (x86)¥Intel¥VTune Amplifier XE

¥bin[32|64]¥amplxe-cl.exe

– Linux*: /opt/intel/vtune_amplifier_xe/bin[32|64]/amplxe-cl

ヘルプ

:

amplxe-cl -help

UI を利用してセットアップ

1) UI で解析を設定

2) [Command Line…] ボタンをクリック

3) コマンドをコピー・アンド・ペースト

リグレッション解析に便利

- 結果ファイルを開発者に提供

コマンドラインの結果は

UI からも確認可能

12

(13)

インタラクティブなリモートデータ収集

リモートシステムのパフォーマンス解析がより簡単に

インタラクティブ解析

1) リモート Linux* ターゲットに SSH 接続

2) UI から解析を選択して実行

コマンドライン解析

1) Windows*/Linux* ターゲットにリモート接続してコマンドラインを実行

2) ホストに結果をコピーして UI から確認

New!

ローカル

UI からリモートシステムを解析

(14)

迅速に結果を比較

- 差異でソート

インテル

®

VTune™ Amplifier XE

リグレッションの原因を素早く特定

 コマンドライン解析を毎日実行可能

 原因の関数が特定できるので担当者に迅速に知らせることができる

2 つの最適化を比較 - 向上したのは?

2 つのシステムを比較 - スピードアップしなかったのは?

14

(15)

インテル

®

VTune™ Amplifier XE

スケーラブルなマルチコア・パフォーマンスを実現

内容

 データ収集

-豊富なパフォーマンス・データ

 データ解析

-必要な情報を迅速に表示

 柔軟なワークフロー

-

GUI とコマンドライン

 結果の比較

 リモート収集

2015 の新機能!

 まとめ

(16)

優れたデータ解析

OpenMP* スレッドとスケーラビリティーをチューニング

 新しいタイムラインとグリッドデータのグループ化

 インポートにより他のツールで収集されたデータを統合

簡単な使用

Mac* 上で Windows* または Linux* データを解析

1

 リモートシステムのデータを簡単に収集

 正しいプロセッサー・メトリクスを自動選択

 ドライバー関連の煩わしさを軽減

(Linux*)

より多くの

CPU および GPU プロファイル・データ

OpenCL* カーネルと GPU オフロードのチューニング (Windows*)

 インテル® TSX

2

用のトランザクション解析

 スタックの深さを調整してオーバーヘッドを軽減

最新のプロセッサーおよび

OS のサポート

16

インテル

® VTune™ Amplifier XE 2015 の新機能

パフォーマンス・プロファイラー

1

OS X* でデータ収集はできません。

2

インテル® トランザクショナル・シンクロナイゼーション・エクステンション (インテル® TSX)

OS X* からのリモート解析

OpenMP* のスケーラビリティー

解析

GPU オフロードとインテル® TSX

2

チューニング

New!

(17)

OS X* でのホストの実行

Linux* からのデータを解析

Windows* からのデータを解析

OS X* でのローカルデータ収集は不可

追加料金なし

 別途ダウンロード

for Windows* または for Linux* のライセンス

で利用可能

簡単なリモート収集

Linux* リモートに SSH 接続

OS X* ホストのサポート

インテル

® VTune™ Amplifier XE

New!

(18)

OpenMP* のスケーラビリティー解析

インテル

® VTune™ Amplifier XE

18

シリアル時間とロード・インバランスを特定

 シリアル領域で多くの時間を費やしてい

るか

?

 並列領域で一部のスレッドがほかよりも

極端に速く完了していないか

?

領域で時間がかかっているインスタンスを特定し

てチューニング

インテル

® Xeon® プロセッサーおよびインテル®

Xeon Phi™ コプロセッサー・ベースのシステム

インテルと

gcc* のランタイム

優れたチューニング・データにより

OpenMP* パフォーマンスが向上!

New!

(19)

GPU 計算パフォーマンスのチューニング

インテル

® VTune™ Amplifier for Windows*

プロセッサー全体

(CPU + GPU) のチューニング

OpenCL* カーネルと GPU オフロードの

チューニング

新しいプロセッサーでは

GPU データを収集し、

GPU / CPU アクティビティーを関連付けること

が可能

(Windows* のみ)

チューニング個所をハイライト

潜在的なチューニングの可能性がある場合、

セルがピンクでハイライト表示され、カーソル

を移動するとアドバイスが表示される

New!

(20)

ドライバー関連の煩わしさを軽減

(Linux*)

インテル

® VTune™ Amplifier XE

20

インテルの

EBS ドライバーを自動リビルド

OS アップデートを適用後、高度な解析が動作

しなくなった

IT 担当者にドライバーのリビルドを依頼しなけ

ればならなかった

 このような問題を解消するため、OS アップデー

ト後、ドライバーを自動リビルドするように設定

可能

NMI ウォッチドッグを自動的に無効化

 以前のバージョンでは、高度な

EBS プロファイ

ルを実行するたびに

NMI ウォッチドッグをオフ

にしなければならなかった

 この煩わしさを解消するため、自動でオフにし、

元の設定に戻すように変更

すでにインストールされている

perf ドライ

バーの使用

 インテルのドライバーがインストールされて

いない場合

perf を使用可能

 インテルの

EBS ドライバーは perf にはない

次のような追加機能を提供

:

 スタック

 アンコアイベント

 複数の

precise イベント

 最新のプロセッサー用の新しい

イベント

(古い OS を含む)

簡単にオンチップ

PMU にアクセスして高度なパフォーマンス・プロファイルが可能

New!

(21)

インタラクティブなリモートデータ収集

リモートシステムのパフォーマンス解析がより簡単に

インタラクティブ解析

1) リモート Linux* ターゲットに SSH 接続

2) UI から解析を選択して実行

コマンドライン解析

1) Windows*/Linux* ターゲットにリモート接続してコマンドラインを実行

2) ホストに結果をコピーして UI から確認

New!

ローカル

UI からリモートシステムを解析

(22)

インテル

®

VTune™ Amplifier XE

スケーラブルなマルチコア・パフォーマンスを実現

内容

 データ収集

-豊富なパフォーマンス・データ

 データ解析

-必要な情報を迅速に表示

 柔軟なワークフロー

-

GUI とコマンドライン

 結果の比較

 リモート収集

2015 の新機能!

 まとめ

22

(23)

インテル

®

VTune™ Amplifier XE

スケーラブルなマルチコア・パフォーマンスを実現

必要なデータを取得

hotspot (統計コールツリー)、呼び出しカウント (統計)

コンカレンシー解析およびロックと待機の解析によるスレッド・プロファイル

キャッシュミス、帯域幅解析

1

GPU オフロードと OpenCL* カーネルトレース (Windows*)

必要な情報を迅速に表示

ソース/アセンブリーで結果を表示

OpenMP* のスケーラビリティー解析、グラフィカル・フレーム解析

ビューポイントでデータをフィルターして関係のないデータを非表示

スレッドおよびタスク・アクティビティーをタイムライン表示

簡単に使用可能

特別なコンパイラーは不要

- C、C++、C#、Fortran、Java*、ASM

Visual Studio* 統合環境 (Windows*) またはスタンドアロン (Windows*

および

Linux*)

グラフィカル・インターフェイスとコマンドライン

ローカルおよびリモートデータ収集

New! OS X* で Windows* および Linux* データを解析

2

チューニングの可能性を素早く特定

ソースコードで結果を表示

(24)

30 分バージョン - インテル® VTune™ Amplifier XE

参加者に応じてトピックを選択

24

(25)

呼び出し元

/呼び出し先 - 親子の解析

インテル

® VTune™ Amplifier

左のペイン

で関数をク

リックしてそ

の呼び出し

/呼び出し

先のデータ

を確認

タイム・クリティカルな呼び出しパスでボトルネックを素早く特定

(26)

低オーバーヘッドの

Java* プロファイリング

インテル

® VTune™ Amplifier

26

低オーバーヘッドで正確な解析

 高速で低いオーバーヘッドのサンプリング

 より高速なハードウェア・サンプリング

(スタック収集)

 特有の高度なプロファイル

(キャッシュミス、バンド幅...)

多彩な機能と簡単な使用方法

 複数の同時

JVM

Java / C++ / Fortran の混在

Java ソースで結果を確認

 実行中の

Java アプリケーションにアタッチ

役立つデータ、低オーバーヘッド、より簡単に使用可能

(27)

C++ と C# が混在するアプリケーションのチューニング

インテル

® VTune™ Amplifier

C#/C++ ソースでプロファイル結果を表示

 結果をシンボルにマッピング

 混在モードのスタックウォーク

(C++ と C# が混在したスタックを表示)

 スレッド・タイムライン、ロックと待機の解析

.NET 2.0、3.0、4.0

C# アプリケーションのボトルネックをチューニングするには、

ガベージ・コレクションなどを解析する追加のプロファイル・

ツールが必要になることがある

C#

C++

(28)

30 分バージョン - インテル® VTune™ Amplifier XE

メディアおよびゲーム企業向け

レイテンシーが重要な問題である場合にも最適

28

(29)

アプリケーション

領域

(フレーム)

データをフィルター

- アクションがとりやすい情報のみ表示

インテル

® VTune™ Amplifier

フレーム解析

-レイテンシーの長いアクティビティーを解析

フレーム

: 繰り返し実行される領域

(オーバーラップなし)

API により開始と終了のマークを追加

DirectX* フレームを自動検出

:

 ゲーム

- 次のグラフィックス・フレームを

計算

 シミュレーター

- タイム・ステップ・ループ

 計算

- 収束ループ

voidalgorithm_1(); voidalgorithm_2(int myid); doubleGetSeconds();

DWORD WINAPI do_xform (void * lpmyid); bool checkResults(); __itt_domain *fPtr; fPtr = __itt_domain_create("My Domain"); while( gRunning ) { __itt_frame_begin_v3(fPtr, NULL); ... // 処理を実行 ... __itt_frame_end_v3(fPtr, NULL); } for (int k = 0; k < N; ++k) { int ik = i*N + k; int kj = k*N + j; c2[ij] += a[ik]*b[kj]; }

(30)

ワンクリックで遅いフレームを特定

インテル

® VTune™ Amplifier

30

(1) データを再グループ化

… (リストの一部を表示)

変更前: 時間がかかっている関数のリスト

変更後

: 遅いフレームのリスト

(31)

結果

:

遅いフレームの時間がかかっている関数が表示される

(1) 遅いフレームのみ表示

遅いフレームの遅い関数を特定

ローデータをアクションがとりやすい情報に変換

(2) 再グループ化: 関数を表示

(32)

32

関連情報

(英語)

インテル

® VTune™ Amplifier XE

- パフォーマンス・プロファイラー:

製品ページ

- 概要、機能、FAQ など

トレーニング資料

- 動画、技術資料、ドキュメントなど

評価ガイド

- ステップ・バイ・ステップのガイド

お客様の声

サポート

- フォーラム、セキュアなサポートなど

その他の解析ツール

:

インテル

® Inspector XE

- メモリー/スレッドの検出とデバッグ

インテル

® Advisor XE

- スレッド・プロトタイプの生成の支援

その他の開発製品:

インテル

® ソフトウェア開発製品

(33)
(34)

法務上の注意書きと最適化に関する注意事項

本資料の情報は、現状のまま提供され、本資料は、明示されているか否かにかかわらず、また禁反言によるとよらずにかかわらず、いかなる

知的財産権のライセンスも許諾するものではありません。製品に付属の売買契約書『Intel's Terms and Conditions of Sale』に規定されて

いる場合を除き、インテルはいかなる責任を負うものではなく、またインテル製品の販売や使用に関する明示または黙示の保証

(特定目的へ

の適合性、商品性に関する保証、第三者の特許権、著作権、その他、知的財産権の侵害への保証を含む) をするものではありません。

性能に関するテストに使用されるソフトウェアとワークロードは、性能がインテル® マイクロプロセッサー用に最適化されていることがあります。

SYSmark* や MobileMark* などの性能テストは、特定のコンピューター・システム、コンポーネント、ソフトウェア、操作、機能に基づいて行っ

たものです。結果はこれらの要因によって異なります。製品の購入を検討される場合は、他の製品と組み合わせた場合の本製品の性能など、

ほかの情報や性能テストも参考にして、パフォーマンスを総合的に評価することをお勧めします。

© 2014 Intel Corporation. 無断での引用、転載を禁じます。Intel、インテル、Intel ロゴ、Intel Look Inside.、Intel Look Inside. ロゴ、Intel

Core、Xeon、Intel Xeon Phi、Cilk、VTune は、アメリカ合衆国および / またはその他の国における Intel Corporation の商標です。

最適化に関する注意事項

インテル® コンパイラーは、互換マイクロプロセッサー向けには、インテル製マイクロプロセッサー向けと同等レベルの最適化が行われない可能性があり

ます。これには、インテル® ストリーミング SIMD 拡張命令 2 (インテル® SSE2)、インテル® ストリーミング SIMD 拡張命令 3 (インテル® SSE3)、ストリーミン

SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連する最適化およびその他の最適化が含まれます。インテルでは、インテル製ではないマイクロ

プロセッサーに対して、最適化の提供、機能、効果を保証していません。本製品のマイクロプロセッサー固有の最適化は、インテル製マイクロプロセッ

サーでの使用を目的としています。インテル® マイクロアーキテクチャーに非固有の特定の最適化は、インテル製マイクロプロセッサー向けに予約されて

います。この注意事項の適用対象である特定の命令セットの詳細は、該当する製品のユーザー・リファレンス・ガイドを参照してください。

改訂

#20110804

34

参照

関連したドキュメント

平均車齢(軽自動車を除く)とは、令和3年3月末現在において、わが国でナン バープレートを付けている自動車が初度登録 (注1)

本資料は Linux サーバー OS 向けプログラム「 ESET Server Security for Linux V8.1 」の機能を紹介した資料です。.. ・ESET File Security

The aim of this paper is three-fold: firstly, to discuss various aspects related to transcendental and irrational numbers, including presentation of some open questions on this

With a diverse portfolio of products and services, talented engineering staff with system expertise, a deep understanding of the quality, reliability and longevity requirements

ESMPRO/ServerAgent for GuestOS Ver1.3(Windows/Linux) 1 ライセンス Windows / Linux のゲスト OS 上で動作するゲスト OS 監視 Agent ソフトウェア製品. UL1657-302

Amount of Remuneration, etc. The Company does not pay to Directors who concurrently serve as Executive Officer the remuneration paid to Directors. Therefore, “Number of Persons”

If you are allergic to certain food or are observing dietary restrictions, please kindly inform our staff of your

この P 1 P 2 を抵抗板の動きにより測定し、その動きをマグネットを通して指針の動きにし、流