大型水チェレンコフ検出器の為の
ヘテロジニアス型
事象再構成アルゴリズムの開発
(
公募研究
)
7
thJan. 2018
新学術領域「宇宙の歴史をひもとく地下素粒子原子核研究」
第4回超新星ニュートリノ研究会
1矢野 孝臣
所属
: 東京大学ICRR (2017.12~), 神戸大学(~2017.11)
Introduction
大型水チェレンコフ検出器による超新星バーストνの検出 1
2 0 500 1000 1500 2000 2500 3000 0 0.05 0.1 0.15 0.2 0.25 0.3 Time (sec) events/0.22Mt/20msec Nakazato et al. (2015),1D,30M,BH Nakazato et al. (2015),1D,20M Takiwaki et al. (2014),3D,11.2M Bruenn et al. (2016),2D,20M Dolence et al. (2015),2D,20M Pan et al. (2016),2D,21M Tamborra et al. (2014),3D,27M Totani et al. (1998),1D,20M• 超新星バーストνの検出は大型水
チェレンコフ検出器の重要な物理
テーマの一つ
• 爆発メカニズムの解明 • (SASI, 回転, 対流, BH形成) • 高温高密度の物理(EOS)等への制限 • マルチメッセンジャー観測• 日本のスーパーカミオカンデ, ハイ
パーカミオカンデ(2026 )が牽引。
• 近傍の超新星では高統計が期待
超新星ν事象数@10kpc, /1 tank of HK この辺にSASI• Max evt. rate: 50k 1MHz@10kpc, HK 1tank
• Max evt. rate: 5 100MHz@1kpc, HK 1tank
• Eta Carina: 2.4kpc, 70M&30M • Betelgeuse: 0.2kpc, 20M
HK
高速化の要請: マルチメッセンジャー観測
3
Livermore (Wilson) Model
• HKはSNν事象から超新星の方向を(常に4πで)同定することが出来、銀 河中心で視野角(両側角) 2度の分解能を持つ。 • 銀河中心の超新星について、口径>8mの光学望遠鏡(LSST, スバル望遠 鏡 HSC)とのマルチメッセンジャー観測が期待される。 • 光学観測が特に興味のあるショックブレイクアウト(SBO)はニュー トリノ信号から数分∼一日で起こる(Core-Collapse型 超新星)。 HKのSN方向への感度 (片側角) SK, HKの10kpcの方向感度 と望遠鏡の視野角, Nakamura et al. (2016)
HK
Livermore (Wilson) Model
HKのSN方向への感度 SK, HKの10kpcの方向感度 と望遠鏡の視野角, Nakamura et al. (2016)
高速化の要請: マルチメッセンジャー観測
• 方向感度は統計数の二乗根にほぼ比例。視野角2度= 10万事象解析。 • 10分で解析しアラートを出す為には0.005s/事象で再構成する必要がある。 • SKでは再構成に< 0.1 秒/事象 (@15MeV)。 • HKだと現在O(1) 秒/事象 (@15MeV, 仮)。 • SKでは1/20、HKでは現行の1/200以下まで短縮が必要。 • CPU100個を並列に使って補う事は可能。 @ Xeon E5-2680, 1 cpu thread5 直径74m 高さ 60 m FV0.19 Mt /tank 高さ 42m 直径39m Super-K
Hyper-Kamiokande
大型水チェレンコフ検出器によるν検出
FV 22.5kt νl
Cherenkov ring 光検出器(PMT) 40,000本(HK) 11,100本(SK) • ニュートリノが生成する荷電粒子のチェレンコフ光を検出。 • 各光検出器(PMT)によるチェレンコフ光の検出時間・位置から元事象の 位置・時間・方向(・粒子種別)を再構成。現行の事象位置再構成
6SK (HK) で使用されている事象位置再構成アルゴリズム
(BONSAI, hk-BONSAI)では、おおまかに以下の二段階で事象
の再構成を行う。
1. 4-hit combination による初期事象位置候補の探索
2. チェレンコフ光検出の時間分布Likelihoodを用いた事象位
置のFine tuning
Ref: M. Smy at NOW20061.
2.
Time of Flight Likelihood for T-TOF.
現行の事象位置再構成
7SK (HK) で使用されている事象位置再構成アルゴリズム
(BONSAI, hk-BONSAI)では、おおまかに以下の二段階で事象
の再構成を行う。
1. 4-hit combination による初期事象位置候補の探索
•
今回はこの部分を高速化。
2. チェレンコフ光検出の時間分布Likelihoodを用いた事象位
置のFine tuning
Ref: M. Smy at NOW20061.
(xi, yi, zi, ti), i=1~42.
現行の事象位置再構成
8SK (HK) で使用されている事象位置再構成アルゴリズム
(BONSAI, hk-BONSAI)では、おおまかに以下の二段階で事象
の再構成を行う。
1. 4-hit combination による初期事象位置候補の探索
•
今回はこの部分を高速化。
2. チェレンコフ光検出の時間分布Likelihoodを用いた事象位
置のFine tuning
Ref: M. Smy at NOW20061.
2.
Time of Flight Likelihood for T-TOF.
• 2017年の新しい計算手法・計算資源を用いる。
→ ヘテロジニアスコンピューティング
ヘテロジニアスコンピューティング
GPGPU (General Purpose Graphic Processing Unit)
9
ヘテロジニアスコンピューティングとは
• 異なるアーキテクチャのプロセッサを混載したシステム上で、用途 に応じて適したプロセッサに処理を分担させることで全体の処理を 高める計算手段。 • 近年ではGPGPUの発展が著しく、一般への応用も盛ん。 • GPGPUは単純なベクトル演算 ( = 複数のデータに同じ演算を同 時に適用する)に特化したプロセッサ。 • 今回の目的(4hit combination=行列演算等)に適合。• Intel Xeon E5-2680 v4 : 570 GFLOPS (単精度浮動小数), ¥200K
10 • 広視野角の原子核乾板の事象再構成 (@名大, Bern大)
• 使用例: ν振動実験OPERA, γ線望遠鏡気球実験GRANE
• T. Fukuda et al. JINST (2013), https://arxiv.org/abs/1301.1768
• A. Ariga, T. Ariga JINST (2014), https://arxiv.org/abs/1311.5334
• 液体アルゴン検出器の事象再構成 (ARGONTUBE@Bern大)
• A. Ereditato et al. JINST (2013), https://arxiv.org/abs/1304.6961
• Studies with a Liquid Argon Time Projection Chamber , M. Schenk, Springer (2015)
• 検出器シミュレーションGeant4の高速化(SLAC, KEK等)
• 医療用途に向けた高速化が主目的
• H.N Tran et al, NIMB (2016), https://doi.org/10.1016/j.nimb.2016.01.017
素粒子物理分野での応用例
© Nagoya University, JAXAホームページより転載
Hyper-Kに向けた応用の一例
11• 開発中のHKトリガーシステム
• インテリジェントトリガーシステム • リアルタイムの事象再構成を行いながら事象のトリガーと記録 を行うシステム。• Intelligent Trigger for Hyper-K with GPUs , A. Ariga at Third HK EU Meeting(2015)
• Low Energy Triggering for Hyper-Kamiokande , T. Dealtry at Neutrino 2016(2016)
etc. 検出器中に5m間隔 の格子点を置く t t-tof • 検出器の有効体積内にあらかじめ格子点を 決めておき、各点についてT-TOFを計算。 • S/Nの分離が容易になる。 • 偽事象を減らし、閾値を下げられる。 • 位置精度は格子に制限される。 Figures are taken from Ariga-san’s presentation. Trigger!
12 • ヘテロジニアスコンピューティング=GPGPU処理の可能なマシンを導入
• DOS/V パラダイス, GALLERIA AZ(KT01/B350) • 実売価格 ¥270k
• AMD Ryzen 7 1800X (8 core 16 thread)
• 240 GFLOPS (単精度浮動小数, Sandra Benchmark)
• メモリ(CPU直結) 16GB
• NVIDIA GeForce 1080Ti (3584 CUDA Core = thread)
• 前世代TITAN Xの一般向け仕様
• 11 TFLOPS (単精度浮動小数)
• メモリ(GPU直結) 11GB
13
システムのブロックダイアグラム
CPU CPU側メモリ CPU内蔵 コントローラNVIDA GPU (TITAN X, 1080 Ti) スレッドコントローラ 制御 GPU側メモリ DMA, PCI-Eバス … 128 CUDA Core CUDA Core CUDA Core Streaming Multi-processors … CUDA Core CUDA Core CUDA Core Streaming Multi-processors … CUDA Core CUDA Core CUDA Core Streaming Multi-processors アクセス 28 SMs
14
システムのブロックダイアグラム
CPU
CPU側メモリ
NVIDA GPU (TITAN X, 1080 Ti) スレッドコントローラ GPU側メモリ … 128 CUDA Core CUDA Core CUDA Core Streaming Multi-processors … CUDA Core CUDA Core CUDA Core Streaming Multi-processors … CUDA Core CUDA Core CUDA Core Streaming Multi-processors 28 SMs ヒット情報 1.ディスクからヒット情報を読出
15
システムのブロックダイアグラム
CPU
CPU側メモリ
NVIDA GPU (TITAN X, 1080 Ti) スレッドコントローラ GPU側メモリ … 128 CUDA Core CUDA Core CUDA Core Streaming Multi-processors … CUDA Core CUDA Core CUDA Core Streaming Multi-processors … CUDA Core CUDA Core CUDA Core Streaming Multi-processors 28 SMs ヒット情報 1.ディスクからヒット情報を読出 2. GPU側に転送
16
システムのブロックダイアグラム
CPU
CPU側メモリ
NVIDA GPU (TITAN X, 1080 Ti) スレッドコントローラ GPU側メモリ … 128 CUDA Core CUDA Core CUDA Core Streaming Multi-processors … CUDA Core CUDA Core CUDA Core Streaming Multi-processors … CUDA Core CUDA Core CUDA Core Streaming Multi-processors 28 SMs 1.ディスクからヒット情報を読出 2. GPU側に転送 3. 各ヒット情報をSMが処理 (1 CUDA Core 1ヒットパターン)
17
システムのブロックダイアグラム
CPU
CPU側メモリ
NVIDA GPU (TITAN X, 1080 Ti) スレッドコントローラ GPU側メモリ … 128 CUDA Core CUDA Core CUDA Core Streaming Multi-processors … CUDA Core CUDA Core CUDA Core Streaming Multi-processors … CUDA Core CUDA Core CUDA Core Streaming Multi-processors 28 SMs 1.ディスクからヒット情報を読出 2. GPU側に転送 3. 各ヒット情報をSMが処理 (1 CUDA Core 1ヒットパターン) 4. 結果の読み出し・CPU処理
アルゴリズムの試作
18 • 4-hit combination による初期事象位置候補の探索 をGPGPU処理
を用いて実装 (Bern大学 有賀さんのご協力による)。 • 最大150個のPMTによる光子検出(PMT Hit)について全パターン の4-hit combinationをとり、元の事象の候補位置を算出。 • 現段階では開発の初歩的なレベルに留まっており、事象 100nsの範囲で早いヒットから150個を選択して計算を実行。 • SK(HK)アルゴリズム(BONSAI, hk-BONSAI)との違い: • SKのアルゴリズムは前処理によって巧妙に4-hit計算に用いる PMTの数を削減している。 • Minkovski空間で相関のない組み合わせを計算から省く。 • 近接したHitの情報を用いて、計算に用いるHitを削減。 • 試作アルゴリズムはLikelihoodによる位置のFine Tuneを導入 していない(後述)。 • 事象方向の再構成について未実装。
試作アルゴリズムの評価 (1)
19 • 汎用水チェレンコフ検出器シミュレータWCSimを使用して試作アルゴ リズムの性能を評価する。 • GitHubから誰でも入手可能: https://github.com/WCSim • Hyper-K Proto-collaborationも使用・開発しているGeant4ベー スの計算機シミュレーション。 • SuperKモード+光検出器の応答をSKに近づけるパッチを使用。-1500 - -1000 -500 0 500 1000 1500 0 5000 10000 15000 20000 25000 30000 Event VTX2 hvtx2 Entries 516721 Mean 1013 RMS 533.5 Event VTX2 1500 - -1000 -500 0 500 1000 1500 0 5000 10000 15000 20000 25000 30000 Event VTX1 hvtx1 Entries 516721 Mean -77.1 RMS 510.8 Event VTX1 1500 - -1000 -500 0 500 1000 1500 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000 Event VTX0 hvtx0 Entries 516721 Mean 572.6 RMS 676.6 Event VTX0
試作アルゴリズムの評価 (2)
20 • 4 hit combinationによって得 られたCandidatesの位置分布 はMCの真の事象位置近くに ピークを示す。 • 初歩的な統計処理として、 Candidate分布のピーク位置を 取り出し、真の位置との差(再構 成の分解能)を評価。Particle: 11 MeV electron
X (MC, True): 861.5 cm
Y (MC, True): -11.6 cm Z (MC, True): 1160.5 cm
4 hit vtx candidates [X]
4 hit vtx candidates [Y] 4 hit vtx candidates [Z]
[cm] [cm] [cm] Nu m b e r of Ca n d id a te s
1500 - -1000 -500 0 500 1000 1500 0 200 400 600 800 1000 1200 1400 3 10 ´ Event VTX2 hvtx2 Entries 1.733616e+07 Mean 459.1 RMS 411.6 Event VTX2 1500 - -1000 -500 0 500 1000 1500 0 100 200 300 400 500 600 700 800 3 10 ´ Event VTX1 hvtx1 Entries 1.733616e+07 Mean -116.1 RMS 539.4 Event VTX1 1500 - -1000 -500 0 500 1000 1500 0 100 200 300 400 500 600 3 10 ´ Event VTX0 hvtx0 Entries 1.733616e+07 Mean 484.7 RMS 560.1 Event VTX0
試作アルゴリズムの評価 (2)
21 • 4 hit combinationによって得 られたCandidatesの位置分布 はMCの真の事象位置近くに ピークを示す。 • 初歩的な統計処理として、 Candidate分布のピーク位置を 取り出し、真の位置との差(再構 成の分解能)を評価。Particle: 30 MeV electron
X (MC, True): 746.1 cm
Y (MC, True): -287.4 cm Z (MC, True): 519.3 cm
4 hit vtx candidates [X]
4 hit vtx candidates [Y] 4 hit vtx candidates [Z]
[cm] [cm] [cm] Nu m b e r of Ca n d id a te s
1500 - -1000 -500 0 500 1000 1500 0 50 100 150 200 250 300 Event VTX0 hvtx0 Entries 9546 Mean 154.6 RMS 577.9 Event VTX0 1500 - -1000 -500 0 500 1000 1500 0 50 100 150 200 250 Event VTX1 hvtx1 Entries 9546 Mean -524.8 RMS 658.5 Event VTX1 1500 - -1000 -500 0 500 1000 1500 0 50 100 150 200 250 300 350 400 450 Event VTX2 hvtx2 Entries 9546 Mean -124 RMS 604 Event VTX2
試作アルゴリズムの評価 (2)
22 • 4 hit combinationによって得 られたCandidatesの位置分布 はMCの真の事象位置近くに ピークを示す。 • 初歩的な統計処理として、 Candidate分布のピーク位置を 取り出し、真の位置との差(再構 成の分解能)を評価。Particle: 3 MeV electron
X (MC, True): -99.9 cm
Y (MC, True): -946.7 cm
Z (MC, True): 154.1 cm
4 hit vtx candidates [X]
4 hit vtx candidates [Y] 4 hit vtx candidates [Z]
[cm] [cm] [cm] Nu m b e r of Ca n d id a te s
0 50 100 150 200 250 300 0 5 10 15 20 25 30 WCSim (SK mode) + hk-BONSAI SK-III + BONSAI (solar paper) WCSim + GPGPU (this study) WCSim + GPGPU, w/o PMT time response
試作アルゴリズムの評価 (位置分解能)
23 • 現段階で試作アルゴリズムの位置分解能はSKの再構成アルゴリズム に及ばない。PMTの時間分解能が分解能悪化の主因。 • 位置分解能: 68%の再構成事象が含まれる真の事象位置からの距離。 • CPUによる統計処理(Likeilhood等 FineTune)で性能の向上が期待される。 • 今後Hyper-Kにおける性能についても確認。 Ee [MeV] Ve rt e x R e s ol u ti on [c m ] MC(WCSim)統計量: 5000事象試作アルゴリズムの評価 (計算時間)
24
• 試作アルゴリズムはSKアルゴリズムよりも3 50倍高速(計算のみ)。
• ただしXenon E5-2680は一基で16 thread走らせる事が可能。
• SKのアルゴリズムは処理時間の 75%が4hit combination。 • 4hit combinationの単純な置き換えを行うと2 4倍の高速化が期待される。 • Candidate vertex情報のGPU->CPUメモリ転送に課題。 Ee [MeV] P roc e s s Ti m e (1 0 0 0 e v e n ts ) [s ec ] 0.01 0.1 1 10 100 1000 0 5 10 15 20 25 30 35 CPU(hk-BONSAI) Xenon E5-2680, 1CPU thread GPGPU (Geforce 1080Ti) GPGPU(Candidatesのメモリ転送なし) MC(WCSim)統計量: 5000事象
time ν事象1 ν事象2 チェレンコフ光の検出時間 ν事象の時間 time time
別タイプのアルゴリズムの案
25• HK用トリガーシステムを応用したアルゴリズム。
1. GPGPUによる格子点による初期事象位置候補の探索
2. CPUによるチェレンコフ光検出の時間分布Likelihoodを用
いた事象位置の Fine tuning。
•
超新星等でニュートリノ事象が時間・空間的に近接する場
合、 (定性的に)分離能力に優れると期待される。
まとめと今後の予定
26 • 近年素粒子物理学分野においても、新しい計算資源であるGPGPUが用 いられ始めている。 • 本公募研究では、大型水チェレンコフ検出器のためGPGPUを用いたヘ テロジニアス型事象再構成アルゴリズムの技術開発・実証を行う。 • 実証用プログラムとしてとして、以下の概念のコードを作成中。 • 高速だが単純な計算に特化したGPUによるVertex候補探索 • 4-hit combination• 複雑な計算に優れるCPUによるVertex Fine Tuning. • (To be done, Likelihoodないし他の統計的処理)
• 現段階で4-hit combination計算は0.003秒/事象@15MeV, SKを仮定。 • 分解能は 140cm程度。方向Fitの導入・精度の向上が必要。
• コード自体の改良・HKのようなPMT(Hit)が多い状況での性能評価を継 続する。
Appendix
GPU計算でPMTの分解能を考えない場合
=WCSimのTrue Timeを使用した場合
試作アルゴリズムの評価 (2)
28 • 4 hit combinationによって得 られたCandidatesの位置分布 はMCの真の事象位置近くに鋭 いピークを示す。 • 初歩的な統計処理として、 Candidate分布のピーク位置を 取り出し、真の位置との差(再構 成の分解能)を評価。 hvtx0 Entries 1799751 Mean 883.8 Std Dev 315.1 1500 - -1000 -500 0 500 1000 1500 0 20 40 60 80 100 3 10 ´ hvtx0 Entries 1799751 Mean 883.8 Std Dev 315.1 Event VTX0 hvtx1 Entries 1799751 Mean 68.95 Std Dev 363 1500 - -1000 -500 0 500 1000 1500 0 20 40 60 80 100 120 140 160 3 10 ´ hvtx1 Entries 1799751 Mean 68.95 Std Dev 363 Event VTX1 hvtx2 Entries 1799751 Mean 1177 Std Dev 213.1 1500 - -1000 -500 0 500 1000 1500 0 20 40 60 80 100 120 140 160 180 200 220 3 10 ´ hvtx2 Entries 1799751 Mean 1177 Std Dev 213.1 Event VTX2Particle: 11 MeV electron
X (MC, True): 861.5 cm
Y (MC, True): -11.6 cm Z (MC, True): 1160.5 cm
4 hit vtx candidates [X]
4 hit vtx candidates [Y] 4 hit vtx candidates [Z]
[cm] [cm] [cm] Nu m b e r of Ca n d id a te s
1500 - -1000 -500 0 500 1000 1500 0 50 100 150 200 250 300 350 400 450 Event VTX2 hvtx2 Entries 9609 Mean 27.45 RMS 524.9 Event VTX2 1500 - -1000 -500 0 500 1000 1500 0 50 100 150 200 250 300 Event VTX1 hvtx1 Entries 9609 Mean -613.2 RMS 650.6 Event VTX1 1500 - -1000 -500 0 500 1000 1500 0 50 100 150 200 250 300 Event VTX0 hvtx0 Entries 9609 Mean 131.4 RMS 522.5 Event VTX0
試作アルゴリズムの評価 (2)
29 • 4 hit combinationによって得 られたCandidatesの位置分布 はMCの真の事象位置近くに鋭 いピークを示す。 • 初歩的な統計処理として、 Candidate分布のピーク位置を 取り出し、真の位置との差(再構 成の分解能)を評価。Particle: 3 MeV electron
X (MC, True): -99.9 cm
Y (MC, True): -946.7 cm
Z (MC, True): 154.1 cm
4 hit vtx candidates [X]
4 hit vtx candidates [Y] 4 hit vtx candidates [Z]
[cm] [cm] [cm] Nu m b e r of Ca n d id a te s
hvtx0 Entries 1.203529e+07 Mean 341.6 RMS 632.8 1500 - -1000 -500 0 500 1000 1500 0 20 40 60 80 100 120 140 160 180 3 10 ´ hvtx0 Entries 1.203529e+07 Mean 341.6 RMS 632.8 Event VTX0 hvtx2 Entries 1.203529e+07 Mean 496.7 RMS 428.7 1500 - -1000 -500 0 500 1000 1500 0 100 200 300 400 500 600 3 10 ´ hvtx2 Entries 1.203529e+07 Mean 496.7 RMS 428.7 Event VTX2 hvtx1 Entries 1.203529e+07 Mean -54.35 RMS 597.7 1500 - -1000 -500 0 500 1000 1500 0 50 100 150 200 250 300 350 3 10 ´ hvtx1 Entries 1.203529e+07 Mean -54.35 RMS 597.7 Event VTX1
試作アルゴリズムの評価 (2)
30 • 4 hit combinationによって得 られたCandidatesの位置分布 はMCの真の事象位置近くに鋭 いピークを示す。 • 初歩的な統計処理として、 Candidate分布のピーク位置を 取り出し、真の位置との差(再構 成の分解能)を評価。Particle: 30 MeV electron
X (MC, True): 746.1 cm
Y (MC, True): -287.4 cm Z (MC, True): 519.3 cm
4 hit vtx candidates [X]
4 hit vtx candidates [Y] 4 hit vtx candidates [Z]
[cm] [cm] [cm] Nu m b e r of Ca n d id a te s