2016 年度卒業論文素粒子実験データ解析における機械学習の応用

(1)

2016 年度卒業論文

素粒子実験データ解析における機械学習の応用

広島大学理学部物理科学科

B131251 坂田麻侑

指導教員：高橋徹

主査 : 高橋徹

副査 : 岡部信広

平成 29 年 2 月 10 日

(2)

第

2

章機械学習 ... 3

2.1.

概要 ... 3

2.2.

カット ... 4

2.3. BDT(Boosted Decision Tree) ... 4

2.3.1. Ada Boost ... 5

2.4.

ニューラルネットワーク ... 5

2.4.1.

ニューラルネットワークの学習方法 ... 6

2.4.2.

誤差逆伝播法 ... 7

2.4.3.

活性化関数 ... 10

2.4.4.

単純パーセプトロン ... 11

2.4.5.

多層パーセプトロン(MLP : Multi Layer Perceptron) ... 12

2.5.

ディープラーニング ... 12

2.5.1.

畳み込みニューラルネットワーク(Convolution Neural Network : CNN) .. 13

第

3

章素粒子実験 ... 16

3.1.

概要 ... 16

3.2.

標準模型 ... 16

3.3. ILC

で探索する物理 ... 17

3.4.

加速器で生成される過程 ... 17

第

4

章検出器 ... 18

4.1.

概要 ... 18

4.2.

飛跡検出器 ... 18

4.2.1.

崩壊点検出器(VTX) ... 19

4.2.2.

主飛跡検出器 ... 19

4.3.

カロリメータ... 19

4.3.1.

電磁カロリメータ ... 19

4.3.3.

ハドロンカロリメータ ... 20

4.4.

ミューオン検出器 ... 20

4.5.

前方検出器 ... 20

第

5

章特徴量を用いた機械学習の利用 ... 21

5.1.

概要 ... 21

5.2.

解析条件 ... 21

5.3.

特徴量 ... 22

5.3.1.

電磁カロリメータでのエネルギー損失 ... 22

(3)

5.3.5.

不変質量(mdilep) ... 24

5.3.6.

反跳質量(mercol) ... 25

5.3.7.

レプトン対角度(acl) ... 25

5.3.8. xy

平面におけるレプトン対角度(acp) ... 26

5.3.9. PFO

損失角度(𝑐𝑜𝑠𝑚𝑖𝑠𝑠𝑖𝑛𝑔𝜃) ... 26

5.4.

結果 ... 28

第

6

章

4jets

クラスタリングを行い機械学習 ... 34

6.1.

概要 ... 34

6.2.

解析条件 ... 34

6.3.

結果 ... 38

第

7

章

4jets

クラスタリングを行わず機械学習 ... 41

7.1.

概要 ... 41

7.2.

解析条件 ... 41

7.3.

結果 ... 41

第

8

章結論 ... 43 謝辞

44

参考文献 45

(4)

図 2.2 ニューラルネットワークの概念図 ... 5

図 2.3 以下の計算で考えるニューラルネットワーク概念図 ... 8

図 2.4 単純パーセプトロンの概念図 ... 11

図 2.5 多層パーセプトロンの概念図 ... 12

図 2.6 CNNの階層の概念図 ... 13

図 2.7 畳み込み概念図 ... 14

図 2.8 叩き込み層概念図 ... 14

図 2.9 プーリング層概念図 ... 15

図 3.1標準模型を構成する素粒子 ... 17

図 5.1 電磁カロリメータでのエネルギー損失の分布 ... 22

図 5.2 ハドロンカロリメータでのエネルギー損失の分布 ... 23

図 5.3 粒子最大運動量の分布 ... 23

図 5.4 レプトンの横運動量の分布 ... 24

図 5.5 粒子の不変質量の分布 ... 24

図 5.6 粒子の反跳質量の分布 ... 25

図 5.7 レプトン対ベクトルの間の角度の分布... 25

図 5.8

xy

平面のレプトン対角度の分布 ... 26

図 5.9

𝒄𝒐𝒔𝒎𝒊𝒔𝒔𝒊𝒏𝒈𝜽の分布 ... 27

図 5.10

BDT

の

ROC

曲線 ... 28

図 5.11 活性化関数に

tanh

関数を用いたときのノード数に対する

AUC

値 ... 29

tanh

関数を用いたときの

AUC

分布 ... 29

図 5.13 活性化関数:tanh関数ノード数

13

の時の

ROC

曲線 ... 30

sigmoid

AUC

値 ... 30

図 5.15 活性化関数にシグモイド関数を用いて、ノード数

19

のときの

ROC

曲線 . 30 図 5.16 活性化関数に

radial

AUC

値 ... 31

radial

関数、ノード数

13

のときの

ROC

曲線... 31

図 5.18 ノード数を

3

に固定して隠れ層を変化させた時の

AUC

の値 ... 32

図 5.19 ノード数を

3

に固定して隠れ層を変化させた時の

AUC

の値 ... 32

図 5.20 正則化を行った時の

ROC

曲線 ... 33

図 6.1

4jets

の順番を入れ替えない時の

4

元運動量 ... 35

図 6.2

4jets

4

元運動量 ... 36

図 6.3

4jets

の順番をランダムに入れ替えた時の

4

元運動量 ... 37

図 6.4

4jets

ROC

曲線 ... 38

(5)

図 6.8

4jets

の順番をランダムに入れ替えた時の

AUC:0.86

の時の

ROC

曲線 ... 40 図 6.9 4jetsの順番をランダムに入れ替えたときの

AUC

分布 ... 40 図 7.1 衝突終状態の

4

元運動量を入力に用いて得られた

AUC:0.811

の時の

ROC

曲

線(活性化関数:ランプ関数) ... 41 図 7.2 活性化関数にランプ関数を用いてディープラーニングを

20

回行った時の

AUC

分布 ... 41 図 7.3 衝突終状態の

4

元運動量を入力に用いて得られた

ROC

曲線(活性化関数:tanh)

... 42

図 7.4活性化関数を

tanh

関数としてディープラーニングを

10

回行った時の

AUC

分

布 ... 42

(6)

第 1 章概要

機械学習とは機械が何かを学習する能力をも出せる技術であり人工知能と呼ばれるものの一種である。人工知能という言葉は

1956

年のダートマス会議で用いられたのが始まりと言われている。このころ盛んに研究が行われていたのはパーセプトロンという機械学習のアルゴリズムである。しかしパーセプトロンでは線形分離不可能なパターンを識別できないという欠点が明らかになり、機械学習の発達は停滞した[4]。当時の状況は人工知能が冬の時代を迎えたと表現されている。1980年代になると機械学習は再びブームを迎えることになった。このブームの立役者となったのはエキスパートシステムと第五世代コンピューターシステムである。感染症診断治療支援エキスパートシステム[24]を使うことで新米医師よりもエキスパートシステムの診断のほうが診断成績が良いという結果を出した。これを背景に第五世代コンピューターというプロジェクトが推進され機械学習は二回目のブームが巻き起こった[5]。このころに注目されたのがニューラルネットワークという人の神経細胞をモデル化した機械学習のアルゴリズムである。ニューラルネットワークは入力層、隠れ層、出力層からなる階層構造で構成される。ニューラルネットワークをもとに様々な学習を行うことはできだが

3

層以上の構造で上手く学習をさせることが出来なかったため、性能向上の限界を迎えてしまい、再び機械学習の発達は停滞した。現在、機械学習は三度目のブームを迎えている。注目されているのはディープラーニングという機械学習のアルゴリズムである。これはニューラルネットワークではできなかった

3

層以上の多層の学習を可能にした。それにより、機械学習のさらなる可能性が期待される。

現在まで、素粒子実験のデータ解析においてニューラルネットワークなどの機械学習は積極的に使われてきた。しかしその特徴の把握や入力パラメータに対する系統的な最適化が完全になされてきたとは言えない。また、ディープラーニングの素粒子実験データ解析における適応可能性はこれからの課題である。現在、素粒子実験データ解析で用いられる入力データは人間が事象選別のために選んだ特徴量を用いている（例えば検出器で測定されるエネルギーや角度など）。今までに使用されてきた学習器としてニューラルネットワークや決定木 (DT, Decision Tree)などはあらかじめ人が背景事象か信号事象か事象を識別するための特徴量を学習器に学習させる必要があるからである。それに対してディープラーニングはシグナルかバックグラウンドかが未知の事象を学習させることで特徴量を機械が作り出し、事象の判別をすることが期待される学習方法である。

本研究ではこれまで行われてきた方法として、特徴量を用いたニューラルネットワーク

(

その中でも多層パーセプトロン：

MLP)やブースティングを用いた決定木 (Boosted

Decision Tree : BDT)についてそれらの比較、 MLP

の構成と性能の比較検討などを行った。

さらに、特徴量ではない一般的な量としての粒子の

4

元運動量を入力とした時の

MLP、

BDT、ディープラーニングの比較を行い、実験データ解析への応用の可能性を検討した。

本論文では第

2

章に使用した機械学習について述べる。第

3

章と

4

章では素粒子実験と

(7)

素粒子実験に使われる検出器について記述する。第

5

章では特徴量を用いて

MLP

と

BDT

に学習させたその内容と結果について、第

6

章と

7

章では特徴量ではない一次情報をもと

に

MLP、BDT、ディープラーニングの比較を行う。最後に第 9

章で本論文のまとめを記述

する。

(8)

第 2 章機械学習

2.1.

概要

機械学習は教師あり学習と教師無し学習に分類できる。これらは学習器が扱う入力と出力に対するフィードバック情報の与えられ方に関する分類である。

教師あり学習とは、機械学習を行う学習器に教師信号を与えることで学習器が訓練データについてその出力の正しさを検証して、徐々に入力と出力の関係を学習していく学習のことである。ここで認識対象に対して、予めわかっている理想的な出力を教師信号と呼ぶ。

画像認識を例にとると、林檎や梨などの果物の画像と、その画像はなんという名の果物に対応しているかという正解データ(教師信号)を用意して、画像と教師信号をセットで学習させることである。

教師なし学習は入力に対して学習器は出力を返すが、それに対する外部からの教師信号は存在せず、学習器が入力情報のみに従って学習を進める学習のことである。学習は事前に学習器内部に埋め込まれた規範やアルゴリズムに従って進められる。多くの場合何らかの評価関数を最大化(もしくは最小化)するようにアルゴリズムが構成されていることが多い。

例えば与えられたたくさんの果物の画像から果物の類似性を判断して、似たような果物をグループ分けしていくようなクラスタリングに使われる。

また、機械学習は入力から出力への変換を学習する存在としてモデル化される。「学習器は内部に関数を持ち、そのパラメータを学習することによって、入力から出力への変換を行うことが可能になる」と考えることができる。例えば、後述するニューラルネットワークの場合は結合荷重を学習する。機械学習においてはパラメータの学習に用いる訓練データとテストデータを区別することが重要である。特に教師あり学習では訓練データに対して教師信号が与えられるため、入力データを学習器がすべて記憶し、正しい答えの出力ができるようになることがある。このような現象は過学習と呼ばれる。したがって、過学習を回避し、

訓練データで学習した学習器がテストデータに対して正しい答えを返せるようになる必要がある。

機械学習を利用してできることの一つにパターン認識がある。パターン認識とはある認識対象がいくつかの概念に分類可能であるとき、認識対象の持つ特徴を用いてある特定の概念に分類する処理のことである。この時の概念をクラス(class)、または類(category)という。パターン認識を行う際に用いる認識対象の特徴は通常複数あり、それらをまとめて定量的に表したものを特徴ベクトルと呼び、

𝐱 = (𝑥

₁

, 𝑥

₂

, 𝑥

₃

, … , 𝑥

_𝑀

)で表される(M:特徴量の数)。特

徴ベクトルによって張られる空間を特徴空間と言う。各認識対象は特徴空間の

1

点として表される。複数の認識対象を考えたとき、同じクラスに属するものは特徴空間上のある領域に集中することになる。この集中した塊のことをクラスタと呼ぶ。

代表的な機械学習の学習器の例として、ナイーブベイズモデル [5]、ニューラルネットワーク [4],[5],[8]、決定木 (BDT)[8]、サポートベクトルマシン(SVM)[9]、ディープラーニング [6],[11],[12],[13]などが挙げられる。そのなかで、本研究では

BDT

とニューラルネット

(9)

ワーク、ディープラーニングを取り扱った。

2.2.

カット

カットとは特徴量ごとにシグナルとバックグラウンドの切り分けを行う。特徴空間内でシグナルとバックグラウンドを識別する面を探すことに相当する。特徴空間において、シグナルに相当する空間は一つしかない。また、カット学習器は出力にシグナルかバックグラウンドのみのバイナリ応答を返す。

2.3. BDT(Boosted Decision Tree)

図 2.1: 決定木の概念図

決定木(Decision Tree=DT)とは、各特徴量について、シグナルとバックグラウンドを切り分け閾値を決定する方法である。シグナルとバックグラウンドが混在した最初の状態を

Root node

という。後述する

Boosting

という手法によって性能を向上させたものを

Boosted

Decision Tree(BDT)という。BDT

は

Root node

を最もうまく分ける変数を探してシグナル

とバックグラウンドを分ける。まず、ある変数の値に対してイベントを分類する。分類されたイベントに対してさらに別の変数の値によってイベントを分類していく。変数の値に対してイベントを分ける処理を行う部分をノードといい、最終的に分けられたノード(leaf

node)において、イベントがシグナルかバックグラウンドのどちらのノードに属するかによ

って識別する。このような方法を次々と分けられた結果に適応し、この作業を停止させる条件が満たされるまで続け、一つの決定木が完成する。各ノードで使われる変数は他のノードで使われたことがあるものも考慮され、与えられた変数の中でまったく用いられなかった変数がある場合もある。カットにおいてもこの決定木を書くことができるがシグナルを示

す

leaf node

は一つしかないのに対して、DTでは複数ある。

この手法は基本的考え方が簡単なためによく使われる手法ではあるが、統計量が少ない

(10)

ときや複数の変数が複雑な関係にある場合にシグナルとバックグラウンドをうまく分けられないという短所がある。この短所を克服するために

Boosting

という手法が用いられる。

Boosting

とは過去の学習の結果を使って、間違った学習と正しい学習の重みを変えて更

新することで、学習結果をより安定にする方法である。Boostingの一つに

Ada Boost

という手法がある。本研究では

AdaBoost

を用いたのでこれを以下で説明する。

2.3.1. Ada Boost

Boosting

とは識別性能の低い弱学習器を複数組み合わせて、識別性能の良い学習器を構

成するという考えを基にしたアルゴリズムである。Ada Boostは一つの決定木を選択して、

決定木の出力に対する重みを更新する。重みを変えることで、BDTの弱点を補完する手段である。まず一つの決定木を作り、最終的に分けられたイベントの中で誤って分類された比

(err)を算出する。この比を用いて

α = 1 − 𝑒𝑟𝑟

𝑒𝑟𝑟 (2-1)

で表される重みを計算し、イベントをご分類した学習器の出力にかける。ただし重みは初めに与えられた重みの総和が保たれるように規格化する。ある変数群ｘに対して決定木

h

の出力を

h(x)と定義し、シグナル(h(x)=1)とバックグラウンド(h(x)=-1)とする。 N

個の決定

木がある場合、決定木を組み合わせて作られた最終的な学習器としての出力(𝑦_{𝐵𝑜𝑜𝑠𝑡}

(𝑥))は 𝑦

_{𝐵𝑜𝑜𝑠𝑡}

= 1

𝑁 ∑ ln(𝛼

_𝑖

)

𝑁

𝑖=1

ℎ

_𝑖

(𝑥) (2-2)

と表す。𝑦_{𝐵𝑜𝑜𝑠𝑡}

(𝑥)が小さいほどバックグラウンドに近く、大きいほどシグナルに近い。

2.4.

ニューラルネットワーク

ニューラルネットワークは生物の脳の神経回路の仕組みを模したモデルである。

図 2.2 ニューラルネットワークの概念図

(11)

ニューラルネットワークには｢入力層｣、｢隠れ層｣、｢出力層｣とよばれる層を持つ。これらは入力層→隠れ層→出力層と並ぶ。隠れ層はない場合もあれば複数の層を持つこともある。

各層は複数のノード持ち、各ノードは値を持つ。異なる層のノード間は結合荷重によって結ばれており、上流のノードの出力は結合荷重を通して(出力と結合荷重の積として)歌集のノードに入力される。また、ノード間は活性化関数と呼ばれる関数を持つ。活性化関数はノードに対する入力に対して出力を決める関数であり、シグモイド関数、tanh関数、ランプ関数などがある。(2.4.4.参照)

ニューラルネットワークを利用した機械学習では、ニューラルネットワークの結合荷重の値を最適化することにより、入力値を適切に出力値に変換する方法を定める。このニューラルネットワークの入力層に値を入力すると、各層を順番に伝わり、最後に出力ノードの値が算出される。最終的に出力層の値を出力値として判定処理などに利用する。

2.4.1.

ニューラルネットワークの学習方法

ニューラルネットワークでは多くの場合、教師あり学習を通じて、結合荷重の値が最適化される。結合荷重の最適化は出力層の値と教師データの差を評価する損失関数の和が小さくなるように行われる。この結合荷重の最適化は勾配降下最適化法という方法が利用される。

勾配降下最適化法とは数値計算で関数の最小値を算出するときによく利用されるものの一つである。ある関数が与えられたときにその関数の最小値をとるような変数を求めることを考える。初めに、変数の初期値を定める。その変数の値に応じた関数の勾配を計算する。

次に変数を勾配の方向に動かして次の変数の値とする。これを繰り返すことでこの関数の最小値となる変数の値に近づけていく。結合荷重を更新するための更新式は以下のようになる。

𝜔

^𝑘+1

= 𝜔

^𝑘

− 𝜂 𝜕𝐸

𝜕𝑤

^𝑘

(2-5)

𝜔

^𝑘+1は

k+1

層での変数の値であり、

E

は教師信号と出力をパラメータにもつ損失関数、𝜔 は関数

f

のパラメータ、^𝜕𝑓

𝜕𝑦は勾配、

𝑥

_𝑖+1は次の変数の値、

εは学習率である。勾配降下最適化

法で必要となるのは

1．最適化される変数(結合荷重の値) 2．最小化する関数(損失関数) 3．最小化する関数の勾配

の

3

つである。最適化される変数は、損失関数によって求められた出力と教師信号の偏差を全訓練データ分合計した値が最小になるように計算するので、教師データ数が多いほど計算する数も増える。そのため、収束が速い計算方法や、局所解に入りにくい計算方法が考案された。その中の一つが確率的勾配法である。

(12)

確率的勾配法とははじめに訓練データの中からランダムにデータを複数選ぶ。選ばれたデータの損失関数のみを使って変数の値を変更する。変数が修正された訓練データの中から再びランダムにデータを選び、変数の値を変更する。この方法を繰り返すことで変数の値を更新する。確率的勾配法は損失関数の総和をとるデータの数が少ないので、すべてのデータを利用して更新処理を行うバッチ法よりも一回当たりの更新処理を高速に行うことができるため、アルゴリズムの収束速度が速い。損失関数を最小化するようにパラメータの修正を行う方法の一つが誤差逆伝播法である。

2.4.2.

誤差逆伝播法

誤差逆伝播法は出力層から入力層にかけて誤差を逆伝播させて各パラメータの修正量を決める。ニューラルネットワークで最適化されるパラメータは結合荷重である。

ニューラルネットワークのあるノード

j

は前の層のノードの出力の和を入力として受ける。すると前の層の出力を𝑜_𝑖としたときに、あるノード

j

への入力𝑢_𝑗は

𝑢

_𝑗

= ∑ 𝜔

_𝑖,𝑗

𝑜

_𝑖

𝑚

𝑖=1

(2-6)

と書ける。

𝜔

_𝑖,𝑗は前の層

i

番目のノードと次の層

j

番目のノードの間の結合荷重、ノード

j

からの出力𝑜_𝑗は

𝑜

_𝑗

= 𝑓(𝑢

_𝑗

) (2-7)

と書ける。出力と教師信号をパラメータに持つ損失関数

E

を考えるとノードからの出力はノード間の結合荷重によって決まるので、誤差関数は結合荷重によって定義された関数と言える。そのため任意の重みの状態から損失関数の極小値に達するためには結合荷重を

∆𝜔

_𝑖,𝑗

= η ∂E

∂𝜔

_𝑖,𝑗

(2-8)

ずつ変化させればよい。これを一般に行うと∆𝜔の評価一回毎に信号伝播の計算が必要なため、計算量が膨大になる。膨大な計算を回避し、現実的な量の計算で可能にしたのが誤差逆伝播法である。

誤差逆伝播法は入力層と出力その間に任意の個数の隠れ層を設けたニューラルネットワークに対する、教師あり学習の代表的方法である。入力データが与えられたとき、その出力層の値と、教師信号の値の差を小さくするようにニューラルネットワークの各結合荷重が修正されていく。誤差逆伝播法では、あるノードの学習に使われる情報は下流のノードの情報のみである。誤差逆伝播法の考え方は以下のような手順である。

1.

学習用に、入力層への入力パターンベクトルと出力層からの出力(教師信号)を用意する。

2.

入力層、隠れ層、出力層の順に各ノードの出力を計算する。

3.

教師信号と実際の出力の損失を計算する。

(13)

4.

教師信号と実際の出力の損失関数が減少するように、出力層から入力層に向かって、ニューラルネットワークの各層間の結合荷重を修正する。

5.

全てのパターンに対する誤差が設定値以下になれば計算を終了する。設定値以上であれば２に戻る

上記のことを詳しく式で見ていく。前提として

m

層から構成されるニューラルネットワークを考えることとする。

図 2.3 以下の計算で考えるニューラルネットワーク概念図

第

k-1

層の(𝑛_𝑘−𝑖

+1)番目に常に出力値 1

をとるバイアスノードを仮定すると、イベント

p

を

提示したときの第ｋ層(k=1,2,3,..,m)j番目の入力値𝑢_𝑝,𝑗^𝑘 は次式のように表される。

𝑢

_𝑝,𝑗^𝑘

= ∑ 𝜔

_𝑖,𝑗^{𝑘−1,𝑘}

𝑛_𝑘−1+1

𝑖=1

𝑜

_𝑝,𝑖^𝑘−1

(2-9)

𝜔

_𝑖,𝑗^{𝑘−1,𝑘}は第

k-1

層

i

番目のノードと第

k

層

j

番目のノードとの結合荷重である。k層

j

番目

の出力値𝑜_𝑝,𝑗^𝑘 は以下のようになる

𝑜

_𝑝,𝑗^𝑘

= 𝑓

_𝑗^𝑘

(𝑢

_𝑝,𝑗^𝑘

) (2-10)

𝑓

_𝑗^𝑘は第

k

層

j

番目のノードの活性化関数である。イベント

p

の出力層(m層)I番目のノード出力値に対する教師信号を𝑡_𝑝,𝑖^𝑘 、ニューラルネットワークの評価関数として、出力層の出力に対する教師信号と実際の出力値𝑜_𝑝,𝐼^𝑚の損失関数

E

を考える。以下では、簡単のために損失関数は教師信号と出力の

2

乗誤差とする。

𝐸

_𝑝

= 1

2 ∑(𝑡

_𝑝,𝑖^𝑚

− 𝑜

_𝑝,𝑖^𝑚

)

²

𝑛_𝑚

𝑖=1

(2-11) 𝐸 = ∑ 𝐸

_𝑝

𝑝

(2-12)

E

pはイベント

p

における損失関数の値、Eは全イベントに対する損失関数の

(14)

結合荷重𝜔_𝑖,𝑗^{𝑘−1,𝑘}を損失関数が小さくなるように変化させればよい。

E

pは𝜔_𝑖,𝑗^{𝑘−1,𝑘}を間接的に含むので結合荷重の変化量は

∆

_𝑝

𝜔

_𝑖,𝑗^{𝑘−1,𝑘}

∝ − 𝜕𝐸

_𝑝

𝜕𝜔

_𝑖,𝑗^{𝑘−1,𝑘}

(2-13)

という関係が成り立っている。また右辺は次のように分解できる。

𝜕𝐸

𝑝

𝜕𝜔

_𝑖,𝑗^{𝑘−1,𝑘}

= 𝜕𝐸

𝑝

𝜕𝑢

_𝑝,𝑗^𝑘

･ 𝜕𝑢

_𝑝,𝑗^𝑘

𝜕𝜔

_𝑖,𝑗^{𝑘−1,𝑘}

(2-14)

ここで式(2-14)の右辺の積第

1

項は第

k

層へのノード

j

への入力𝑢_𝑝,𝑗^𝑘 の変化が損失関数

E

pに与える影響を表す項である。また、右辺の積第

2

項は第

k-1

層のノード

i

と第

k

層のノード

j

の結合荷重𝜔_𝑖,𝑗^{𝑘−𝑖,𝑘}の変化が第

k

層のノード

j

の入力𝑖_𝑝,𝑗^𝑘 に与える影響を表す項である。

式(2-6)を用いると式(2-14)の右辺の積第

2

項は次式のように表せる。

𝜕𝑢

_𝑝,𝑗^𝑘

𝜕𝜔

_𝑖,𝑗^{𝑘−1,𝑘}

= 𝜕

𝜕𝜔

_𝑖,𝑗^{𝑘−1,𝑘}

∑ 𝜔

_𝑖,𝑗^{𝑘−1,𝑘}

𝑛_𝑘−1+1

𝑙=1

𝑜

_𝑝,𝑙^𝑘−1

= 𝑜

_𝑝,𝑖^𝑘−1

(2-15)

また、式(2-13)は比例定数𝜂を用いて次式のように表すことができる。

∆

_𝑝

𝜔

_𝑖,𝑗^{𝑘−1,𝑘}

= −𝜂 𝜕𝐸

_𝑝

𝜕𝑢

_𝑝,𝑗^𝑘

𝑜

_𝑝,𝑖^𝑘−1

(2-16)

よって𝜂が定数で、𝑜_𝑝,𝑖^𝑘−1が既知の値であることから、結合荷重の修正量∆_𝑝

𝜔

_𝑖,𝑗^{𝑘−1,𝑘}は^𝜕𝐸^𝑝

𝜕𝑢_𝑝,𝑗^𝑘 を計算することで求めることができる。

𝜕𝐸_𝑝

𝜕𝑖_𝑝,𝑗^𝑘 は次式のように分解することができる。

− 𝜕𝐸

_𝑝

𝜕𝑢

_𝑝,𝑗^𝑘

= − 𝜕𝐸

_𝑝

𝜕𝑜

_𝑝,𝑗^𝑘

･ 𝜕𝑜

_𝑝,𝑗^𝑘

𝜕𝑢

_𝑝,𝑗^𝑘

(2-17)

式(2-14)の右辺第２項は式(2-10)から入出力関数の１次導関数であり

𝜕𝑜

_𝑝,𝑗^𝑘

𝜕𝑢

_𝑝,𝑗^𝑘

= 𝜕𝑓

_𝑗^𝑘

(𝑢

_𝑝,𝑗^𝑘

)

𝜕𝑢

_𝑝,𝑗^𝑘

(2-18)

となる。式(2-17)の右辺第

1

項を計算する場合以下の

2

つの場合に分けて考える必要がある。

1.

出力層のノード

I

の出力値𝑜_𝑗^𝑚の変化の損失関数

E

pへの影響を考える場合

2.

入力層または隠れ層における第

k

層のニューロン

j

の出力値𝑜_𝑗^ｋの変化の損失関

数

E

pへの影響を考える場合

まず、1.の場合を考えると式(2-17)の右辺の積第

1

項は式(2-9)より

(15)

𝜕𝐸

𝑝

𝜕𝑜

_𝑝,𝐼^𝑚

= −(𝑡

_𝑝,𝐼^𝑚

− 𝑜

_𝑝,𝐼^𝑚

) (2-19)

と書くことができるので、1.の場合式(2-17)は以下のようになる。

𝜕𝐸

_𝑝

𝜕𝑢

_𝑝,𝐼^𝑚

= (𝑡

_𝑝,𝐼^𝑚

− 𝑜

_𝑝,𝐼^𝑚

) 𝜕𝑓

_𝐼^𝑚

(𝑢

_𝑝,𝐼^𝑚

)

𝜕𝑢

_𝑝,𝐼^𝑚

𝑗 = 1,2,3, … , 𝑛

_𝑚

(2-20)

次に

2.の場合について考えると式(2-17)の右辺第 1

項は次式のようになる。

𝜕𝐸

_𝑝

𝜕𝑜

_𝑝,𝑗^𝑘

= ∑ 𝜕𝐸

_𝑝

𝜕𝑢

_𝑝,𝑙^𝑘+1･

𝜕𝑢

_𝑝,𝑙^𝑘+1

𝜕𝑜

_𝑝,𝑗^𝑘

𝑛_𝑘+1

𝑙=1

= ∑ 𝜕𝐸

_𝑝

𝜕𝑢

_𝑝,𝑙^𝑘+1･

𝜕 ∑

^𝑛_ℎ=1^𝑘+1

𝜔

_ℎ,𝑙^𝑘,𝑘+1

𝑜

_𝑝,𝑗^𝑘

𝜕𝑜

_𝑝,𝑗^𝑘

𝑛_𝑘+1

𝑙=1

= ∑ ( 𝜕𝐸

_𝑝

𝜕𝑢

_𝑝,𝑗^𝑘+1

𝜔

_𝑗,𝑙^𝑘,𝑘+1

)

𝑛_𝑘+1

𝑙=1

(2-21)

式(2-17),(2-18),(2-21)から式(2-17)は次式のようになる

𝜕𝐸

_𝑝

𝜕𝑢

_𝑝,𝑗^𝑘

= 𝜕𝑜

_𝑝,𝑗^𝑘

𝜕𝑢

_𝑝,𝑗^𝑘

∑ ( 𝜕𝐸

_𝑝

𝜕𝑢

_𝑝,𝑗^𝑘+1

𝜔

_𝑗,𝑙^𝑘,𝑘+1

)

𝑛_𝑘+1

𝑙=1

𝑗 = 1,2,3, … , 𝑛

_𝑚

, 𝑘 = 2,3, … , 𝑚

(2-22)

式(2-20)に教師信号𝑡_𝑝,𝑖^𝑚

,m

層の出力値𝑜_𝑝,𝑗^𝑚を代入することで^𝜕𝐸^𝑝

𝜕𝑢_𝑝,𝐼^𝑚が求まる。さらに式(2-16)に

𝜕𝐸_𝑝

𝜕𝑢_𝑝,𝐼^𝑚を代入することで

m-1

層と

m

層の間の結合荷重の修正量∆_𝑝

𝜔

_𝑖,𝑗^{𝑚−1,𝑚}が求まる。次に式(2-

22)に今求めた𝜔

_𝑖,𝑗^{𝑚−1,𝑚}、^𝜕𝐸^𝑝

𝜕𝑢_𝑝,𝑗^𝑚と既存の𝑜_𝑝,𝑗^𝑚−1を用いると ^𝜕𝐸^𝑝

𝜕𝑢_𝑝,𝑗^𝑚−1が求まり、式(2-16)に ^𝜕𝐸^𝑝

𝜕𝑖_𝑝,𝑗^𝑚−1を代入すると第

m-2

層と第

m-1

層の結合荷重修正量∆_𝑝

𝜔

_𝑖,𝑗^{𝑚−2,𝑚−1}を求めることができる。同様に計算すると結合荷重修正量が下流から上流へと順次求まっていく。求められた結合荷重修正量を用いて、勾配降下最適化法(2.4.1参照)に従って結合荷重が求められていく。

2.4.3.

活性化関数

活性化関数とは各層のノードの出力値を計算する関数である。活性化関数でよく使われるのはシグモイド関数、tanh関数、ランプ関数であり、以下のよう表せられる。

シグモイド関数

y = 1

1 + 𝑒

^−𝜀𝑥

(2-23)

tanh

関数

y = 𝑒

^𝑥

− 𝑒

^−𝑥

𝑒

^𝑥

+ 𝑒

^−𝑥

(2-24)

(16)

ランプ関数

y = { 0 (𝑥 < 0)

𝑥 (𝑥 ≥ 0) (2-25)

シグモイド関数や

tanh

関数は値が大きくなると関数の勾配が

0

に近づくため、関数の学習が進まなくなる。そのため近年ではランプ関数がよく使われている。

2.4.4.

単純パーセプトロン

図 2.4 単純パーセプトロンの概念図

単純パーセプトロンはニューラルネットワークの一種であり、入力層と出力層から成る。入力を𝐱 = (𝑥₁

, 𝑥

₂

, 𝑥

₃

, … , 𝑥

_𝑀

)としたとき、単純パーセプトロンの出力 Z

は

y = ∑ 𝑎

_𝑖

𝑥

_𝑖

+ 𝑎

₀

𝑀

𝑖=1

(2-26)

Z = f(y) (2-27)

で表される。ここで𝑎_𝑖は入力層の

i

番目のニューロンから出力層への結合荷重、𝑎₀はバイアス、fは活性化関数である。バイアスノードは常に次の層に対して１の出力を出す。そのため結合荷重を𝒂 = (𝑎₁

, 𝑎

₂･･･𝑎_𝑀

)とすると式(2-26)は

y = 𝒂

･

𝒙 (2-28)

と書くことができる。

前述した方法(2.4.1、

2.4.2

参照)で最適化された結合荷重を用いることで、式(2-28)から特徴空間を分割する平面を探し出すことが出来、出力ベクトルを線形分離することができる。

(17)

2.4.5.

多層パーセプトロン(MLP : Multi Layer Perceptron)

多層パーセプトロンは入力層と出力層の間に一層以上の隠れ層を用いた構造である。多層構造を持つことで単純パーセプトロンの欠点であった非線形分離を可能にした。多層パーセプトロンの構造は各層に値を持つノードを持ち、通常入力層と隠れ層にはバイアスノードという値が１に固定されたノードを持つ。

隠れ層を増やしていくことでより正確な非線形分離ができると考えられるが実際には、

ニューラルネットワークは階層を深くしてもあまり性能が向上しないことが知られている。

前節(2.4.2)で述べたように結合荷重の修正される量

∆𝜔

^{𝑘−1,𝑘}は

k

層の損失関数の偏微分係数が必要であり、そのために

k-2,k-1

層間の結合荷重が必要になる(前の層の出力が必要なため)。今まで使用されてきた活性化関数の導関数の値は

1

未満であることが多く層を重ねるごとに勾配が減衰してしまう[13]。よって多層パーセプトロンでは出力層に近い層では結合荷重は大きな変動をし、入力層に近い層では大きな変動を示さない。入力層で近い層での結合荷重の変動が大きくないとはいえ、極小値は存在する。そのため出力層に近い層での結合荷重だけではなく入力層に近い層での結合荷重も適切に最適化しなければならない。損失関数は結合荷重をパラメータに持つ関数であるが、このパラメータが張る空間での損失関数の勾配は大きい方向と小さい方向とが混在する。このような場合勾配法では現実的な時間で最適化が収束しないことが知られている[13]。

2.5.

ディープラーニング

ディープラーニングとは、多層のニューラルネットワークの総称を指す。ニューラルネットワークの多層化は前節で説明した問題があったが、多層のニューラルネットワークを学習する有効な手段が提案されたために、現実的な手法となった。これまでのニューラルネットワークは各層の重みを同様に扱っている。その結果として出力層に近い層の重みが重要視された。それに対してディープラーニングでは各層に役割を持たせることによって多層の教育ができるようになった。すなわち、役割の持った層によって特徴量が抽出されると考

図 2.5 多層パーセプトロンの概念図

(18)

えることができる。その代表的なアルゴリズムの一つに畳み込みニューラルネットワーク

(Convolution Neural Network : CNN)が挙げられる。以下、CNN

について記述する。

2.5.1.

畳み込みニューラルネットワーク(Convolution Neural Network : CNN)

図 2.6 CNNの階層の概念図

CNN

は「畳み込み層」と「プーリング層」、「全結合層」と呼ばれる層を持つニューラルネットワークである。典型的な

CNN

は図

2.5

のように畳み込み層とプーリング層という特殊な層を交互に設置し、出力層付近には

1

層以上の全結合層を置いた構造から成る。全結合層とは前の層のノードと次の層のノードがすべて結合荷重で結ばれている層であり、ニューラルネットワークの隠れ層と同じ働きを持っている。畳み込み層とプーリング層を持つこと以外は多層パーセプトロンと変わらず、ある

j

層からの出力𝑧_𝑗は

𝑦

_𝑗

= ∑ 𝑎

_𝑖

𝑥

_𝑖

+ 𝑎

₀

𝑀

𝑖=1

(2-34)

𝑧

_𝑗

= f(𝑦

_𝑗

) (2-35)

と書ける。Mは

j

層におけるノードの数、𝑎_𝑖は入力層の

i

番目のニューロンから出力層への結合荷重、𝑎₀はバイアス、fは活性化関数である。近年、活性化関数にはランプ関数がよく使われている。以下、例として画像認識を行うときを仮定して畳み込み層とプーリング層について述べる。

(19)

2.5.1.1.

畳み込み層

図 2.7 畳み込み概念図

畳み込み層では入力画像に対して、フィルタを掛けることで入力画像の局所的な部分の特徴抽出を行う。入力に

W×W

サイズの画像を用いるとし、H×Hサイズのフィルタを入力画像にかける。すると入力画像は新たな画像に叩き込まれる。入力画像の画素(i,j)の画素値を𝑥_𝑖,𝑗

(i=0,･･･,W-1、 j=0,･･･,W-1)、フィルタ(p,j)の画素値をℎ

_𝑝𝑞

(p=0,･･･,H-1、 p=0,･･･,H- 1)とすると

𝑎

_𝑖𝑗

= ∑ ∑ 𝑥

_{𝑖+𝑝,𝑗+𝑝}

ℎ

_𝑝𝑞

𝐻−1

𝑞=0 𝐻−1

𝑝=0

(2-36)

という値が得られる。得られた𝑎_𝑖𝑗はその後活性化関数

f(a)を経て次の層への出力𝑦

_𝑖,𝑗

𝑦

_𝑖,𝑗

= f(𝑎

_𝑖𝑗

) (2-36)

となる。入力画像上でフィルタを移動させることで入力画像にかけるフィルタの位置を変化させて一枚の畳み込み画像(特徴マップ)を作る。このフィルタは一種類ではなく

2

種類以上かけることができる。フィルタ一種類につき一枚の画像に入力画像を叩き込むので、フィルタの種類だけ特徴マップが存在する(図

2.8)。フィルタはニューラルネットワークにおけ

る結合荷重のようなものとして考えることができ、フィルタの画素値

ℎ

𝑝𝑞を学習する。

図 2.8 叩き込み層概念図

(20)

2.5.1.2.

プーリング層

プーリング層は通常畳み込み層の後ろに設置される。プーリング層では畳み込み層で作られた特徴マップの小領域から値を出力し、次の層への入力へ変換を行う(プーリング)。この値の変換方法は複数あるがよく使われる方法は小領域の最大値を一つとる方法である。

最大値をとることで小領域における微小変化が生じてもプーリング層にはほとんど同じ値が出力される。そのため、画像内に現れる特徴の微小な位置変化に対する応答の不変性を実現する[15]。プーリング層において、畳み込み層小領域の大きさや値を抽出する計算内容などは設計時に決まり、学習するパラメータは存在しない。

図 2.9 プーリング層概念図

CNN

では畳み込み層で局所的な特徴を抽出し特徴マップを作成、プーリング層では特徴マップの小領域の値の変換を行い新たな画像を作り出す。畳み込み層とプーリング層を複数層積み重ね最後に全結合層を設けることで従来のニューラルネットワークよりも精度の良い画像認識を可能にした。

(21)

第 3 章素粒子実験

3.1.

概要

素粒子物理学とは、「物質を構成する最も基本的な粒子とは一体何か」・「最も基本的な粒子を支配する物理法則とは一体何か」を探求する学問のことである。現在、標準模型を構築するに至っている。標準模型は、現在の素粒子物理学の中で最も成功している理論体系であるが、完全な理論ではなく、解決のできない問題もある。そのため、素粒子物理学が次に行うべきことは、この標準模型を超える新物理の探索である。その手掛かりの一つがヒッグス粒子である。ヒッグス粒子は標準模型でその存在が予言されていながら長らく発見されていなかった粒子であるが

2012

年に大型ハドロン加速器(LHC)で発見された[20][21]。LHC は欧州原子核研究機構(CERN)が要する陽子･陽子衝突型の円形加速器である。しかし、

LHC

で発見されたヒッグス粒子のさらなる検証において

LHC

よりも精密な測定が必要となる。

そのために最適な手段として計画されているのが

ILC(国際リニアコライダー)である。ILC

は電子・陽電子衝突型の線形加速器で、ヒッグス粒子やトップクォークなどの質量の大きな素粒子を生成することのできる装置である。ILC は内部構造の内素粒子である電子と陽電子を用いるため、現象の精密測定に適している。今後

ILC

の精密測定を通した、ヒッグス粒子の詳細な性質の解明や新現象の発見が期待される。

3.2.

標準模型

標準模型は、現在素粒子物理の中で最も成功している体系である。標準模型はゲージ原理とヒッグス機構の

2

つの柱から構成されている。この模型を構成する粒子は全部で

18

種類ある。まず、3世代

6

種類のレプトンとして荷電レプトン(電子(e)、ミューオン(μ),タウ(τ)) と対応するニュートリノ(𝜈_𝑒

, 𝜈

_𝜇

, 𝜈

_𝜏

)、 3

世代

6

種類のクォーク(アップ(u)、ダウン(d)、チャーム(c)、ストレンジ(s)、トップ(t)、ボトム(b))、力を媒介するベクトルボソンとしては電磁相互作用を媒介する光子(γ)、弱い相互作用を媒介する

Z

ボソン、

𝑊

^±ボソン、強い相互作用を媒介するグルーオン(g)、そして最後に素粒子の質量の起源となっているスカラーボソンであるヒッグス粒子(h)が存在している。

図

3.1

は標準模型構成粒子を分類した表である。物質粒子と呼ばれるクォーク・レプトンは半整数スピンを持ち、陽子や中性子といったさらに大きな物質を構成する要素である。

(22)

3.3. ILC

で探索する物理

国際リニアコライダー(International Linear Collider, ILC)は次世代の電子・陽電子衝突させて行う実験設備であり、全長

31km

の線形加速器である。電子･陽電子衝突の重心系エネルギーが

250GeV～500GeV

までによる実験を行う計画である。その後アップグレードによる

1TeV

の実験も計画されている。

ILC

で研究される予定の物理はヒッグスの物理やトップクォークの精密測定、標準模型を超えた物理の探索など多岐にわたる。本研究では電子･

陽電子を衝突させた時に生じる事象の識別を行うので以下で簡単に説明する。

3.4.

加速器で生成される過程

標準模型に含まれるヒッグス粒子の場合、電子･陽電子衝突で生成される主な過程は

𝑒

⁺

𝑒

⁻

→ Zhと𝑒

⁺

𝑒

⁻

→ 𝜈

_𝑒

𝜈 ̅ ℎである。Z

_𝑒 粒子やヒッグス粒子は一定の確率でレプトンやクォーク対に崩壊する。また、例えば𝑒⁺

𝑒

⁻

→ 𝑞𝑞̅などの過程でもクォークが生成される。クォ

ークは単独では存在せず、生成された後、新たにハドロンを形成する。これを繰り返しながら大量の粒子群が出できる。これをジェットという。クォーク生成のシグナルとして電子･陽電子衝突実験で実際に検出されるのは崩壊後のジェットである。

図 3.1標準模型を構成する素粒子

(23)

第 4 章検出器

4.1.

概要

ILC

に設置される予定の検出器は

ILD(International Large Detector)

測定器と

SiD(Silicon Detector)測定器の 2

つである。実際にはこの

2

つの測定器を並べてスライドさ

せて、ビームラインに設置する測定器をその都度交換し、測定を行うことが計画されている。

本解析では

ILD

測定器を想定したデータサンプルを用いているので

ILD

測定器について述べる[22]。図

4.1

は

ILD

検出器の全体図である。

図 4.1 ILD測定器全体図[8]

ILD

測定器はビーム軸に対象に設計されており、内側から



飛跡検出器



崩壊点検出器



主飛跡検出器



カロリメータ



電磁カロリメータ



ハドロンカロリメータ



ソレノイドコイル



ミューオン検出器



前方検出器

という構造になっている。

4.2.

飛跡検出器

飛跡検出器は崩壊点検出器、シリコン内部検出器、中央飛跡検出器、シリコン外部検出器から構成される。また、後述するカロリメータがソレノイドコイルに囲まれているため、ソレノイドの磁場によって荷電粒子は曲げられるが、飛跡検出器によってその曲率半径(飛跡) を求めることで、磁場の強さから運動量が計算できる。

(24)

4.2.1.

崩壊点検出器(VTX)

崩壊点検出器はビームの衝突点から最も近い位置に設置される検出器である。VTX の役割は崩壊点の位置を測定、bクォーク、cクォーク同定を行うことである。崩壊点検出器は通過する荷電粒子の位置を精密に測定することができるのでそこから二次粒子の崩壊点を測定することができる。

4.2.2.

主飛跡検出器

ILD

測定器の飛跡検出器として主飛跡検出器である時間投射測定器

(TPC:Time Projection Chamber)とシリコン飛跡検出器の二つがある。

TPC

はガス検出器であり、

TPC

内に充満しているガスをイオン化させる。

TPC

内を通過する荷電粒子によって分離された陽イオンと電子を、一様電場をかけることで読み出し面へ移動させて電気信号として読み取る。そこから荷電粒子の飛跡の

3

次元的(r, φ, z)な再構成を行うことで粒子の運動量の測定を行うことができる。VTX でも飛跡の再構成を行っているが

VTX

が各レイヤーにおけるヒット点から飛跡が得られるのに対して、

TPC

では連続的な飛跡を得ることが可能である。

シリコン飛跡検出器は

TPC

の前方検出部分や

TPC

と

VTX

の間などに設置し、飛跡の時間情報を取得する。シリコン飛跡検出器と

TPC

を併用することで運動量分解能が向上する。

4.3.

カロリメータ

ILD

測定機におけるカロリメータは内側から電磁カロリメータ(ECAL)とハドロンカロリメータ(HCAL)から構成される。カロリメータの役割は通過する粒子に内部でシャワーを発生させることで粒子の損失したエネルギーを測定することである。ECAL は電磁相互作用による電磁シャワー発生させ、HCAL は強い相互作用や原子核との衝突によるハドロンシャワーを発生させる。シャワー粒子を検出することでジェット中の粒子のエネルギー損失を見積もることができる。またこの検出器の反応は実際のエネルギーと比例するように設計される。

4.3.1.

電磁カロリメータ

電磁カロリメータの目的は光子や荷電ハドロン、電子のエネルギーの測定である。荷電粒子や光子は電磁カロリメータ中で、電磁相互作用による対生成と対衝突を繰り返し、電磁シャワーを発生させる。電磁カロリメータは粒子にシャワーを発生させるエネルギー吸収層と、電磁シャワーを検出するセンサー層から成る。吸収層からエネルギーが測定でき、センサー層からは

2

次粒子の位置が測定できる。その後のデータ解析でシャワーの形を得ることができるので、元の粒子が何であったかが識別することができる。

(25)

4.3.3.

ハドロンカロリメータ

ハドロンカロリメータはハドロンのエネルギーを測定することが目的である。中性ハドロンから作られるハドロンシャワーは電磁シャワーを比べて反応が複雑である。これはハドロンシャワー中では強い相互作用によるものだけでなく電磁相互作用も同時に起きてしまうため、これらの相互作用によるエネルギー損失が違うこことシャワー内の反応比率が事象ごとに違うからである。そのため、ハドロンカロリメータの分解能は電磁カロリメータの分解能に比べて悪い。しかし、中性ハドロンはハドロンカロリメータによってはじめて観測されるので、重要な検出器である。

4.4.

ミューオン検出器

ミューオン検出器の目的はミューオンの同定とカロリメータで測定しきれなかったエネルギーの測定と回収である。ミューオン検出器とカロリメータの併用はジェットエネルギー分解能を向上する。

4.5.

前方検出器

ビームパイプに非常に近い前方領域部分には前方検出器と呼ばれる検出器群が置かれる。

これらの測定器によってビームパイプ付近の前方領域部分の測定を可能にするため、損失エネルギーの測定精度が向上する。

(26)

第 5 章特徴量を用いた機械学習の利用

5.1.

概要

シグナルとなる

𝑒

⁺

𝑒

⁻

→ 𝑧ℎ事象とその他背景事象(バックグラウンド)との識別性能を BDT

とニューラルネットワークで調べた。またこのとき学習器に学習させるための特徴として、測定器で検出されるシグナルとバックグラウンドの違いを利用したものを用いた(5.2 参照)。

まず、入力データとなる事象生成を行う。事象生成で使用された

WHIZARD[15]は多粒子

の散乱断面積の計算およびシミュレーションにおけるサンプル作成のためのジェネレータープログラムの呼称である。また、機械学習のパッケージとして多変量解析ツール

TMVA[16]内の BDT

と

MLP(TMVA

内におけるニューラルネットワーク)を使用している。

5.2.

解析条件

本研究で電子･陽電子衝突から生成された事象でシグナル･バックグラウンドと定義したものが以下の表である。WHIZARD によって事象を生成したあと，個々の粒子の運動量とエネルギーを，

ILD

測定器の運動量分解能，エネルギー分解能を想定して「ぼかす」ことによって，実際の測定に近い条件で解析した。

シグナル

𝑒

⁻

𝑒

⁺

→ 𝑍ℎ → 𝜇

⁻

𝜇

⁺

ℎ

バックグラウンド

𝑒

⁻

𝑒

⁺

→ 𝑍𝑍 → 𝜇

⁻

𝜇

⁺

𝜇

⁻

𝜇

⁺

𝑒

⁻

𝑒

⁺

→ 𝑍𝑍 → 𝜇

⁻

𝜇

⁺

𝜏

⁻

𝜏

⁺

𝑒

⁻

𝑒

⁺

→ 𝑍𝑍 → 𝜇

⁻

𝜇

⁺

𝑒

⁻

𝑒

⁺

𝑒

⁻

𝑒

⁺

→ 𝑍𝑍 → 𝜇

⁻

𝜇

⁺

𝜈𝜈̅

𝑒

⁻

𝑒

⁺

→ 𝑍𝑍 → 𝜇

⁻

𝜇

⁺

𝑞𝑞̅

𝑒

⁻

𝑒

⁺

→ 𝑍ℎ → 𝑒

⁻

𝑒

⁺

ℎ

表 5.1 用いた信号のシグナルとバックグラウンドの定義

訓練データのイベント数は

35007

個、そのうちシグナルが

5001

個、バックグラウンド

が

30006

個としている。テストに用いたイベント数は

30006

個でシグナルとバックグラウ

ンドの数は訓練データと同様にした。各イベントの重みはすべて

1

としている。

使用した機械学習の学習器は

BDT

と

MLP

の

2

つである。

BDT

の決定木の数は

850

個、

MLP

の訓練のための繰り返し回数は

500

回である。また、入力特徴量には以下の

9

種類

12

個を使用した。

(27)



電磁カロリメータでのエネルギー損失



ハドロンカロリメータでの粒子のエネルギー損失



粒子の最大運動量

(上記の 3

つの特徴量は荷電粒子の正負ごとの各

2

つづつの特徴量とする)



レプトン対系の横運動量



レプトン対系の不変質量



反跳質量



レプトン対の角度

 xy

平面に射影したときのレプトン対角度



損失角度

5.3.

特徴量

以下の章では使用した特徴量についての説明とシグナル、バックグラウンドにおける特徴量の描写を示す。特徴量の描写では青がシグナル、赤がバックグラウンドを示している。

5.3.1.

電磁カロリメータでのエネルギー損失

再構成された粒子が

ECAL

で損失したエネルギーである

図 5.1 電磁カロリメータでのエネルギー損失の分布

青がシグナルで赤がバックグラウンドを表している。グラフ縦軸はグラフを積分したときに

1

になるように規格化したものである。以下、特徴量のグラフはこれと同様である。

(28)

5.3.2.

ハドロンカロリメータでのエネルギー損失(ehcal) 再構成された粒子が

HCAL

で損失したエネルギーである。

図 5.2 ハドロンカロリメータでのエネルギー損失の分布

5.3.3.

粒子の最大運動量(pmx)

飛跡検出器で測定される最大運動量である。

図 5.3 粒子最大運動量の分布

(29)

5.3.4.

レプトン対の横運動量(Ptdilep)

粒子の持つ運動量の内ビーム軸(z軸)に垂直な成分(運動量ベクトルの

xy

平面への射影)を横運動量と呼ぶ。横運動量はレプトン対が

Z

ボソンから崩壊した場合は、

Z

ボソンの横運動量となる。Zボソンの横運動量は以下の式で表される。

𝑃𝑡𝑑𝑖𝑙𝑒𝑝 = √(𝑃

_𝑥^𝑙+

+ 𝑃

_𝑥^𝑙−

)

²

+(𝑃

_𝑦^𝑙+

+ 𝑃

_𝑦^𝑙−

)

²

(6-1)

図 5.4 レプトンの横運動量の分布

5.3.5.

不変質量(mdilep)

不変質量は再構成された粒子の質量に等しい。レプトン対が

Z

ボソンから崩壊している事象は

Z

ボソンの質量(91.2GeV)にピークを持つ。一方でレプトン対が

Z

ボソンから崩壊していなければ不変質量分布は

Z

ボソン質量付近以外にも広がる。

図 5.5 粒子の不変質量の分布

(30)

5.3.6.

反跳質量(mercol)

𝑒

⁺

𝑒

⁻

→ 𝑍ℎ事象において、始状態の 4

元運動量は理想的には既知なので再構成により、Z

ボソンの

4

元運動量の計算を行うと、ヒッグスの質量が計算される。この計算によって求められたヒッグスの質量を反跳質量という。

𝑀

𝐻𝑖𝑔𝑔𝑠

= √(𝐸

𝑐𝑚𝑠

− 𝐸

𝑍𝑏𝑜𝑠𝑜𝑛

)

²

− |𝑃

𝑍𝑏𝑜𝑠𝑜𝑛

|

²

(6-2)

反跳質量用いることによる利点は、ヒッグス粒子から崩壊した粒子を用いた再構成よりも精度が良いことと、ヒッグス粒子の崩壊分岐比による不定性の影響を受けないことである。

図 5.6 粒子の反跳質量の分布

5.3.7.

レプトン対角度(acl) レプトン対のベクトルの間の角度

図 5.7 レプトン対ベクトルの間の角度の分布

(31)

5.3.8. xy

平面におけるレプトン対角度(acp)

レプトン対のベクトルを

xy

平面に射影した際の、間の角度(Rad.)を

Acoplanarity

と呼ぶ。

𝑎𝑐𝑝 = 𝑐𝑜𝑠

⁻¹

𝑃

𝑥𝑦𝑙+

･𝑃

𝑥𝑦𝑙−

|𝑃

_𝑥𝑦^𝑙+

||𝑃

_𝑥𝑦^𝑙−

| (6-3)

𝑒

⁺

𝑒

⁻

→ 𝑍ℎでは Z

ボソンはヒッグス粒子と共に生成する。

図 5.8

xy

平面のレプトン対角度の分布

5.3.9. PFO

損失角度(𝑐𝑜𝑠_{𝑚𝑖𝑠𝑠𝑖𝑛𝑔}

𝜃)

𝑐𝑜𝑠

_{𝑚𝑖𝑠𝑠𝑖𝑛𝑔}

𝜃とは検出されない粒子の運動量の和𝜃から計算された値である。検出されない

粒子とは以下の二つが主に影響している。



終状態にニュートリノを含む場合

ニュートリノは検出されないので損失角度に強く影響する。ニュートリノを含む事象ではニュートリノが様々な方向に運動するので𝑐𝑜𝑠_{𝑚𝑖𝑠𝑠𝑖𝑛𝑔}

𝜃分布は平たんになる傾

向が予測される。



粒子がビームパイプに入射し、検出しで粒子が検出されない場合

ビームパイプには検出器が置くことが出来ないので、ビームパイプに入射するような前後方向に飛びやすい粒子が入射した場合、

‖𝑐𝑜𝑠

𝑚𝑖𝑠𝑠𝑖𝑛𝑔

𝜃‖

は１にピークを持つようになる。

𝑐𝑜𝑠

_{𝑚𝑖𝑠𝑠𝑖𝑛𝑔}

𝜃 = ∑ 𝑐𝑜𝑠𝜃

_𝑃𝐹𝑂

= (∑ 𝑃

_𝑃𝐹𝑂

)

²

‖∑ 𝑃

_𝑃𝐹𝑂

‖ (6-4)

(32)

図 5.9

𝒄𝒐𝒔

_{𝒎𝒊𝒔𝒔𝒊𝒏𝒈}

𝜽の分布

(33)

5.4.

結果

図 5.10

BDT

の

ROC

曲線

図

5.10

は学習器に

BDT

を使用してイベントの識別を行ったときの

ROC

曲線(Receiver

Operatorating Characteristic curve)である。ROC

曲線を用いることで機械学習の学習器

の学習モデルを評価できる。

教師信号と実際に学習器が出力したシグナルとバックグラウンドのイベント数を以下のように定義する。

表 5.2シグナルとバックグラウンドのイベント数

図

5.10

の

ROC

曲線の横軸、縦軸は以下のようにしている。

𝐵𝑎𝑐𝑘𝑔𝑟𝑜𝑢𝑛𝑑 𝑟𝑒𝑗𝑒𝑐𝑡𝑖𝑜𝑛 = 𝑇𝑁 𝐹𝑃 + 𝑇𝑁 𝑆𝑖𝑔𝑛𝑎𝑙 𝑒𝑓𝑓𝑖𝑐𝑖𝑒𝑛𝑐𝑦 = 𝑇𝑃

𝑇𝑃 + 𝐹𝑁

上記から

Background rejection

が

1

に近いほど正確にバックグラウンドを除去できてお

り、同様に

Signal efficiency

が

1

に近いほど正確にシグナルを識別している。

ROC

曲線の示す学習器の性能を表した値が

AUC(Area Under the Curve)で、ROC

曲線と縦軸、横軸で囲まれた面積である。

AUC

が

1

のときは完全な分類が可能であり、

AUC

が

0.5

の時はランダムな分類となることを表している。

(34)

BDT

の

AUC

の値は0.9877 ± 0.0006となった。

次に、MLPを使用したときの解析結果について述べる。まず、MLPの隠れ層を

1

層に固定する。ノードの数を

2

から

20

まで変化させた時の

AUC

の推移を図

5.12

に記す。ただしこの時の隠れ層のノード数はバイアスノードを含むノード数である。使用した入出力関数は

tanh

関数、sigmoid 関数(2.4.3 参照)、radial 関数の

3

つとした。radial 関数はy =

𝑒

^−𝑥²^⁄²の関数である。

まず、活性化関数に

tanh

関数を用いたときの結果を示す。

tanh

AUC

値

図

5.11

から活性化関数に

tanh

関数を用いたとき、ノード数が

3,4

ときノード数

5~20

の時に比べて

AUC

が低い値が出る。図

5.11

を

y

軸方向に射影したときの

AUC

分布を示す。

tanh

AUC

分布

ノード数が

5~20

の時の

AUC

のノード依存性は見られず統計誤差でふらついていると考えられる。この時の

AUC

平均値は0.95 ± 0.01である。

0.88 0.89 0.9 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 AUC

ノード数

tanh 関数を用いたときのノード数に対する AUC 値

0 2 4 6 8 10

0.88 0.89 0.9 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99

回数

AUC

tanh 関数を用いたときの AUC 分布

(35)

ノード数

3

の時の

ROC

曲線とノード数

13

のときの

ROC

曲線を以下で示す。

図 5.13 活性化関数:tanh関数ノード数

13

の時の

ROC

曲線

次にシグモイド関数を用いたときの結果を示す。

sigmoid

AUC

値

顕著な

AUC

のノード数依存は見られない。AUC値の平均は0.934 ± 0.008である。この時の

ROC

曲線は以下の図である。

図 5.15 活性化関数にシグモイド関数を用いて、ノード数

19

のときの

ROC

曲線

0.88 0.89 0.9 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 AUC

ノード数

シグモイド関数を用いたときのノード数に対する AUC 値

(36)

次に

radial

関数用いたときの結果を示す。

radial

AUC

値

活性化関数に

radial

関数を用いたとき、3～6ノードの時にはそれ以上と比較して

AUC

値が低い傾向があるが、ノード数

7

以上では一定と考えられる。この時の

AUC

値の平均は

0.95 ± 0.01となった。

活性化関数に

radial

ROC

曲線は以下のようになった。

radial

関数、ノード数

13

のときの

ROC

曲線

MLP

の隠れ層を

1

層に固定、ノード数を変化せた時、AUCのノード数依存性は見られなかった。また活性化関数による

AUC

値の値も変わらない。ただし活性化関数による

AUC

値のふらつきが異なる。tanh関数を用いたときは低ノード側では統計誤差から外れる低い

AUC

値を出力した。radial関数の時はノード数における

AUC

の誤差が

sigmoid

関数の時

0.88 0.89 0.9 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 AUC

ノード数

2016 年度卒業論文 素粒子実験データ解析における機械学習の応用