• 検索結果がありません。

2016 年度卒業論文 素粒子実験データ解析における機械学習の応用

N/A
N/A
Protected

Academic year: 2021

シェア "2016 年度卒業論文 素粒子実験データ解析における機械学習の応用"

Copied!
50
0
0

読み込み中.... (全文を見る)

全文

(1)

2016 年度卒業論文

素粒子実験データ解析における機械学習の応用

広島大学理学部物理科学科

B131251 坂田麻侑

指導教員:高橋 徹

主査 : 高橋徹

副査 : 岡部信広

平成 29 年 2 月 10 日

(2)

2

章 機械学習 ... 3

2.1.

概要 ... 3

2.2.

カット ... 4

2.3. BDT(Boosted Decision Tree) ... 4

2.3.1. Ada Boost ... 5

2.4.

ニューラルネットワーク ... 5

2.4.1.

ニューラルネットワークの学習方法 ... 6

2.4.2.

誤差逆伝播法 ... 7

2.4.3.

活性化関数 ... 10

2.4.4.

単純パーセプトロン ... 11

2.4.5.

多層パーセプトロン(MLP : Multi Layer Perceptron) ... 12

2.5.

ディープラーニング ... 12

2.5.1.

畳み込みニューラルネットワーク(Convolution Neural Network : CNN) .. 13

3

章 素粒子実験 ... 16

3.1.

概要 ... 16

3.2.

標準模型 ... 16

3.3. ILC

で探索する物理 ... 17

3.4.

加速器で生成される過程 ... 17

4

章 検出器 ... 18

4.1.

概要 ... 18

4.2.

飛跡検出器 ... 18

4.2.1.

崩壊点検出器(VTX) ... 19

4.2.2.

主飛跡検出器 ... 19

4.3.

カロリメータ... 19

4.3.1.

電磁カロリメータ ... 19

4.3.3.

ハドロンカロリメータ ... 20

4.4.

ミューオン検出器 ... 20

4.5.

前方検出器 ... 20

5

章 特徴量を用いた機械学習の利用 ... 21

5.1.

概要 ... 21

5.2.

解析条件 ... 21

5.3.

特徴量 ... 22

5.3.1.

電磁カロリメータでのエネルギー損失 ... 22

(3)

5.3.5.

不変質量(mdilep) ... 24

5.3.6.

反跳質量(mercol) ... 25

5.3.7.

レプトン対角度(acl) ... 25

5.3.8. xy

平面におけるレプトン対角度(acp) ... 26

5.3.9. PFO

損失角度(𝑐𝑜𝑠𝑚𝑖𝑠𝑠𝑖𝑛𝑔𝜃) ... 26

5.4.

結果 ... 28

6

4jets

クラスタリングを行い機械学習 ... 34

6.1.

概要 ... 34

6.2.

解析条件 ... 34

6.3.

結果 ... 38

7

4jets

クラスタリングを行わず機械学習 ... 41

7.1.

概要 ... 41

7.2.

解析条件 ... 41

7.3.

結果 ... 41

8

章 結論 ... 43 謝辞

44

参考文献 45

(4)

図 2.2 ニューラルネットワークの概念図 ... 5

図 2.3 以下の計算で考えるニューラルネットワーク概念図 ... 8

図 2.4 単純パーセプトロンの概念図 ... 11

図 2.5 多層パーセプトロンの概念図 ... 12

図 2.6 CNNの階層の概念図 ... 13

図 2.7 畳み込み概念図 ... 14

図 2.8 叩き込み層概念図 ... 14

図 2.9 プーリング層概念図 ... 15

図 3.1標準模型を構成する素粒子 ... 17

図 5.1 電磁カロリメータでのエネルギー損失の分布 ... 22

図 5.2 ハドロンカロリメータでのエネルギー損失の分布 ... 23

図 5.3 粒子最大運動量の分布 ... 23

図 5.4 レプトンの横運動量の分布 ... 24

図 5.5 粒子の不変質量の分布 ... 24

図 5.6 粒子の反跳質量の分布 ... 25

図 5.7 レプトン対ベクトルの間の角度の分布... 25

図 5.8

xy

平面のレプトン対角度の分布 ... 26

図 5.9

𝒄𝒐𝒔𝒎𝒊𝒔𝒔𝒊𝒏𝒈𝜽の分布 ... 27

図 5.10

BDT

ROC

曲線 ... 28

図 5.11 活性化関数に

tanh

関数を用いたときのノード数に対する

AUC

値 ... 29

図 5.12 活性化関数に

tanh

関数を用いたときの

AUC

分布 ... 29

図 5.13 活性化関数:tanh関数 ノード数

13

の時の

ROC

曲線 ... 30

図 5.14 活性化関数に

sigmoid

関数を用いたときのノード数に対する

AUC

値 ... 30

図 5.15 活性化関数にシグモイド関数を用いて、ノード数

19

のときの

ROC

曲線 . 30 図 5.16 活性化関数に

radial

関数を用いたときのノード数に対する

AUC

値 ... 31

図 5.17 活性化関数に

radial

関数、ノード数

13

のときの

ROC

曲線... 31

図 5.18 ノード数を

3

に固定して隠れ層を変化させた時の

AUC

の値 ... 32

図 5.19 ノード数を

3

に固定して隠れ層を変化させた時の

AUC

の値 ... 32

図 5.20 正則化を行った時の

ROC

曲線 ... 33

図 6.1

4jets

の順番を入れ替えない時の

4

元運動量 ... 35

図 6.2

4jets

の順番を入れ替えない時の

4

元運動量 ... 36

図 6.3

4jets

の順番をランダムに入れ替えた時の

4

元運動量 ... 37

図 6.4

4jets

の順番を入れ替えない時の

ROC

曲線 ... 38

(5)

図 6.8

4jets

の順番をランダムに入れ替えた時の

AUC:0.86

の時の

ROC

曲線 ... 40 図 6.9 4jetsの順番をランダムに入れ替えたときの

AUC

分布 ... 40 図 7.1 衝突終状態の

4

元運動量を入力に用いて得られた

AUC:0.811

の時の

ROC

線(活性化関数:ランプ関数) ... 41 図 7.2 活性化関数にランプ関数を用いてディープラーニングを

20

回行った時の

AUC

分布 ... 41 図 7.3 衝突終状態の

4

元運動量を入力に用いて得られた

ROC

曲線(活性化関数:tanh)

... 42

図 7.4活性化関数を

tanh

関数としてディープラーニングを

10

回行った時の

AUC

布 ... 42

(6)

第 1 章 概要

機械学習とは機械が何かを学習する能力をも出せる技術であり人工知能と呼ばれるもの の一種である。人工知能という言葉は

1956

年のダートマス会議で用いられたのが始まりと 言われている。このころ盛んに研究が行われていたのはパーセプトロンという機械学習の アルゴリズムである。しかしパーセプトロンでは線形分離不可能なパターンを識別できな いという欠点が明らかになり、機械学習の発達は停滞した[4]。当時の状況は人工知能が冬 の時代を迎えたと表現されている。1980年代になると機械学習は再びブームを迎えること になった。このブームの立役者となったのはエキスパートシステムと第五世代コンピュー ターシステムである。感染症診断治療支援エキスパートシステム[24]を使うことで新米医師 よりもエキスパートシステムの診断のほうが診断成績が良いという結果を出した。これを 背景に第五世代コンピューターというプロジェクトが推進され機械学習は二回目のブーム が巻き起こった[5]。このころに注目されたのがニューラルネットワークという人の神経細 胞をモデル化した機械学習のアルゴリズムである。ニューラルネットワークは入力層、隠れ 層、出力層からなる階層構造で構成される。ニューラルネットワークをもとに様々な学習を 行うことはできだが

3

層以上の構造で上手く学習をさせることが出来なかったため、性能 向上の限界を迎えてしまい、再び機械学習の発達は停滞した。現在、機械学習は三度目のブ ームを迎えている。注目されているのはディープラーニングという機械学習のアルゴリズ ムである。これはニューラルネットワークではできなかった

3

層以上の多層の学習を可能 にした。それにより、機械学習のさらなる可能性が期待される。

現在まで、素粒子実験のデータ解析においてニューラルネットワークなどの機械学習は 積極的に使われてきた。しかしその特徴の把握や入力パラメータに対する系統的な最適化 が完全になされてきたとは言えない。また、ディープラーニングの素粒子実験データ解析に おける適応可能性はこれからの課題である。現在、素粒子実験データ解析で用いられる入力 データは人間が事象選別のために選んだ特徴量を用いている(例えば検出器で測定される エネルギーや角度など)。今までに使用されてきた学習器としてニューラルネットワークや 決定木 (DT, Decision Tree)などはあらかじめ人が背景事象か信号事象か事象を識別するた めの特徴量を学習器に学習させる必要があるからである。それに対してディープラーニン グはシグナルかバックグラウンドかが未知の事象を学習させることで特徴量を機械が作り 出し、事象の判別をすることが期待される学習方法である。

本研究ではこれまで行われてきた方法として、特徴量を用いたニューラルネットワーク

(

そ の 中 で も 多 層 パ ー セ プ ト ロ ン :

MLP)や ブ ー ス テ ィ ン グ を 用 い た 決 定 木 (Boosted

Decision Tree : BDT)についてそれらの比較、 MLP

の構成と性能の比較検討などを行った。

さらに、特徴量ではない一般的な量としての粒子の

4

元運動量を入力とした時の

MLP、

BDT、ディープラーニングの比較を行い、実験データ解析への応用の可能性を検討した。

本論文では第

2

章に使用した機械学習について述べる。第

3

章と

4

章では素粒子実験と

(7)

素粒子実験に使われる検出器について記述する。第

5

章では特徴量を用いて

MLP

BDT

に学習させたその内容と結果について、第

6

章と

7

章では特徴量ではない一次情報をもと

MLP、BDT、ディープラーニングの比較を行う。最後に第 9

章で本論文のまとめを記述

する。

(8)

第 2 章 機械学習

2.1.

概要

機械学習は教師あり学習と教師無し学習に分類できる。これらは学習器が扱う入力と出 力に対するフィードバック情報の与えられ方に関する分類である。

教師あり学習とは、機械学習を行う学習器に教師信号を与えることで学習器が訓練デー タについてその出力の正しさを検証して、徐々に入力と出力の関係を学習していく学習の ことである。ここで認識対象に対して、予めわかっている理想的な出力を教師信号と呼ぶ。

画像認識を例にとると、林檎や梨などの果物の画像と、その画像はなんという名の果物に対 応しているかという正解データ(教師信号)を用意して、画像と教師信号をセットで学習させ ることである。

教師なし学習は入力に対して学習器は出力を返すが、それに対する外部からの教師信号 は存在せず、学習器が入力情報のみに従って学習を進める学習のことである。学習は事前に 学習器内部に埋め込まれた規範やアルゴリズムに従って進められる。多くの場合何らかの 評価関数を最大化(もしくは最小化)するようにアルゴリズムが構成されていることが多い。

例えば与えられたたくさんの果物の画像から果物の類似性を判断して、似たような果物を グループ分けしていくようなクラスタリングに使われる。

また、機械学習は入力から出力への変換を学習する存在としてモデル化される。「学習器 は内部に関数を持ち、そのパラメータを学習することによって、入力から出力への変換を行 うことが可能になる」と考えることができる。例えば、後述するニューラルネットワークの 場合は結合荷重を学習する。機械学習においてはパラメータの学習に用いる訓練データと テストデータを区別することが重要である。特に教師あり学習では訓練データに対して教 師信号が与えられるため、入力データを学習器がすべて記憶し、正しい答えの出力ができる ようになることがある。このような現象は過学習と呼ばれる。したがって、過学習を回避し、

訓練データで学習した学習器がテストデータに対して正しい答えを返せるようになる必要 がある。

機械学習を利用してできることの一つにパターン認識がある。パターン認識とはある認 識対象がいくつかの概念に分類可能であるとき、認識対象の持つ特徴を用いてある特定の 概念に分類する処理のことである。この時の概念をクラス(class)、または類(category)とい う。パターン認識を行う際に用いる認識対象の特徴は通常複数あり、それらをまとめて定量 的に表したものを特徴ベクトルと呼び、

𝐱 = (𝑥

1

, 𝑥

2

, 𝑥

3

, … , 𝑥

𝑀

)で表される(M:特徴量の数)。特

徴ベクトルによって張られる空間を特徴空間と言う。各認識対象は特徴空間の

1

点として 表される。複数の認識対象を考えたとき、同じクラスに属するものは特徴空間上のある領域 に集中することになる。この集中した塊のことをクラスタと呼ぶ。

代表的な機械学習の学習器の例として、ナイーブベイズモデル [5]、ニューラルネットワ ーク [4],[5],[8]、決定木 (BDT)[8]、サポートベクトルマシン(SVM)[9]、ディープラーニン グ [6],[11],[12],[13]などが挙げられる。そのなかで、本研究では

BDT

とニューラルネット

(9)

ワーク、ディープラーニングを取り扱った。

2.2.

カット

カットとは特徴量ごとにシグナルとバックグラウンドの切り分けを行う。特徴空間内で シグナルとバックグラウンドを識別する面を探すことに相当する。特徴空間において、シグ ナルに相当する空間は一つしかない。また、カット学習器は出力にシグナルかバックグラウ ンドのみのバイナリ応答を返す。

2.3. BDT(Boosted Decision Tree)

図 2.1: 決定木の概念図

決定木(Decision Tree=DT)とは、各特徴量について、シグナルとバックグラウンドを切り 分け閾値を決定する方法である。シグナルとバックグラウンドが混在した最初の状態を

Root node

という。後述する

Boosting

という手法によって性能を向上させたものを

Boosted

Decision Tree(BDT)という。BDT

Root node

を最もうまく分ける変数を探してシグナル

とバックグラウンドを分ける。まず、ある変数の値に対してイベントを分類する。分類され たイベントに対してさらに別の変数の値によってイベントを分類していく。変数の値に対 してイベントを分ける処理を行う部分をノードといい、最終的に分けられたノード(leaf

node)において、イベントがシグナルかバックグラウンドのどちらのノードに属するかによ

って識別する。このような方法を次々と分けられた結果に適応し、この作業を停止させる条 件が満たされるまで続け、一つの決定木が完成する。各ノードで使われる変数は他のノード で使われたことがあるものも考慮され、与えられた変数の中でまったく用いられなかった 変数がある場合もある。カットにおいてもこの決定木を書くことができるがシグナルを示

leaf node

は一つしかないのに対して、DTでは複数ある。

この手法は基本的考え方が簡単なためによく使われる手法ではあるが、統計量が少ない

(10)

ときや複数の変数が複雑な関係にある場合にシグナルとバックグラウンドをうまく分けら れないという短所がある。この短所を克服するために

Boosting

という手法が用いられる。

Boosting

とは過去の学習の結果を使って、間違った学習と正しい学習の重みを変えて更

新することで、学習結果をより安定にする方法である。Boostingの一つに

Ada Boost

とい う手法がある。本研究では

AdaBoost

を用いたのでこれを以下で説明する。

2.3.1. Ada Boost

Boosting

とは識別性能の低い弱学習器を複数組み合わせて、識別性能の良い学習器を構

成するという考えを基にしたアルゴリズムである。Ada Boostは一つの決定木を選択して、

決定木の出力に対する重みを更新する。重みを変えることで、BDTの弱点を補完する手段 である。まず一つの決定木を作り、最終的に分けられたイベントの中で誤って分類された比

(err)を算出する。この比を用いて

α = 1 − 𝑒𝑟𝑟

𝑒𝑟𝑟 (2-1)

で表される重みを計算し、イベントをご分類した学習器の出力にかける。ただし重みは初め に与えられた重みの総和が保たれるように規格化する。 ある変数群xに対して決定木

h

の出力を

h(x)と定義し、シグナル(h(x)=1)とバックグラウンド(h(x)=-1)とする。 N

個の決定

木がある場合、決定木を組み合わせて作られた最終的な学習器としての出力(𝑦𝐵𝑜𝑜𝑠𝑡

(𝑥))は 𝑦

𝐵𝑜𝑜𝑠𝑡

= 1

𝑁 ∑ ln(𝛼

𝑖

)

𝑁

𝑖=1

𝑖

(𝑥) (2-2)

と表す。𝑦𝐵𝑜𝑜𝑠𝑡

(𝑥)が小さいほどバックグラウンドに近く、大きいほどシグナルに近い。

2.4.

ニューラルネットワーク

ニューラルネットワークは生物の脳の神経回路の仕組みを模したモデルである。

図 2.2 ニューラルネットワークの概念図

(11)

ニューラルネットワークには「入力層」、「隠れ層」、「出力層」とよばれる層を持つ。これら は入力層→隠れ層→出力層と並ぶ。隠れ層はない場合もあれば複数の層を持つこともある。

各層は複数のノード持ち、各ノードは値を持つ。異なる層のノード間は結合荷重によって結 ばれており、上流のノードの出力は結合荷重を通して(出力と結合荷重の積として)歌集のノ ードに入力される。また、ノード間は活性化関数と呼ばれる関数を持つ。活性化関数はノー ドに対する入力に対して出力を決める関数であり、シグモイド関数、tanh関数、ランプ関 数などがある。(2.4.4.参照)

ニューラルネットワークを利用した機械学習では、ニューラルネットワークの結合荷重 の値を最適化することにより、入力値を適切に出力値に変換する方法を定める。このニュー ラルネットワークの入力層に値を入力すると、各層を順番に伝わり、最後に出力ノードの値 が算出される。最終的に出力層の値を出力値として判定処理などに利用する。

2.4.1.

ニューラルネットワークの学習方法

ニューラルネットワークでは多くの場合、教師あり学習を通じて、結合荷重の値が最適化 される。結合荷重の最適化は出力層の値と教師データの差を評価する損失関数の和が小さ くなるように行われる。この結合荷重の最適化は勾配降下最適化法という方法が利用され る。

勾配降下最適化法とは数値計算で関数の最小値を算出するときによく利用されるものの 一つである。ある関数が与えられたときにその関数の最小値をとるような変数を求めるこ とを考える。初めに、変数の初期値を定める。その変数の値に応じた関数の勾配を計算する。

次に変数を勾配の方向に動かして次の変数の値とする。これを繰り返すことでこの関数の 最小値となる変数の値に近づけていく。結合荷重を更新するための更新式は以下のように なる。

𝜔

𝑘+1

= 𝜔

𝑘

− 𝜂 𝜕𝐸

𝜕𝑤

𝑘

(2-5)

𝜔

𝑘+1

k+1

層での変数の値であり、

E

は教師信号と出力をパラメータにもつ損失関数、𝜔 は関数

f

のパラメータ、𝜕𝑓

𝜕𝑦は勾配、

𝑥

𝑖+1は次の変数の値、

εは学習率である。勾配降下最適化

法で必要となるのは

1. 最適化される変数(結合荷重の値) 2. 最小化する関数(損失関数) 3. 最小化する関数の勾配

3

つである。最適化される変数は、損失関数によって求められた出力と教師信号の偏差 を全訓練データ分合計した値が最小になるように計算するので、教師データ数が多いほど 計算する数も増える。そのため、収束が速い計算方法や、局所解に入りにくい計算方法が考 案された。その中の一つが確率的勾配法である。

(12)

確率的勾配法とははじめに訓練データの中からランダムにデータを複数選ぶ。選ばれた データの損失関数のみを使って変数の値を変更する。変数が修正された訓練データの中か ら再びランダムにデータを選び、変数の値を変更する。この方法を繰り返すことで変数の値 を更新する。確率的勾配法は損失関数の総和をとるデータの数が少ないので、すべてのデー タを利用して更新処理を行うバッチ法よりも一回当たりの更新処理を高速に行うことがで きるため、アルゴリズムの収束速度が速い。損失関数を最小化するようにパラメータの修正 を行う方法の一つが誤差逆伝播法である。

2.4.2.

誤差逆伝播法

誤差逆伝播法は出力層から入力層にかけて誤差を逆伝播させて各パラメータの修正量を 決める。ニューラルネットワークで最適化されるパラメータは結合荷重である。

ニューラルネットワークのあるノード

j

は前の層のノードの出力の和を入力として受け る。すると前の層の出力を𝑜𝑖としたときに、あるノード

j

への入力𝑢𝑗

𝑢

𝑗

= ∑ 𝜔

𝑖,𝑗

𝑜

𝑖

𝑚

𝑖=1

(2-6)

と書ける。

𝜔

𝑖,𝑗は前の層

i

番目のノードと次の層

j

番目のノードの間の結合荷重、ノード

j

か らの出力𝑜𝑗

𝑜

𝑗

= 𝑓(𝑢

𝑗

) (2-7)

と書ける。出力と教師信号をパラメータに持つ損失関数

E

を考えるとノードからの出力は ノード間の結合荷重によって決まるので、誤差関数は結合荷重によって定義された関数と 言える。そのため任意の重みの状態から損失関数の極小値に達するためには結合荷重を

∆𝜔

𝑖,𝑗

= η ∂E

∂𝜔

𝑖,𝑗

(2-8)

ずつ変化させればよい。これを一般に行うと∆𝜔の評価一回毎に信号伝播の計算が必要なた め、計算量が膨大になる。膨大な計算を回避し、現実的な量の計算で可能にしたのが誤差逆 伝播法である。

誤差逆伝播法は入力層と出力その間に任意の個数の隠れ層を設けたニューラルネットワ ークに対する、教師あり学習の代表的方法である。入力データが与えられたとき、その出力 層の値と、教師信号の値の差を小さくするようにニューラルネットワークの各結合荷重が 修正されていく。誤差逆伝播法では、あるノードの学習に使われる情報は下流のノードの情 報のみである。誤差逆伝播法の考え方は以下のような手順である。

1.

学習用に、入力層への入力パターンベクトルと出力層からの出力(教師信号)を用 意する。

2.

入力層、隠れ層、出力層の順に各ノードの出力を計算する。

3.

教師信号と実際の出力の損失を計算する。

(13)

4.

教師信号と実際の出力の損失関数が減少するように、出力層から入力層に向かっ て、ニューラルネットワークの各層間の結合荷重を修正する。

5.

全てのパターンに対する誤差が設定値以下になれば計算を終了する。設定値以上 であれば2に戻る

上記のことを詳しく式で見ていく。前提として

m

層から構成されるニューラルネットワー クを考えることとする。

図 2.3 以下の計算で考えるニューラルネットワーク概念図

k-1

層の(𝑛𝑘−𝑖

+1)番目に常に出力値 1

をとるバイアスノードを仮定すると、イベント

p

提示したときの第k層(k=1,2,3,..,m)j番目の入力値𝑢𝑝,𝑗𝑘 は次式のように表される。

𝑢

𝑝,𝑗𝑘

= ∑ 𝜔

𝑖,𝑗𝑘−1,𝑘

𝑛𝑘−1+1

𝑖=1

𝑜

𝑝,𝑖𝑘−1

(2-9)

𝜔

𝑖,𝑗𝑘−1,𝑘は第

k-1

i

番目のノードと第

k

j

番目のノードとの結合荷重である。k層

j

番目

の出力値𝑜𝑝,𝑗𝑘 は以下のようになる

𝑜

𝑝,𝑗𝑘

= 𝑓

𝑗𝑘

(𝑢

𝑝,𝑗𝑘

) (2-10)

𝑓

𝑗𝑘は第

k

j

番目のノードの活性化関数である。イベント

p

の出力層(m層)I番目のノード 出力値に対する教師信号を𝑡𝑝,𝑖𝑘 、ニューラルネットワークの評価関数として、出力層の出力 に対する教師信号と実際の出力値𝑜𝑝,𝐼𝑚の損失関数

E

を考える。以下では、簡単のために損失 関数は教師信号と出力の

2

乗誤差とする。

𝐸

𝑝

= 1

2 ∑(𝑡

𝑝,𝑖𝑚

− 𝑜

𝑝,𝑖𝑚

)

2

𝑛𝑚

𝑖=1

(2-11) 𝐸 = ∑ 𝐸

𝑝

𝑝

(2-12)

E

pはイベント

p

における損失関数の値、Eは全イベントに対する損失関数の

(14)

結合荷重𝜔𝑖,𝑗𝑘−1,𝑘を損失関数が小さくなるように変化させればよい。

E

pは𝜔𝑖,𝑗𝑘−1,𝑘を間接的に含 むので結合荷重の変化量は

𝑝

𝜔

𝑖,𝑗𝑘−1,𝑘

∝ − 𝜕𝐸

𝑝

𝜕𝜔

𝑖,𝑗𝑘−1,𝑘

(2-13)

という関係が成り立っている。また右辺は次のように分解できる。

𝜕𝐸

𝑝

𝜕𝜔

𝑖,𝑗𝑘−1,𝑘

= 𝜕𝐸

𝑝

𝜕𝑢

𝑝,𝑗𝑘

・ 𝜕𝑢

𝑝,𝑗𝑘

𝜕𝜔

𝑖,𝑗𝑘−1,𝑘

(2-14)

ここで式(2-14)の右辺の積第

1

項は第

k

層へのノード

j

への入力𝑢𝑝,𝑗𝑘 の変化が損失関数

E

pに 与える影響を表す項である。また、右辺の積第

2

項は第

k-1

層のノード

i

と第

k

層のノー ド

j

の結合荷重𝜔𝑖,𝑗𝑘−𝑖,𝑘の変化が第

k

層のノード

j

の入力𝑖𝑝,𝑗𝑘 に与える影響を表す項である。

式(2-6)を用いると式(2-14)の右辺の積第

2

項は次式のように表せる。

𝜕𝑢

𝑝,𝑗𝑘

𝜕𝜔

𝑖,𝑗𝑘−1,𝑘

= 𝜕

𝜕𝜔

𝑖,𝑗𝑘−1,𝑘

∑ 𝜔

𝑖,𝑗𝑘−1,𝑘

𝑛𝑘−1+1

𝑙=1

𝑜

𝑝,𝑙𝑘−1

= 𝑜

𝑝,𝑖𝑘−1

(2-15)

また、式(2-13)は比例定数𝜂を用いて次式のように表すことができる。

𝑝

𝜔

𝑖,𝑗𝑘−1,𝑘

= −𝜂 𝜕𝐸

𝑝

𝜕𝑢

𝑝,𝑗𝑘

𝑜

𝑝,𝑖𝑘−1

(2-16)

よって𝜂が定数で、𝑜𝑝,𝑖𝑘−1が既知の値であることから、結合荷重の修正量∆𝑝

𝜔

𝑖,𝑗𝑘−1,𝑘𝜕𝐸𝑝

𝜕𝑢𝑝,𝑗𝑘 を計 算することで求めることができる。

𝜕𝐸𝑝

𝜕𝑖𝑝,𝑗𝑘 は次式のように分解することができる。

− 𝜕𝐸

𝑝

𝜕𝑢

𝑝,𝑗𝑘

= − 𝜕𝐸

𝑝

𝜕𝑜

𝑝,𝑗𝑘

・ 𝜕𝑜

𝑝,𝑗𝑘

𝜕𝑢

𝑝,𝑗𝑘

(2-17)

式(2-14)の右辺第2項は式(2-10)から入出力関数の1次導関数であり

𝜕𝑜

𝑝,𝑗𝑘

𝜕𝑢

𝑝,𝑗𝑘

= 𝜕𝑓

𝑗𝑘

(𝑢

𝑝,𝑗𝑘

)

𝜕𝑢

𝑝,𝑗𝑘

(2-18)

となる。式(2-17)の右辺第

1

項を計算する場合以下の

2

つの場合に分けて考える必要があ る。

1.

出力層のノード

I

の出力値𝑜𝑗𝑚の変化の損失関数

E

pへの影響を考える場合

2.

入力層または隠れ層における第

k

層のニューロン

j

の出力値𝑜𝑗の変化の損失関

E

pへの影響を考える場合

まず、1.の場合を考えると式(2-17)の右辺の積第

1

項は式(2-9)より

(15)

𝜕𝐸

𝑝

𝜕𝑜

𝑝,𝐼𝑚

= −(𝑡

𝑝,𝐼𝑚

− 𝑜

𝑝,𝐼𝑚

) (2-19)

と書くことができるので、1.の場合式(2-17)は以下のようになる。

𝜕𝐸

𝑝

𝜕𝑢

𝑝,𝐼𝑚

= (𝑡

𝑝,𝐼𝑚

− 𝑜

𝑝,𝐼𝑚

) 𝜕𝑓

𝐼𝑚

(𝑢

𝑝,𝐼𝑚

)

𝜕𝑢

𝑝,𝐼𝑚

𝑗 = 1,2,3, … , 𝑛

𝑚

(2-20)

次に

2.の場合について考えると式(2-17)の右辺第 1

項は次式のようになる。

𝜕𝐸

𝑝

𝜕𝑜

𝑝,𝑗𝑘

= ∑ 𝜕𝐸

𝑝

𝜕𝑢

𝑝,𝑙𝑘+1

𝜕𝑢

𝑝,𝑙𝑘+1

𝜕𝑜

𝑝,𝑗𝑘

𝑛𝑘+1

𝑙=1

= ∑ 𝜕𝐸

𝑝

𝜕𝑢

𝑝,𝑙𝑘+1

𝜕 ∑

𝑛ℎ=1𝑘+1

𝜔

ℎ,𝑙𝑘,𝑘+1

𝑜

𝑝,𝑗𝑘

𝜕𝑜

𝑝,𝑗𝑘

𝑛𝑘+1

𝑙=1

= ∑ ( 𝜕𝐸

𝑝

𝜕𝑢

𝑝,𝑗𝑘+1

𝜔

𝑗,𝑙𝑘,𝑘+1

)

𝑛𝑘+1

𝑙=1

(2-21)

式(2-17),(2-18),(2-21)から式(2-17)は次式のようになる

𝜕𝐸

𝑝

𝜕𝑢

𝑝,𝑗𝑘

= 𝜕𝑜

𝑝,𝑗𝑘

𝜕𝑢

𝑝,𝑗𝑘

∑ ( 𝜕𝐸

𝑝

𝜕𝑢

𝑝,𝑗𝑘+1

𝜔

𝑗,𝑙𝑘,𝑘+1

)

𝑛𝑘+1

𝑙=1

𝑗 = 1,2,3, … , 𝑛

𝑚

, 𝑘 = 2,3, … , 𝑚

(2-22)

式(2-20)に教師信号𝑡𝑝,𝑖𝑚

,m

層の出力値𝑜𝑝,𝑗𝑚を代入することで𝜕𝐸𝑝

𝜕𝑢𝑝,𝐼𝑚が求まる。さらに式(2-16)に

𝜕𝐸𝑝

𝜕𝑢𝑝,𝐼𝑚を代入することで

m-1

層と

m

層の間の結合荷重の修正量∆𝑝

𝜔

𝑖,𝑗𝑚−1,𝑚が求まる。次に式(2-

22)に今求めた𝜔

𝑖,𝑗𝑚−1,𝑚𝜕𝐸𝑝

𝜕𝑢𝑝,𝑗𝑚と既存の𝑜𝑝,𝑗𝑚−1を用いると 𝜕𝐸𝑝

𝜕𝑢𝑝,𝑗𝑚−1が求まり、式(2-16)に 𝜕𝐸𝑝

𝜕𝑖𝑝,𝑗𝑚−1を代入 すると第

m-2

層と第

m-1

層の結合荷重修正量∆𝑝

𝜔

𝑖,𝑗𝑚−2,𝑚−1を求めることができる。同様に計 算すると結合荷重修正量が下流から上流へと順次求まっていく。求められた結合荷重修正 量を用いて、勾配降下最適化法(2.4.1参照)に従って結合荷重が求められていく。

2.4.3.

活性化関数

活性化関数とは各層のノードの出力値を計算する関数である。活性化関数でよく使われ るのはシグモイド関数、tanh関数、ランプ関数であり、以下のよう表せられる。

シグモイド関数

y = 1

1 + 𝑒

−𝜀𝑥

(2-23)

tanh

関数

y = 𝑒

𝑥

− 𝑒

−𝑥

𝑒

𝑥

+ 𝑒

−𝑥

(2-24)

(16)

ランプ関数

y = { 0 (𝑥 < 0)

𝑥 (𝑥 ≥ 0) (2-25)

シグモイド関数や

tanh

関数は値が大きくなると関数の勾配が

0

に近づくため、関数の学習 が進まなくなる。そのため近年ではランプ関数がよく使われている。

2.4.4.

単純パーセプトロン

図 2.4 単純パーセプトロンの概念図

単純パーセプトロンはニューラルネットワークの一種であり、入力層と出力層から成る。入 力を𝐱 = (𝑥1

, 𝑥

2

, 𝑥

3

, … , 𝑥

𝑀

)としたとき、単純パーセプトロンの出力 Z

y = ∑ 𝑎

𝑖

𝑥

𝑖

+ 𝑎

0

𝑀

𝑖=1

(2-26)

Z = f(y) (2-27)

で表される。ここで𝑎𝑖は入力層の

i

番目のニューロンから出力層への結合荷重、𝑎0はバイア ス、fは活性化関数である。バイアスノードは常に次の層に対して1の出力を出す。そのた め結合荷重を𝒂 = (𝑎1

, 𝑎

2・・・𝑎𝑀

)とすると式(2-26)は

y = 𝒂

𝒙 (2-28)

と書くことができる。

前述した方法(2.4.1、

2.4.2

参照)で最適化された結合荷重を用いることで、式(2-28)から特 徴空間を分割する平面を探し出すことが出来、出力ベクトルを線形分離することができる。

(17)

2.4.5.

多層パーセプトロン(MLP : Multi Layer Perceptron)

多層パーセプトロンは入力層と出力層の間に一層以上の隠れ層を用いた構造である。多層 構造を持つことで単純パーセプトロンの欠点であった非線形分離を可能にした。多層パー セプトロンの構造は各層に値を持つノードを持ち、通常入力層と隠れ層にはバイアスノー ドという値が1に固定されたノードを持つ。

隠れ層を増やしていくことでより正確な非線形分離ができると考えられるが実際には、

ニューラルネットワークは階層を深くしてもあまり性能が向上しないことが知られている。

前節(2.4.2)で述べたように結合荷重の修正される量

∆𝜔

𝑘−1,𝑘

k

層の損失関数の偏微分係数 が必要であり、そのために

k-2,k-1

層間の結合荷重が必要になる(前の層の出力が必要なた め)。今まで使用されてきた活性化関数の導関数の値は

1

未満であることが多く層を重ねる ごとに勾配が減衰してしまう[13]。よって多層パーセプトロンでは出力層に近い層では結合 荷重は大きな変動をし、入力層に近い層では大きな変動を示さない。入力層で近い層での結 合荷重の変動が大きくないとはいえ、極小値は存在する。そのため出力層に近い層での結合 荷重だけではなく入力層に近い層での結合荷重も適切に最適化しなければならない。損失 関数は結合荷重をパラメータに持つ関数であるが、このパラメータが張る空間での損失関 数の勾配は大きい方向と小さい方向とが混在する。このような場合勾配法では現実的な時 間で最適化が収束しないことが知られている[13]。

2.5.

ディープラーニング

ディープラーニングとは、多層のニューラルネットワークの総称を指す。ニューラルネッ トワークの多層化は前節で説明した問題があったが、多層のニューラルネットワークを学 習する有効な手段が提案されたために、現実的な手法となった。これまでのニューラルネッ トワークは各層の重みを同様に扱っている。その結果として出力層に近い層の重みが重要 視された。それに対してディープラーニングでは各層に役割を持たせることによって多層 の教育ができるようになった。すなわち、役割の持った層によって特徴量が抽出されると考

図 2.5 多層パーセプトロンの概念図

(18)

えることができる。その代表的なアルゴリズムの一つに畳み込みニューラルネットワーク

(Convolution Neural Network : CNN)が挙げられる。以下、CNN

について記述する。

2.5.1.

畳み込みニューラルネットワーク(Convolution Neural Network : CNN)

図 2.6 CNNの階層の概念図

CNN

は「畳み込み層」と「プーリング層」、「全結合層」と呼ばれる層を持つニューラル ネットワークである。典型的な

CNN

は図

2.5

のように畳み込み層とプーリング層という特 殊な層を交互に設置し、出力層付近には

1

層以上の全結合層を置いた構造から成る。全結 合層とは前の層のノードと次の層のノードがすべて結合荷重で結ばれている層であり、ニ ューラルネットワークの隠れ層と同じ働きを持っている。畳み込み層とプーリング層を持 つこと以外は多層パーセプトロンと変わらず、ある

j

層からの出力𝑧𝑗

𝑦

𝑗

= ∑ 𝑎

𝑖

𝑥

𝑖

+ 𝑎

0

𝑀

𝑖=1

(2-34)

𝑧

𝑗

= f(𝑦

𝑗

) (2-35)

と書ける。Mは

j

層におけるノードの数、𝑎𝑖は入力層の

i

番目のニューロンから出力層へ の結合荷重、𝑎0はバイアス、fは活性化関数である。近年、活性化関数にはランプ関数がよ く使われている。以下、例として画像認識を行うときを仮定して畳み込み層とプーリング層 について述べる。

(19)

2.5.1.1.

畳み込み層

図 2.7 畳み込み概念図

畳み込み層では入力画像に対して、フィルタを掛けることで入力画像の局所的な部分の 特徴抽出を行う。入力に

W×W

サイズの画像を用いるとし、H×Hサイズのフィルタを入 力画像にかける。すると入力画像は新たな画像に叩き込まれる。入力画像の画素(i,j)の画素 値を𝑥𝑖,𝑗

(i=0,・・・,W-1、 j=0,・・・,W-1)、フィルタ(p,j)の画素値をℎ

𝑝𝑞

(p=0,・・・,H-1、 p=0,・・・,H- 1)とすると

𝑎

𝑖𝑗

= ∑ ∑ 𝑥

𝑖+𝑝,𝑗+𝑝

𝑝𝑞

𝐻−1

𝑞=0 𝐻−1

𝑝=0

(2-36)

という値が得られる。得られた𝑎𝑖𝑗はその後活性化関数

f(a)を経て次の層への出力𝑦

𝑖,𝑗

𝑦

𝑖,𝑗

= f(𝑎

𝑖𝑗

) (2-36)

となる。入力画像上でフィルタを移動させることで入力画像にかけるフィルタの位置を変 化させて一枚の畳み込み画像(特徴マップ)を作る。このフィルタは一種類ではなく

2

種類以 上かけることができる。フィルタ一種類につき一枚の画像に入力画像を叩き込むので、フィ ルタの種類だけ特徴マップが存在する(図

2.8)。フィルタはニューラルネットワークにおけ

る結合荷重のようなものとして考えることができ、フィルタの画素値

𝑝𝑞を学習する。

図 2.8 叩き込み層概念図

(20)

2.5.1.2.

プーリング層

プーリング層は通常畳み込み層の後ろに設置される。プーリング層では畳み込み層で作 られた特徴マップの小領域から値を出力し、次の層への入力へ変換を行う(プーリング)。こ の値の変換方法は複数あるがよく使われる方法は小領域の最大値を一つとる方法である。

最大値をとることで小領域における微小変化が生じてもプーリング層にはほとんど同じ値 が出力される。そのため、画像内に現れる特徴の微小な位置変化に対する応答の不変性を実 現する[15]。プーリング層において、畳み込み層小領域の大きさや値を抽出する計算内容な どは設計時に決まり、学習するパラメータは存在しない。

図 2.9 プーリング層概念図

CNN

では畳み込み層で局所的な特徴を抽出し特徴マップを作成、プーリング層では特 徴マップの小領域の値の変換を行い新たな画像を作り出す。畳み込み層とプーリング層を 複数層積み重ね最後に全結合層を設けることで従来のニューラルネットワークよりも精度 の良い画像認識を可能にした。

(21)

第 3 章 素粒子実験

3.1.

概要

素粒子物理学とは、「物質を構成する最も基本的な粒子とは一体何か」・「最も基本的な粒 子を支配する物理法則とは一体何か」を探求する学問のことである。現在、標準模型を構築 するに至っている。標準模型は、現在の素粒子物理学の中で最も成功している理論体系であ るが、完全な理論ではなく、解決のできない問題もある。そのため、素粒子物理学が次に行 うべきことは、この標準模型を超える新物理の探索である。その手掛かりの一つがヒッグス 粒子である。ヒッグス粒子は標準模型でその存在が予言されていながら長らく発見されて いなかった粒子であるが

2012

年に大型ハドロン加速器(LHC)で発見された[20][21]。LHC は欧州原子核研究機構(CERN)が要する陽子・陽子衝突型の円形加速器である。しかし、

LHC

で発見されたヒッグス粒子のさらなる検証において

LHC

よりも精密な測定が必要となる。

そのために最適な手段として計画されているのが

ILC(国際リニアコライダー)である。ILC

は電子・陽電子衝突型の線形加速器で、ヒッグス粒子やトップクォークなどの質量の大きな 素粒子を生成することのできる装置である。ILC は内部構造の内素粒子である電子と陽電 子を用いるため、現象の精密測定に適している。今後

ILC

の精密測定を通した、ヒッグス 粒子の詳細な性質の解明や新現象の発見が期待される。

3.2.

標準模型

標準模型は、現在素粒子物理の中で最も成功している体系である。標準模型はゲージ原理 とヒッグス機構の

2

つの柱から構成されている。この模型を構成する粒子は全部で

18

種類 ある。まず、3世代

6

種類のレプトンとして荷電レプトン(電子(e)、ミューオン(μ),タウ(τ)) と対応するニュートリノ(𝜈𝑒

, 𝜈

𝜇

, 𝜈

𝜏

)、 3

世代

6

種類のクォーク(アップ(u)、ダウン(d)、チャー ム(c)、ストレンジ(s)、トップ(t)、ボトム(b))、力を媒介するベクトルボソンとしては電磁相 互作用を媒介する光子(γ)、弱い相互作用を媒介する

Z

ボソン、

𝑊

±ボソン、強い相互作用を 媒介するグルーオン(g)、そして最後に素粒子の質量の起源となっているスカラーボソンで あるヒッグス粒子(h)が存在している。

3.1

は標準模型構成粒子を分類した表である。物質粒子と呼ばれるクォーク・レプトン は半整数スピンを持ち、陽子や中性子といったさらに大きな物質を構成する要素である。

(22)

3.3. ILC

で探索する物理

国際リニアコライダー(International Linear Collider, ILC)は次世代の電子・陽電子衝突 させて行う実験設備であり、全長

31km

の線形加速器である。電子・陽電子衝突の重心系エ ネルギーが

250GeV~500GeV

までによる実験を行う計画である。その後アップグレードに よる

1TeV

の実験も計画されている。

ILC

で研究される予定の物理はヒッグスの物理やトッ プクォークの精密測定、標準模型を超えた物理の探索など多岐にわたる。本研究では電子・

陽電子を衝突させた時に生じる事象の識別を行うので以下で簡単に説明する。

3.4.

加速器で生成される過程

標準模型に含まれるヒッグス粒子の場合、電子・陽電子衝突で生成される主な過程は

𝑒

+

𝑒

→ Zhと𝑒

+

𝑒

→ 𝜈

𝑒

𝜈 ̅ ℎである。Z

𝑒 粒子やヒッグス粒子は一定の確率でレプトンやクォ ーク対に崩壊する。また、例えば𝑒+

𝑒

→ 𝑞𝑞̅などの過程でもクォークが生成される。クォ

ークは単独では存在せず、生成された後、新たにハドロンを形成する。これを繰り返しな がら大量の粒子群が出できる。これをジェットという。クォーク生成のシグナルとして電 子・陽電子衝突実験で実際に検出されるのは崩壊後のジェットである。

図 3.1標準模型を構成する素粒子

(23)

第 4 章 検出器

4.1.

概要

ILC

に 設 置 さ れ る 予 定 の 検 出 器 は

ILD(International Large Detector)

測 定 器 と

SiD(Silicon Detector)測定器の 2

つである。実際にはこの

2

つの測定器を並べてスライドさ

せて、ビームラインに設置する測定器をその都度交換し、測定を行うことが計画されている。

本解析では

ILD

測定器を想定したデータサンプルを用いているので

ILD

測定器について述 べる[22]。図

4.1

ILD

検出器の全体図である。

図 4.1 ILD測定器全体図[8]

ILD

測定器はビーム軸に対象に設計されており、内側から

飛跡検出器

崩壊点検出器

主飛跡検出器

カロリメータ

電磁カロリメータ

ハドロンカロリメータ

ソレノイドコイル

ミューオン検出器

前方検出器

という構造になっている。

4.2.

飛跡検出器

飛跡検出器は崩壊点検出器、シリコン内部検出器、中央飛跡検出器、シリコン外部検出器 から構成される。また、後述するカロリメータがソレノイドコイルに囲まれているため、ソ レノイドの磁場によって荷電粒子は曲げられるが、飛跡検出器によってその曲率半径(飛跡) を求めることで、磁場の強さから運動量が計算できる。

(24)

4.2.1.

崩壊点検出器(VTX)

崩壊点検出器はビームの衝突点から最も近い位置に設置される検出器である。VTX の役 割は崩壊点の位置を測定、bクォーク、cクォーク同定を行うことである。崩壊点検出器は 通過する荷電粒子の位置を精密に測定することができるのでそこから二次粒子の崩壊点を 測定することができる。

4.2.2.

主飛跡検出器

ILD

測 定 器 の 飛 跡 検 出 器 と し て 主 飛 跡 検 出 器 で あ る 時 間 投 射 測 定 器

(TPC:Time Projection Chamber)とシリコン飛跡検出器の二つがある。

TPC

はガス検出器であり、

TPC

内に充満しているガスをイオン化させる。

TPC

内を通過 する荷電粒子によって分離された陽イオンと電子を、一様電場をかけることで読み出し面 へ移動させて電気信号として読み取る。そこから荷電粒子の飛跡の

3

次元的(r, φ, z)な再構 成を行うことで粒子の運動量の測定を行うことができる。VTX でも飛跡の再構成を行って いるが

VTX

が各レイヤーにおけるヒット点から飛跡が得られるのに対して、

TPC

では連続 的な飛跡を得ることが可能である。

シリコン飛跡検出器は

TPC

の前方検出部分や

TPC

VTX

の間などに設置し、飛跡の時 間情報を取得する。シリコン飛跡検出器と

TPC

を併用することで運動量分解能が向上する。

4.3.

カロリメータ

ILD

測定機におけるカロリメータは内側から電磁カロリメータ(ECAL)とハドロンカロリメ ータ(HCAL)から構成される。カロリメータの役割は通過する粒子に内部でシャワーを発生 させることで粒子の損失したエネルギーを測定することである。ECAL は電磁相互作用に よる電磁シャワー発生させ、HCAL は強い相互作用や原子核との衝突によるハドロンシャ ワーを発生させる。シャワー粒子を検出することでジェット中の粒子のエネルギー損失を 見積もることができる。またこの検出器の反応は実際のエネルギーと比例するように設計 される。

4.3.1.

電磁カロリメータ

電磁カロリメータの目的は光子や荷電ハドロン、電子のエネルギーの測定である。荷電粒 子や光子は電磁カロリメータ中で、電磁相互作用による対生成と対衝突を繰り返し、電磁シ ャワーを発生させる。 電磁カロリメータは粒子にシャワーを発生させるエネルギー吸収 層と、電磁シャワーを検出するセンサー層から成る。吸収層からエネルギーが測定でき、セ ンサー層からは

2

次粒子の位置が測定できる。その後のデータ解析でシャワーの形を得る ことができるので、元の粒子が何であったかが識別することができる。

(25)

4.3.3.

ハドロンカロリメータ

ハドロンカロリメータはハドロンのエネルギーを測定することが目的である。中性ハド ロンから作られるハドロンシャワーは電磁シャワーを比べて反応が複雑である。これはハ ドロンシャワー中では強い相互作用によるものだけでなく電磁相互作用も同時に起きてし まうため、これらの相互作用によるエネルギー損失が違うこことシャワー内の反応比率が 事象ごとに違うからである。そのため、ハドロンカロリメータの分解能は電磁カロリメータ の分解能に比べて悪い。しかし、中性ハドロンはハドロンカロリメータによってはじめて観 測されるので、重要な検出器である。

4.4.

ミューオン検出器

ミューオン検出器の目的はミューオンの同定とカロリメータで測定しきれなかったエ ネルギーの測定と回収である。ミューオン検出器とカロリメータの併用はジェットエネル ギー分解能を向上する。

4.5.

前方検出器

ビームパイプに非常に近い前方領域部分には前方検出器と呼ばれる検出器群が置かれる。

これらの測定器によってビームパイプ付近の前方領域部分の測定を可能にするため、損失 エネルギーの測定精度が向上する。

(26)

第 5 章 特徴量を用いた機械学習の利用

5.1.

概要

シグナルとなる

𝑒

+

𝑒

→ 𝑧ℎ事象とその他背景事象(バックグラウンド)との識別性能を BDT

とニューラルネットワークで調べた。またこのとき学習器に学習させるための特徴と して、測定器で検出されるシグナルとバックグラウンドの違いを利用したものを用いた(5.2 参照)。

まず、入力データとなる事象生成を行う。事象生成で使用された

WHIZARD[15]は多粒子

の散乱断面積の計算およびシミュレーションにおけるサンプル作成のためのジェネレータ ープログラムの呼称である。また、機械学習のパッケージとして多変量解析ツール

TMVA[16]内の BDT

MLP(TMVA

内におけるニューラルネットワーク)を使用している。

5.2.

解析条件

本研究で電子・陽電子衝突から生成された事象でシグナル・バックグラウンドと定義した ものが以下の表である。WHIZARD によって事象を生成したあと,個々の粒子の運動量と エネルギーを,

ILD

測定器の運動量分解能,エネルギー分解能を想定して「ぼかす」ことに よって,実際の測定に近い条件で解析した。

シグナル

𝑒

𝑒

+

→ 𝑍ℎ → 𝜇

𝜇

+

バックグラウンド

𝑒

𝑒

+

→ 𝑍𝑍 → 𝜇

𝜇

+

𝜇

𝜇

+

𝑒

𝑒

+

→ 𝑍𝑍 → 𝜇

𝜇

+

𝜏

𝜏

+

𝑒

𝑒

+

→ 𝑍𝑍 → 𝜇

𝜇

+

𝑒

𝑒

+

𝑒

𝑒

+

→ 𝑍𝑍 → 𝜇

𝜇

+

𝜈𝜈̅

𝑒

𝑒

+

→ 𝑍𝑍 → 𝜇

𝜇

+

𝑞𝑞̅

𝑒

𝑒

+

→ 𝑍ℎ → 𝑒

𝑒

+

表 5.1 用いた信号のシグナルとバックグラウンドの定義

訓練データのイベント数は

35007

個、そのうちシグナルが

5001

個、バックグラウンド

30006

個としている。テストに用いたイベント数は

30006

個でシグナルとバックグラウ

ンドの数は訓練データと同様にした。各イベントの重みはすべて

1

としている。

使用した機械学習の学習器は

BDT

MLP

2

つである。

BDT

の決定木の数は

850

個、

MLP

の訓練のための繰り返し回数は

500

回である。また、入力特徴量には以下の

9

種類

12

個を使用した。

(27)

電磁カロリメータでのエネルギー損失

ハドロンカロリメータでの粒子のエネルギー損失

粒子の最大運動量

(上記の 3

つの特徴量は荷電粒子の正負ごとの各

2

つづつの特徴量とする)

レプトン対系の横運動量

レプトン対系の不変質量

反跳質量

レプトン対の角度

 xy

平面に射影したときのレプトン対角度

損失角度

5.3.

特徴量

以下の章では使用した特徴量についての説明とシグナル、バックグラウンドにおける特徴 量の描写を示す。特徴量の描写では青がシグナル、赤がバックグラウンドを示している。

5.3.1.

電磁カロリメータでのエネルギー損失

再構成された粒子が

ECAL

で損失したエネルギーである

図 5.1 電磁カロリメータでのエネルギー損失の分布

青がシグナルで赤がバックグラウンドを表している。グラフ縦軸はグラフを積分したとき に

1

になるように規格化したものである。以下、特徴量のグラフはこれと同様である。

(28)

5.3.2.

ハドロンカロリメータでのエネルギー損失(ehcal) 再構成された粒子が

HCAL

で損失したエネルギーである。

図 5.2 ハドロンカロリメータでのエネルギー損失の分布

5.3.3.

粒子の最大運動量(pmx)

飛跡検出器で測定される最大運動量である。

図 5.3 粒子最大運動量の分布

(29)

5.3.4.

レプトン対の横運動量(Ptdilep)

粒子の持つ運動量の内ビーム軸(z軸)に垂直な成分(運動量ベクトルの

xy

平面への射影)を 横運動量と呼ぶ。横運動量はレプトン対が

Z

ボソンから崩壊した場合は、

Z

ボソンの横運動 量となる。Zボソンの横運動量は以下の式で表される。

𝑃𝑡𝑑𝑖𝑙𝑒𝑝 = √(𝑃

𝑥𝑙+

+ 𝑃

𝑥𝑙−

)

2

+(𝑃

𝑦𝑙+

+ 𝑃

𝑦𝑙−

)

2

(6-1)

図 5.4 レプトンの横運動量の分布

5.3.5.

不変質量(mdilep)

不変質量は再構成された粒子の質量に等しい。レプトン対が

Z

ボソンから崩壊している 事象は

Z

ボソンの質量(91.2GeV)にピークを持つ。一方でレプトン対が

Z

ボソンから崩壊し ていなければ不変質量分布は

Z

ボソン質量付近以外にも広がる。

図 5.5 粒子の不変質量の分布

(30)

5.3.6.

反跳質量(mercol)

𝑒

+

𝑒

→ 𝑍ℎ事象において、始状態の 4

元運動量は理想的には既知なので再構成により、Z

ボソンの

4

元運動量の計算を行うと、ヒッグスの質量が計算される。この計算によって求 められたヒッグスの質量を反跳質量という。

𝑀

𝐻𝑖𝑔𝑔𝑠

= √(𝐸

𝑐𝑚𝑠

− 𝐸

𝑍𝑏𝑜𝑠𝑜𝑛

)

2

− |𝑃

𝑍𝑏𝑜𝑠𝑜𝑛

|

2

(6-2)

反跳質量用いることによる利点は、ヒッグス粒子から崩壊した粒子を用いた再構成より も精度が良いことと、ヒッグス粒子の崩壊分岐比による不定性の影響を受けないことであ る。

図 5.6 粒子の反跳質量の分布

5.3.7.

レプトン対角度(acl) レプトン対のベクトルの間の角度

図 5.7 レプトン対ベクトルの間の角度の分布

(31)

5.3.8. xy

平面におけるレプトン対角度(acp)

レプトン対のベクトルを

xy

平面に射影した際の、間の角度(Rad.)を

Acoplanarity

と呼 ぶ。

𝑎𝑐𝑝 = 𝑐𝑜𝑠

−1

𝑃

𝑥𝑦𝑙+

・𝑃

𝑥𝑦𝑙−

|𝑃

𝑥𝑦𝑙+

||𝑃

𝑥𝑦𝑙−

| (6-3)

𝑒

+

𝑒

→ 𝑍ℎでは Z

ボソンはヒッグス粒子と共に生成する。

図 5.8

xy

平面のレプトン対角度の分布

5.3.9. PFO

損失角度(𝑐𝑜𝑠𝑚𝑖𝑠𝑠𝑖𝑛𝑔

𝜃)

𝑐𝑜𝑠

𝑚𝑖𝑠𝑠𝑖𝑛𝑔

𝜃とは検出されない粒子の運動量の和𝜃から計算された値である。検出されない

粒子とは以下の二つが主に影響している。

終状態にニュートリノを含む場合

ニュートリノは検出されないので損失角度に強く影響する。ニュートリノを含む事 象ではニュートリノが様々な方向に運動するので𝑐𝑜𝑠𝑚𝑖𝑠𝑠𝑖𝑛𝑔

𝜃分布は平たんになる傾

向が予測される。

粒子がビームパイプに入射し、検出しで粒子が検出されない場合

ビームパイプには検出器が置くことが出来ないので、ビームパイプに入射するよう な前後方向に飛びやすい粒子が入射した場合、

‖𝑐𝑜𝑠

𝑚𝑖𝑠𝑠𝑖𝑛𝑔

𝜃‖

は1にピークを持つように なる。

𝑐𝑜𝑠

𝑚𝑖𝑠𝑠𝑖𝑛𝑔

𝜃 = ∑ 𝑐𝑜𝑠𝜃

𝑃𝐹𝑂

= (∑ 𝑃

𝑃𝐹𝑂

)

2

‖∑ 𝑃

𝑃𝐹𝑂

‖ (6-4)

(32)

図 5.9

𝒄𝒐𝒔

𝒎𝒊𝒔𝒔𝒊𝒏𝒈

𝜽の分布

(33)

5.4.

結果

図 5.10

BDT

ROC

曲線

5.10

は学習器に

BDT

を使用してイベントの識別を行ったときの

ROC

曲線(Receiver

Operatorating Characteristic curve)である。ROC

曲線を用いることで機械学習の学習器

の学習モデルを評価できる。

教師信号と実際に学習器が出力したシグナルとバックグラウンドのイベント数を以下の ように定義する。

表 5.2シグナルとバックグラウンドのイベント数

5.10

ROC

曲線の横軸、縦軸は以下のようにしている。

𝐵𝑎𝑐𝑘𝑔𝑟𝑜𝑢𝑛𝑑 𝑟𝑒𝑗𝑒𝑐𝑡𝑖𝑜𝑛 = 𝑇𝑁 𝐹𝑃 + 𝑇𝑁 𝑆𝑖𝑔𝑛𝑎𝑙 𝑒𝑓𝑓𝑖𝑐𝑖𝑒𝑛𝑐𝑦 = 𝑇𝑃

𝑇𝑃 + 𝐹𝑁

上記から

Background rejection

1

に近いほど正確にバックグラウンドを除去できてお

り、同様に

Signal efficiency

1

に近いほど正確にシグナルを識別している。

ROC

曲線の示す学習器の性能を表した値が

AUC(Area Under the Curve)で、ROC

曲線 と縦軸、横軸で囲まれた面積である。

AUC

1

のときは完全な分類が可能であり、

AUC

0.5

の時はランダムな分類となることを表している。

(34)

BDT

AUC

の値は0.9877 ± 0.0006となった。

次に、MLPを使用したときの解析結果について述べる。まず、MLPの隠れ層を

1

層に 固定する。ノードの数を

2

から

20

まで変化させた時の

AUC

の推移を図

5.12

に記す。ただ しこの時の隠れ層のノード数はバイアスノードを含むノード数である。使用した入出力関 数は

tanh

関数、sigmoid 関数(2.4.3 参照)、radial 関数の

3

つとした。radial 関数はy =

𝑒

−𝑥22の関数である。

まず、活性化関数に

tanh

関数を用いたときの結果を示す。

図 5.11 活性化関数に

tanh

関数を用いたときのノード数に対する

AUC

5.11

から活性化関数に

tanh

関数を用いたとき、ノード数が

3,4

ときノード数

5~20

の 時に比べて

AUC

が低い値が出る。図

5.11

y

軸方向に射影したときの

AUC

分布を示す。

図 5.12 活性化関数に

tanh

関数を用いたときの

AUC

分布

ノード数が

5~20

の時の

AUC

のノード依存性は見られず統計誤差でふらついていると考え られる。この時の

AUC

平均値は0.95 ± 0.01である。

0.88 0.89 0.9 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 AUC

ノード数

tanh 関数を用いたときのノード数に対する AUC 値

0 2 4 6 8 10

0.88 0.89 0.9 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99

回数

AUC

tanh 関数を用いたときの AUC 分布

(35)

ノード数

3

の時の

ROC

曲線とノード数

13

のときの

ROC

曲線を以下で示す。

図 5.13 活性化関数:tanh関数 ノード数

13

の時の

ROC

曲線

次にシグモイド関数を用いたときの結果を示す。

図 5.14 活性化関数に

sigmoid

関数を用いたときのノード数に対する

AUC

顕著な

AUC

のノード数依存は見られない。AUC値の平均は0.934 ± 0.008である。この 時の

ROC

曲線は以下の図である。

図 5.15 活性化関数にシグモイド関数を用いて、ノード数

19

のときの

ROC

曲線

0.88

0.89 0.9 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 AUC

ノード数

シグモイド関数を用いたときのノード数に対する AUC 値

(36)

次に

radial

関数用いたときの結果を示す。

図 5.16 活性化関数に

radial

関数を用いたときのノード数に対する

AUC

活性化関数に

radial

関数を用いたとき、3~6ノードの時にはそれ以上と比較して

AUC

値 が低い傾向があるが、ノード数

7

以上では一定と考えられる。この時の

AUC

値の平均は

0.95 ± 0.01となった。

活性化関数に

radial

関数を用いたときの

ROC

曲線は以下のようになった。

図 5.17 活性化関数に

radial

関数、ノード数

13

のときの

ROC

曲線

MLP

の隠れ層を

1

層に固定、ノード数を変化せた時、AUCのノード数依存性は見られ なかった。また活性化関数による

AUC

値の値も変わらない。ただし活性化関数による

AUC

値のふらつきが異なる。tanh関数を用いたときは低ノード側では統計誤差から外れる低い

AUC

値を出力した。radial関数の時はノード数における

AUC

の誤差が

sigmoid

関数の時

0.88 0.89 0.9 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 AUC

ノード数

radial 関数を用いたときのノード数に対する AUC 値

図  2.1:  決定木の概念図
図  2.6 CNN の階層の概念図  CNN は「畳み込み層」と「プーリング層」、 「全結合層」と呼ばれる層を持つニューラル ネットワークである。典型的な CNN は図 2.5 のように畳み込み層とプーリング層という特 殊な層を交互に設置し、出力層付近には 1 層以上の全結合層を置いた構造から成る。全結 合層とは前の層のノードと次の層のノードがすべて結合荷重で結ばれている層であり、ニ ューラルネットワークの隠れ層と同じ働きを持っている。畳み込み層とプーリング層を持 つこと以外は多層パーセプトロンと変わらず
図  5.9
図  5.10  BDT の ROC 曲線
+7

参照

Outline

関連したドキュメント

機械物理研究室では,光などの自然現象を 活用した高速・知的情報処理の創成を目指 した研究に取り組んでいます。応用物理学 会の「光

[Nitanda&amp;Suzuki: Fast Convergence Rates of Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime,

Optimal stochastic approximation algorithms for strongly convex stochastic composite optimization I: A generic algorithmic framework.. SIAM Journal on Optimization,

Dual averaging and proximal gradient descent for online alternating direction multiplier method. Stochastic dual coordinate ascent with alternating direction method

子どもの学習従事時間を Fig.1 に示した。BL 期には学習への注意喚起が 2 回あり,強 化子があっても学習従事時間が 30

支援級在籍、または学習への支援が必要な中学 1 年〜 3

経済学研究科は、経済学の高等教育機関として研究者を

 学部生の頃、教育実習で当時東京で唯一手話を幼児期から用いていたろう学校に配