• 検索結果がありません。

パラメータの決定

第 4 章 評価実験 27

4.2 パラメータの決定

提案手法ではいくつかのパラメータがあるが,本節では開発データを用いた各種 パラメータの決定について説明する.一つ目のパラメータは,3.5.3項で述べたα

表 4.1: 開発データ(抜粋)

文 正確性 流暢性

言い換え前 「伝える」という役目を背負い,この人はマ イクに向かっている.

-

-言 い 換 え 後 (名詞・動詞)

「伝える」という仕事を持ち,この人はマイ クに向かっている.

◯ ◯

言い換え前 だが,「暑くなり過ぎると,逆に外食に出掛 ける機会が減り,ビール消費に影響しかねな い」と懸念の声も上がっている.

-

-言 い 換 え 後 (名詞・動詞)

だが,「暑くなり過ぎると,逆にレストランに 行く機会が減り,ビール消費に影響しかねな い」と懸念の声も上がっている.

× ◯

言い換え前 不測の事態に備えたためとも言われる. - -言 い 換 え 後

(名詞のみ)

不測の状態に備えたためとも言われる. ◯ × 言い換え前 お客様の要望に応じて品ぞろえもさらに充実

させていく予定だ.

-

-言 い 換 え 後 (動詞のみ)

お客様の要望に答えて品ぞろえもさらに充実 させていく予定だ.

× ◯

言い換え前 地蜂で生計を立て立ち直る,という物語を思 い描いて,根掘り葉掘り聞く自分が卑しく思 えた.

-

-言 い 換 え 後 (動詞のみ)

地蜂で生計を立て立ち直る,という物語を思 って,根掘り葉掘り聞く自分が卑しく思えた.

◯ ◯

である.これは正確性と流暢性のスコアのスケールを合わせるために利用する.こ のパラメータは提案手法における平易句の候補に対する2つのスコア(Score1

Score2)のどちらに対しても同じ値を用いる.αの決定については4.2.1項にて説

明する.もう一つのパラメータは,3.5.4項で述べた閾値T であり,名詞と動詞の 両方を言い換えた平易句を優先して選択するために利用される.この値は,Score1

Score2で異なる値を設定するので,4.2.2項と4.2.3項にて,それぞれ説明する.

基本的な方針として,閾値T は,スコアの値がそれを超えたとき,生成した平易 句が適切である可能性が高くなる値を設定する.また,Score2では,正確性と流 暢性のスコアの重み付けの役割を果たすパラメータβがある.本実験では,β

0.25,0.5,0.75のいずれかとするが,それぞれの場合について閾値T を個別に設定

する.

4.2.1 スケール調整パラメータ α の決定

パラメータ α は式(3.4)にて決定する.以下に再掲する.

α= M ef l

M ef a (4.1)

M ef aM ef lは,それぞれ,開発データにおける正確性,流暢性のスコアの対数 の分布の中央値である.まず,開発データにおける全ての平易句の候補P hiについ て,その正確性と流暢性のスコアの対数(log)を算出し,その分布を求めた.開 発データにおける平易句の候補の総数は1,669件であった.このスコアの分布の 基本統計量,ここでは平均値,中央値,最小値,最大値,分散を表4.2に示す.こ のうちαの決定に必要な統計量は中央値である.logF A(P hi)とlogF L(P hi)の中 央値は,M ef a = 0.0111,M ef a = 16.9となった.これに従い,α = M eM ef l

f a =

16.9

0.0111 = 1.54×103と決めた.

表 4.2: 開発データにおける正確性と流暢性のスコアの統計 平均値 中央値 最小値 最大値 分散 logF A(P hi) -0.0231 -0.0111 -0.326  -0.000100 0.00119 logF L(P hi) -16.5 -16.9 -20.6  -8.85 6.06

4.2.2 Score1 の閾値 T の決定

Score1における名詞と動詞の両方を言い換えた平易句を優先して選択するため

の閾値T の決定について述べる.この決定には,開発データのうち,平易句が名 詞と動詞を両方言い換えたものであるデータを利用する.開発データの全500件 のうち,これに該当するデータは167件であった.開発データでは,これらに対 して,平易句が正確性の観点から見て妥当か否か,流暢性の観点から見て妥当か 否か,の二値ラベルが付与されている.

正確性のスコアが閾値tのときに平易句が正確性を満たすと判定するシステム を作る.このシステムを上記の開発データのサブセットに適用し,その判定の精 度,すなわち正確性と満たすと判定した事例のうち,人によって実際に正確性を 満たすとラベル付けされた事例の割合を求める.閾値と精度の関係をグラフとし て可視化したものを図4.1(a)に示す.グラフのX軸は閾値tであり,Y軸が判定 精度である.ただし,0.90未満のデータについては増減の幅が少なかったため描 画していない.同様に,流暢性について閾値tを変化させたときの判定精度の変化 も調べた.その結果を図4.1(b)に示す.同じように,109未満のデータは描画し ていない.基本的に,これら2つのグラフでは,閾値tを大きくすると精度が高く なる傾向が見られる.

(a)正確性 (b)流暢性

図 4.1: 開発データにおける平易句の正確性・流暢性判定の精度(Score1) 精度が十分に大きいとき,具体的には図4.1(a)で精度が0.7になるときの閾値Tf a は0.994,図4.1(b)で精度が0.8になるときの閾値Tf lは2.33×107であった.これら をScore1の計算式,すなわち式(3.6)に当てはめ,T =α×logTf a+logTf l =24.5 と設定した.

4.2.3 Score2 の閾値 T の決定

Score2について,名詞と動詞の両方を言い換えた平易句を優先して選択するた

めの閾値Tを決定する.先ほどと同様に,開発データ500件のうち,名詞と動詞の 両方を言い換えた167件のサブセットを用いる.これらの開発データには,平易句 が適切であるか否かの二値ラベルが付与されている.実際には,開発データには,

正確性を満たすか否か,流暢性を満たすか否か,の2つの観点で二値ラベルが付 与されているが,正確性と流暢性を両方とも満たす場合にその平易句は適切であ り,それ以外は適切でないとして,適切か否かのラベルを決定している.式(3.5)

に示すScore2の値が閾値tを越えたときに平易句が適切であると判定するシステ

ムを作る.Score2には正確性のスコアと流暢性のスコアの重み付けパラメータβ があり,これをβ = 0.25,0.5,0.75としたときのそれぞれについて,3通りのシス テムを構築した.このシステムの精度,すなわち平易句として適切と判定した事 例のうち,人によって実際に適切であるとラベル付けされた事例の割合を求める.

閾値と精度の関係を可視化したグラフを図4.2に示す.このグラフにおいて,X軸 は閾値t,Y軸は判定精度である.グラフでは,閾値tを増加させると判定精度も 上がる傾向が見られた.β = 0.25,0.5,0.75のそれぞれについて,精度が0.65に達 したときの15.5,16.0,14.0を閾値T と決定した.

図 4.2: 開発データにおける平易句の適切性判定の精度(Score2)

関連したドキュメント