ページの階層構造に基づく具体度・詳細度を考慮した手順情報の検索

(1)

DEIM Forum 2016 G6-5

ページの階層構造に基づく具体度・詳細度を考慮した手順情報の検索

下野

普也

†

山本

岳洋

††

田中

克己

††

†

京都大学工学部情報学科

〒 606–8501 京都府京都市左京区吉田本町

††

京都大学大学院情報学研究科

〒 606–8501 京都府京都市左京区吉田本町

E-mail:

†{

shimono,tyamamot,tanaka

}

@dl.kuis.kyoto-u.ac.jp

あらまし「ギターを上達する」「ダイエットする」「美味しいトーストを焼く」といった行動をとりたいと思った際，

その行動を達成するための手順や方法を検索することがしばしば必要になる．このような手順や方法の検索を本研究

ではハウツー検索と呼ぶ．現在のハウツー検索は，通常の検索エンジンを用いて行うことができるが，検索結果とし

て得られた手順ページの具体度が揃っていないという問題がある．本研究では，手順ページの情報源である wikiHow

を対象として，手順ページの具体度を計算する手法を提案する．提案手法では，手順ページの具体度を，複数のステッ

プと呼ばれるサブ手順の具体度から求める．その際に，ステップ間の詳細化関係という関係を導入し，詳細化関係と

具体度を再帰的に求める手法を提案する．実験の結果，詳細化関係を再帰的に求めることで，詳細化関係の精度は，F

値で 0.188 となり，また，詳細関係の精度向上に合わせて，具体度による手順ページランキングの精度も 0.84 に向上

した．

キーワード

1. はじめに

Web検索エンジンが発達するにつれて，ある目的を達成するための方法や手順を検索することが広く行われるようになってきている．本研究では，このような方法や手順のことを記述したWebページを手順ページ，その構成要素をステップと呼び，手順ページの検索をハウツー検索と呼ぶ．ハウツー検索の例として，「ギターを上達する方法を探す」「ダイエットする方法を探す」「美味しいトーストを焼くための手順を探す」などがあげられる．中村らが2006年に行った，1,000人を対象としたWeb 検索の目的を調査したアンケートによると，1,000人中575人が「方法・手段」を探すためによくWeb検索を利用すると回答している[?]．また，近年ではwikiHow（注 1）やnanapi（注 2）に代表される，手順ページをまとめたウェブサイトも登場し利用されている．このように，ハウツー検索は人々にとって重要な検索の一つとなっていると考えられる．しかし，一般的なウェブ検索と異なり，現状のハウツー検索においては，いくつか問題点が存在すると考えている．たとえば，人々が自由に手順ページをまとめて公開できるwikiHowでは，ユーザは検索クエリを投入することでクエリと関連度の高い手順ページが検索結果として得られるが，以下に挙げる問題点が存在する． • 検索結果の具体性が揃っていない点: 例えば，ギターの上達に関する手順ページには，「ギターの練習方法」のような，曖昧なステップしか含まれていないものもあれば，「ギターソロの音の取り方」のような，具体的な手順ページも存在する．どのような手順ページをユーザが求めるかは，ユー（注 1）：http://www.wikihow.com/ （注 2）：https://nanapi.jp/ ザの知識に依存すると考えられる．しかし，既存のランキングはこうした手順ページの具体性を考慮していないため，検索結果にこれらの異なるユーザ向けのページが混在しており，ユーザが欲しい手順ページを手に入れるに苦労することが多い． • あるステップのより詳細なステップの検索が困難な点: 例えば，「コードの練習方法」というステップを閲覧している時に，そのステップの記述が曖昧であると「Fコードの練習方法」や「コードの簡単な覚え方」といった，さらに詳細な情報が欲しくなるときがある．しかし，現状ではユーザはこうしたより詳細なステップを得るためには，その都度検索する必要がある．さらに，こうした詳細なステップは手順ページの一部に記載されていることもりあり，手順ページのタイトルからでは発見が難しい場合がある．前者の問題点を解決するため，本研究では手順ページの具体性に着目し，手順ページの具体度を計算する手法を提案する．手順ページの具体性とは，「その情報だけを見て，ユーザが具体的に何をすればよいかがわかるか」を表しており，これを表す尺度を本研究では具体度と定義する．具体度が高い手順ページは，そのページを見れば何をすればわかるが，ある事柄に特化したページが多く，予備知識がないとこれを理解することができない事もあり，専門的であると言える．逆に具体度が低い手順ページは，そのページだけを見ても具体的に何をすればよいかはわからないが，物事の全体を見渡したりするのに有用である場合が多く，ある事柄に関して知識を有さない初心者向けであると言える．具体度による手順ページのランキングが可能となれば，ユーザの知識に合わせて，ユーザが求める具体度の手順ページを検索することが容易になると考えられる．また，後者の問題点を解決するため，ステップ間の詳細化関

(2)

係を推定する手法を提案する．具体度の低いステップに対して，それに含まれる情報が他の手順ページ中の複数のステップによって，より詳細な説明が為されている場合がある．このような手順ページの部分集合は，元のステップを詳細化していると定義し，この手順間の関係を詳細化関係と呼ぶ．手順間の詳細化関係を求めることで，より具体的な情報をユーザに提示することが可能である．本研究では，手順ページの具体度およびステップ間の詳細化関係を求めるため，両者を相互再帰的に求める手法を提案する．本研究では，手順ページの具体度とステップ間の詳細化関係は互いに依存していると考える．手順ページの具体度はそこに含まれるステップの具体度によって決まる．ここで，ある具体的なステップを詳細化しているステップ集合は，元のステップよりも高い具体度を持つと考えられる．また，あるステップ集合が別のステップを詳細化するためには，そのステップ集合は詳細化されるステップよりも具体度は高い必要がある．このように，具体度と詳細化関係は互いに依存しており，両者を再帰的に計算することで，精度良く両者を計算することができると考えられる．提案手法はまず，与えられた手順ページ集合から，手順間の粗い詳細化関係を求める．具体的には，ステップ間の順序関係とテキストの類似性のみに基づき，再現率を重視した詳細化関係を求める．次に，得られた詳細化関係を基に，ステップ間の詳細化関係を表した詳細化関係グラフを作成し，グラフの深さを基準とするスコア付与アルゴリズムを適用することでステップの具体度を求める．その後，得られたステップの具体度を基に，詳細化関係グラフ中の不要なエッジを発見し，エッジを除去することで詳細化関係グラフを修正し，再度ステップの具体度を求める．このプロセスを繰り返しグラフを修正していくことで，各ステップの具体度および詳細化関係を得ることができる．提案手法により，「ギターの上達」に関するwikiHow中の16 ページ，304ステップに対して詳細化関係と手順ページの具体度を求めたところ，詳細化関係の精度は，最大でF値が0.188となり，その時の手順ページの具体度によるランキングはnDCG で0.84となった．また，これらの評価値は，両者とも粗い詳細化関係から求めた評価値よりも高くなっており，提案手法による詳細化関係の精度の向上と，精度の良い詳細化関係を抽出すれば良い具体度が求まることが確認された．本稿の構成は以下の通りである．2節ではハウツー検索に関する研究について述べる．3節では，本研究で求める具体度と詳細化関係について述べ，両者の関係を整理する．4節では提案手法について詳細に述べる．5節で，実験と評価について述べる．6節で，まとめと今後の課題について述べる．

2.

3. 概念説明

3. 1 ステップと手順ページまず本研究で扱う手順ページとステップについて説明する．手順情報はそれ自体が手順のリストで構成されていると考えられる[?]．そこで本研究では，ある目的を達成するための一連の行動をまとめた文書を手順ページと呼び．手順ページに含まれる，1つ1つの手順のことをステップと呼ぶ．本研究では，手順ページはそのページに含まれるステップの集合として表される(図??)．このような構造を持つ文書は，レシピやハウツー情報を扱ったサイトに多く存在し，本研究が対象とするwikiHow も同様の構造を持っている．またステップは手順の概略を表した「タイトル」と，手順の内容を記述した「本文」，を含む要素で構成されていることが多い．本研究で扱うwikiHowについても，ステップはタイトルと本文から構成され，ステップ間の類似度を計算する際に用いられる． 3. 2 具体度本研究では，具体度とは，あるステップや手順ページに対して付与される，その情報がどれだけ具体的かを表したスコアと定義する．ここで，あるステップまた手順ページが具体的であるとは，「その情報だけを見て，ユーザが具体的にどのような行動を取れば良いかがわかる」として定義される．たとえば，ギターの上達に関するステップとして，“ギターのコード練習” というステップと“Cコードの練習”というステップがあった場合，後者のステップの方が，ユーザは具体的に何をすれば良いのか分かる場合が多く，従って，高い具体度となると考えられる．また，本研究では，手順ページの具体度は，そこに含まれるステップの具体度によって定まると考える．従って，ある手順ページdiの具体度を求めるためには，手順ページに含まれる各ステップsij∈ diの具体度を求めれば良い． 3. 3 詳細化関係あるステップsiと，あるステップ集合Sj={sj1, . . . sjk}が与えられたとき，ステップsiで記述されている方法の一部もしくは全てが，ステップ集合Sjでより詳細に記述されているとき，「siとSjは詳細化関係にある」と定義し，「Sjはsiを詳細化している」と記述する．例えば，si=“ギターのコード練習”に対して，ステップ集合Sj={“Fコードの練習”, “Gコードの練習”} は，Sjはsiを詳細化していると言える．この詳細化関係を手順ページ集合から抽出することができれば，例えばユーザが“ギターのコード練習”に関するステップを閲覧しているときに，システムが自動的に“Fコードの練習” と“Gコードの練習”に関するステップを推薦することが可能となる．また，詳細化関係にあるステップ集合は要素のステップ同士が類似していると考えられる．さらに，互いに類似するステップは同一手順ページ中では散在せずに，連続して偏在していると考えられるため，あるステップは，他の手順ページ中の連続したステップの集合により詳細化されている，と定義する． 3. 4 具体度と詳細化関係の相互依存性具体度と詳細化関係を求めるため，本研究ではそれぞれ以下の様な仮定をおいた． • 具体度が高いステップは，具体的なステップから多く詳細化されている • あるステップ集合Sjがステップsiを詳細化するとき，Sj 中の各ステップsjl∈ Sjはsiよりも具体的である．前者の仮定は，ステップの具体度を求めるためにはステップ間の詳細化関係を，また，後者の仮定は，ステップ間の詳細化関係を求めるためにはステップの具体度を必要としていることを表している．従って，本研究では具体度と詳細化関係を再帰的に求める手法を提案する．

4. 提案手法

本研究では，具体度と詳細化関係を再帰的に計算する手法を提案する．まず，提案手法の流れについて説明し，その後詳細について述べる． 4. 1 提案手法の概要提案手法の基本的な考え方は，まず，詳細化関係集合を簡潔な手法で求め，その後得られた詳細化関係に基づき各ステップの具体度を計算することで，はじめに得た詳細化関係から不要なものを削除するという考えである．これは，ステップの具体度を，詳細関係を利用せずに直接求めることは困難であるが，詳細関係集合は具体度を直接用いなくとも，テキスト間の類似度を利用することである程度の精度で求めることができるのではないかという考えに基づいている．しかし，単なるテキスト類似度だけでは，どちらがより具体的なステップかが分からないため，本来詳細化関係ではないステップ間についても，詳細化関係であると判定してしまう可能性がある．つまり，ステップ間のテキスト類似度を用いることで，再現率は高いが適合率の低い詳細化関係集合を得ることができる．このようにして求めた精度の低い詳細化関係集合を用いて，各ステップの具体度を計算することで，本来詳細化関係と判定すべきではない関係が発見することができ，適合率を向上することができると考えられる．提案手法では以下のような流れに従い具体度と詳細化関係を求める．

(4)

（1）システムは手順ページ集合D = {d1, d2, . . . , dn}を受け取る．ここで，nはシステムに入力される手順ページ数を表す．（2）すべての手順ページdi∈ Dに含まれる各ステップsについて，詳細化関係集合を発見する．全てのステップs∈ S について得られた詳細化関係集合をマージすることで，詳細化関係集合R0 ₌_{r 1, . . . rm}を得る．ここで，Sは手順ページ集合Dに含まれる全ステップ集合，mは得られた詳細化関係の数を表す．（3）得られた詳細化関係集合R0に基づき，詳細化関係木集合 TR0={tR10, . . . tR 0 n }を構築し，この木に基づき，各ステップsの仮具体度C0 s(s)を計算する．（4）ステップの仮具体度を基に，各詳細化関係ri ∈ R0の詳細度MR0(ri)を求める．minri∈R0M R0 (ri)が閾値以下なら，詳細化関係集合R0からriを除去することでR1を得る．更新された詳細化関係R1から構築された木TR1を元に，再び各ステップの具体度を計算する．（5） 3. 4. を削除するべき詳細化関係riが無くなるまで繰り返し実行することで，詳細化関係集合R∗を得る．（6） R∗から構築された詳細化関係木集合TR∗ から，各ステップsの具体度Cs∗を求める．（7）各ステップの具体度Cs∗に基づき，手順ページd∈ Dの具体度Cd(d)を計算する．以降，それぞれの工程について詳しく述べる． 4. 2 シード手順の発見システムは手順ページ集合Dを受け取ったのち，まず，各ステップsに対して詳細化関係集合を発見する．しかし，詳細化関係は手順と手順集合の関係であるため，全ての手順集合に対して可能な詳細化関係を列挙し，一つ一つテキスト類似度に基づいて正しい詳細化関係であるかを判定することは計算量の点で効率が悪い．そこで，本研究では，シード手順という考えを導入し，あるステップに対してシード手順をまず求め，そこから詳細化関係集合を求める．ある詳細化される手順sdetailedを詳細化するステップ集合 Sdetailがあるとき，Sdetailは同じ手順ページ中に連続して出現している．従って，あるステップsdetailedに対して，非常に類似するステップsjが存在するとき，sjの前後のステップがもしsdetailedやsjと類似していれば，それらはsdetailedを詳細化していると考えられる．このように，まずステップsdetailed と非常に類似するステップを求め，それを基に詳細関係を発見することで，計算量を削減することができると考えられる．このとき，ステップsjをsdetailedのシード手順sseedと呼ぶ．シード手順sseedの発見するために，詳細元となるステップ sdetailedとの類似度を用いる．類似度にはtf-idf値によるコサイン類似度を利用する．本研究では，ステップのtf-idf値を計算する際に，ステップ中に出現する名詞，動詞，形容詞の最上級形を用いた．名詞だけではなく，動詞と形容詞の最上級形を用いた理由は，ステップは動作を表すため動詞が重要であること，wikiHowにおいては“at least”や“lowest”といった，手順の性質を表すのに最上級形がよく用いられているためであ図 2 シード手順の発見る．具体的には，ある単語tiのステップsjにおける出現回数をn(i, j)，ステップsj中におけるすべての単語の出現回数の和を∑_knk,j，入力手順ページ集合に含まれる総ステップ集合をS，S中の単語tiを含むステップをSti と置くと，ステップ

sjにおける単語tiのtf-idf値tfidfi,jは以下の式で定義される．

tfidfi,j= tfi,j· idfi

tfi,j= ni,j ∑ knk,j idfi= log |S| |s : s ∋ ti| いま，ステップsiとsjの類似度を上記のtf-idf値を用いたコサイン類似度で定義すると，sim(si, sj) >_{= θ}1となる時，siはsjのシード手順であると言う(図??)．また，sim(si, sj) = sim(sj, si) であるため，siがsjのシード手順であるならば，同時にsjは siのシード手順である． siのシード手順はsiを含まない全手順ページに対して，0個以上存在する．つまり，siのシード手順が，ある手順ページd 中に複数個存在する場合もある． 4. 3 詳細化手順集合の発見本節では，詳細化ステップ集合Sdetailの発見方法について述べる． ??節で述べた詳細化関係の定義より，Sdetailの要素はシード手順sseed の前後に存在している．そこで，sseed の前後のステップs′seedを1つ1つ取り出して，Sdetialに含まれるかを判定する基準については以下の2点があげられる． • s′

seedがSdetailに追加されるとsdetailedに含まれる単語の被覆度が大きくなる • s′ seedとSdetailが類似している以上2件の要件のどちらかを満たす時，s′seed∈ Sdetailとする．これを実際に求めるアルゴリズムを以下で定義する．まず被覆度について形式化する．ステップsiに含まれる「名詞」「動詞」「形容詞(最上級)」の集合をTiとすると，s1がs2 の単語をどれだけ被覆しているかは，以下の式で表される． cover(s1, s2) = T1∩ T2 T2 またステップ集合 S = {s1. . . sn}中の単語集合 TS = T1∪ T2∪ . . . Tnがs2の単語をどれだけ被覆しているかは， cover(S, s2) = TS∩ T2 TS

(5)

図 3 詳細化関係の発見

と書ける．

したがって，s′seedをSdetailに追加することで増加する被覆度は，s′seed追加後の詳細化ステップ集合をSdetail′ とおくと，次式で表される．

δcover(s′seed, Sdetail) =

cover(Sdetail′ , sdetailed) cover(Sdetail, sdetailed)

− 1

この被覆度と，??節で定義した類似度を用いて，詳細化ス

テップ集合を求めるアルゴリズムを以下に示す．（1） sseedをSdetailとし，sm= sM = sseedとする

（2） δcover(sM +1, Sdetail) >_{= θ}2またはsim(sM, sM +1) >_{= θ}3を満たすとき，sM +1をSdetailの要素とし，sM = sM +1に

更新する．これを前式を満たす限り繰り返す

（3） δcover(sm−1, Sdetail) >_{= θ}2またはsim(sm, sm−1) >_{= θ}3を満たすとき，sm−1をSdetailの要素とし，sm= sm−1に更新する．これを前式を満たす限り繰り返す（4） sm |= sM ならば，ri= (sseed, Sdetail)とする． (4)は，詳細化は複数のステップにより行われるべきで，単一のステップによる詳細化は提案手法では詳細化と定義せず棄却することを意味する．図??に詳細化関係の例を示す．これで基本的な詳細化ステップ集合の求め方は終わりだが，ある手順のシード手順が同手順ページ中に複数存在する場合を考える．仮定によれば，ある手順を詳細化するステップは連続して存在しているので，同手順ページ中に複数の詳細化ステップが存在することは仮定に反する．そこで，以下では複数詳細化ステップをマージする方法を提案する．同手順ページに複数の詳細化ステップが存在する場合，以下の2パターンが考えられるのでそれぞれについてマージの方法を述べる． • 詳細化ステップ集合の範囲が重なっている場合: 詳細化ステップ集合をすべて正しいものとし，要素の和集合を新たな詳細化ステップ集合とする．このマージ方法の実際の例を図??に示す． • 詳細化ステップ集合の範囲が重なっていない場合: 詳細化ステップ集合は1つ以外間違っているとし，各シード手順と詳細元の類似度を比較する．最も高いものを正しい詳細化集合とし，それ以外を棄却する．このマージ方法の実際の例を図??に示す．これを定式化すると次のようになる．（1） sjkのdi中における詳細化関係をRjk0 ={ri10, r0i2. . . r0in} 図 4 詳細化ステップ集合の範囲が重なっている場合のマージ例図 5 詳細化ステップ集合の範囲が重なっていない場合のマージ例とし．rip0 中の詳細化ステップ集合をSp0とおく．（2） Sp0に含まれるステップのindexの最小・最大をspm，s p M とする．（3） R0 jk中から2つの詳細化関係r0i1, ri20 を取り出す．（4） s1m<= s2M, s 2 m<= s1M またはs 2 m<= s1M), s 1 m<= s2M を満たす時，r0i1, ri20 を棄却し，新たな詳細化関係r0xを作成する．（5） sxm= min(s1m, s2m), sxM = max(s1M, s2M)となるようにS0x にステップを格納する．またシード手順と詳細元手順の類似度は高い方を設定する．（6） 4で定義した条件式を満たすものが存在する限り，3から5 の作業を繰り返す（7） R0jkの要素が2つ以上ある場合，シード手順と詳細元手順

(6)

の類似度が最も高い詳細化関係以外を棄却する．以上の作業により，ある手順の詳細化関係ステップ集合は，手順ページ毎に必ず1また0個となるように設定できた． 4. 4 仮具体度の計算前節の手法により，与えられた手順ページ集合から詳細化関係集合R0を得ることができた．しかし，これらはテキスト類似度のみに基づいて得られており，本来は詳細化関係ではないものも多く含むと考えられる．そこで，詳細化関係集合をもとに各ステップの仮具体度を計算し，詳細化関係内の手順間の具体度をみることで，得られた詳細化関係が正しいかどうかを評価する．ステップの具体度を求めるにあたり，本研究では以下の仮定をおいた． • 具体度が高いステップに詳細化されているステップほど具体度が高い上記の仮定に基づいてステップの具体度を求めるため，本研究では以下のアルゴリズムに従って各ステップの具体度を計算する．（1）空の詳細化関係木集合T0= ϕを用意する．（2）全てのステップsi∈ Sに対して，以下を実行する．（a）ステップsiを根とし，詳細化関係集合R0中に，siが詳細化元，sjが詳細化先となっているような詳細化関係があれば，sjをsiの子とする詳細化関係木t0i を作成する．また，sjに対しても同様のことを行い，sjを詳細化元，skが詳細化先となるような詳細化関係があれば，skをsjの子としてtiに追加する．この手続きを幅優先で再帰的に行うことで木にステップを追加していく．この時，閉路あるいは子が複数の親を持つようなエッジが木に追加される場合は，そのエッジを削除する．これは，手続きを幅優先で行うことで決定的に行うことができる．（b）得られた詳細化関係木t0 i をT0に追加する．（3）全ての木tl∈ T0の各ノードsに対して，根を1とするそのノードの深さを求める．（4）各ノードに付与された深さの平均値をそのノード(ステップ)の仮具体度する．すなわち，ある木tl中のあるノード siの深さをdi,lとすると，ステップsiの仮具体度Cs0iは， Cs0i = 1 k ∑ t0 l∈T0di,lとして求められる．ここで，kはステップsiを含む木の数を表す．たとえば，上記のアルゴリズムを図??で表す詳細化関係集合に対して適用すると，この図のステップiの仮具体度は， C0 si= (2 + 1)/2 = 1.5と計算される．このように，上記アルゴリズムは，詳細化されているステップを詳細化しているステップに対して，より高い具体度を付与することができる． 4. 5 不要な詳細化関係の削除前節の手法により，詳細化関係集合中に出現する全ステップに対して仮具体度が求まった．本節では，得られた仮具体度に基づいて，現在得られている詳細化関係集合から不要な詳細化関係を発見し削除する手法について述べる． ??節で述べたように，あるステップ集合Sjがステップsiを図 6 詳細化関係木集合の例詳細化するとき，Sjはsiよりも具体的であると考えられる．そこで，仮具体度を用いて，R0中の各詳細化関係ri= (si, Sj) に対して，詳細化先のステップ集合Sjが詳細化元のステップ siよりもどの程度具体的か計算する尺度として，詳細度Mr0i を以下の式で定義する． Mr0i = ∑ s∈SjC 0 s C0 si 詳細度Mr0i は詳細化先の各ステップの具体度が詳細化元のステップの具体度よりも大きいほど高い値をとる．全ての詳細化関係r∈ R0i に対して詳細度Mr0iを計算し，最も低い詳細度（すなわち，minri∈RM 0 ri）が閾値θ4を下回っていれば，その詳細化関係を詳細化関係集合R0_{から削除し}_R1 を得る．得られたR1を元に，??節および本節で述べた手法を閾値θ4を下回る詳細化関係がなくなるまで繰り返し適用していくことで，詳細化関係集合R∗を得ることができる．最後に， R∗に基づいて各ステップsiの具体度Cs∗iを求めることで，詳細化関係集合とステップの具体度を求めることができる． 4. 6 手順ページの具体度の計算最後に，得られたステップの具体度に基づいて，手順ページの具体度を計算する．本研究では，手順ページdの具体度Cd を，d中に含まれる各ステップの具体度の平均値として求めた．具体的には，手順ページdの具体度Cdは，d中の具体度が定義されているステップ集合Sdとそのステップ数ndを用いて Cd= 1 nd ∑ s∈Sd Cs∗ として計算する．なお，本手法は手順ページ中のどのステップに対しても詳細化関係がないような手順ページに関しては，具体度を計算することができない．そうした手順ページに対する具体度の計算は今後の課題である．

5. 実

験

本節では，本研究で行った実験の概要とその結果について述べる． 5. 1 実験設定提案手法の有効性を検証するため，「ギターの上達」に関する wikiHow中の16手順ページを人手で用意した．16ページ中に存在する総ステップ数は304個であった．まず，用意した手順ページ集合を対象に，著者らが人手で詳細化関係を用意した．また，手順ページの具体度をそれぞれ5段階で評価した．なお，今回用意した16手順ページ中に存在した詳細化関係は31個であった．

(7)

単語の抽出および品詞推定には，Natural Language Toolkit（注 3）_{を用いた．また}_??_{節で用いた閾値はそれぞれ，} θ1 = 0.2, θ2 = 0.2, θ3 = 0.25と設定し，??節で用いたθ4 には閾値を設定せず，すべての詳細化関係が削除されるまでの，詳細化関係の精度と手順ページの具体度によるランキング精度を検証した． 5. 2 評価尺度得られた詳細化関係の精度評価には以下の尺度を用いた． • 再現率: システムが抽出した詳細化関係集合において，正解のステップ集合の要素を1つでも含んでいるSdetailの数をx，人手で用意した全詳細化関係の数をyとして，次式で再現率Rを定義した． R = x y これは，詳細化関係にあるステップ集合を推薦する際，手法が取得した詳細化ステップ集合と正解のステップ集合が完全に一致していなくても要素が1つでも一致していれば実用上の問題はないという考えに基づいている． • 適合率: まず，システムが抽出したある詳細化関係

ri = (sdetailed, Sdetail)に対する適合率scoreri を定義す

る．いま，zをSdetail中のsdetailedに対する正解詳細化関係ステップ数とするとき，scoreriを scoreri = z |Sdetail| として求める．システムが抽出した詳細化関係集合Rに対する適合率Pを，以下の式で計算する． P = ∑ ri∈Rscoreri |R| この適合率は，上記で述べた再現率とトレードオフの関係になっている． • F 値: 適合率Pと再現率Rの両者を考慮した評価値として，F 値を用いた．F 値は以下の式で定義される． F = 2P R R + P 次に，具体度に基づく手順ページのランキングには以下の評価指標を用いた． • nDCG: 具体度の評価には nDCG（normalized

Dis-counted Cumulative Gain）を用いて行う．手順ページ

diの前項で定めた5段階評価値をG[i]とし，提案手法が算出した具体度の高い順番にランキングされた手順ページ系列D′= [d′1, d′2. . . d′n]に対して，DCGは次のように計算される． DCG = ∑n i=1G[i] log₂(i + 1) これに対して，理想的な順番(実際に具体度の高い順番) に並べたときのDCGの値をiDCGとしてiDCGでDCG を正規化した値 nDCG = DCG iDCG を評価値として手順ページの具体度を評価する．（注 3）：http://www.nltk.org/ 図 7 不要な詳細化関係の削除による再現率・適合率・F 値の変遷 図 8 具体度に基づく手順ページランキングの精度 5. 3 実験結果まず，詳細化関係の精度について述べる．図??は具体度に基づく不要な詳細化関係の削除を行うことで，システムが抽出した詳細化関係の精度がどのように変化したのかを表す図である．図中のx軸は横軸は詳細化関係を削除した回数，また，y軸の赤線は再現率，青線は適合率，黒線はF値を表している．図?? では詳細化関係が0個になるまでの変遷を表している．図??の左端の再現率を見ると，??節，??節の手法で取得した詳細化関係の再現率は0.4程度であることが確認できる．また，不要な詳細化関係を削除していくことで，適合率が上昇していることも分かる．不要な詳細化関係を削除することで，再現率も減少してしまうものの，詳細関係の削除を行っていくことでF値も向上していることが分かる．次に具体度に基づく手順ページのランキングの評価結果を図??に示す．図中のx軸は詳細化関係を削除した回数．y軸は nDCGを表す．図??より，詳細化関係の削除を行うことで，ランキングの精度が向上していることが分かる．具体的には，詳細化関係を始めて抽出した際（x軸の左端）のnDCGが0.77 なのに対して，詳細化関係のF値が最大となった削除回数時のランキングは，0.84であることが分かる．このことは，精度の高い詳細化関係を抽出することで，手順ページの具体度の推定精度も向上するということを示唆している．

(8)

5. 4 考察最後に，今回の実験から得られた結果について考察を行う．図??にあるように，詳細化関係の削除により詳細化関係の抽出精度は向上しているものの，その精度は最大でもF値で0.188 と高い精度とは言えない結果となった．提案手法の性質上，不要な詳細化関係の削除により再現率はが向上することはないため，??節，??節で詳細化関係を取得する手法を改善する必要がある．改善の方法として挙げられるのは，ステップ間の類似度判定の手法である．本研究における提案手法では，ハウツー検索であるということを考慮して，通常の検索とは違い，名詞だけでなく行動に関わる動詞なども注目して類似度を計算した．しかし，より高精度に詳細化関係を抽出するためには，品詞だけではない情報を利用して類似度を計算する必要があると考えられる．また，本研究の実験では，詳細化関係の削除を停止する閾値を設定せずに，実験結果の評価を行った．しかし，実際に本提案手法をシステムに適用するためには，具体的な閾値を設定する必要がある．そのためには正解データのみではなく，多くの学習データからこの値を上手く設定する必要がある．不要な詳細化関係の削除による，具体度に基づく手順ページのランキングは一定の効果を示すことができたと考えている．例えば「ギターの練習方法」という手順ページは具体度が低いことが予想されるが，類似度だけでは詳細化されるステップもするステップも多く持ってしまうため，削除を行う前では3位にランキングされていた．しかし，詳細化関係の削除を行うことで，F値が最大となった時点では13位にランキングされ，ランキングの精度が向上したということが分かった．さらに「ギター譜の読み方」といったページ具体度の高いページも提案手法によりランキングが9位から1位に向上したことも確認できた．一方で，「ギターのスケールの学び方」という具体度が高いページがF 値最大の時点で最下位にランキングされることもあった．この手順ページは，F値が最大値になる直前までは上位にランキングされており，削除回数が170前後でnDCGの値が急激に落ちているのはこれが原因だと考えられる．このように，間違った削除を行ってしまうタイミング見極めるためにも，閾値の設定は必要であると考えられる．

6. まとめと今後の課題

本研究では，ハウツー検索のための手順ページの具体度およびステップ間の詳細化関係を求める手法を提案した．提案手法では，ステップの具体度と詳細化関係が互いに依存していることに注目し，再帰的なアルゴリズムを用いることで，それぞれを求める．最終的にステップの具体度を元に手順ページの具体度を求めることで，手順ページの具体度を求める．実験結果から，提案手法による詳細化関係の削除により，具体度に基づく手順ページのランキング精度が向上することを確認できた．一方で，詳細化関係の抽出精度は高いとはいえず，さらなる改善が必要であることも分かった．今後は，詳細化関係の取得アルゴリズムを改良し，取得出来る詳細化関係の再現率を向上させる手法や，不要な詳細化関係削除の最適な閾値の設定方法について取り組む予定である．謝辞本研究の一部は，文科省科研費基盤(A)「多元的検索要求に対応できるオンラインデータマイニング検索方式の研究」（15H01718，研究代表者：田中克己）によるものです．ここに記して謝意を表します．

ページの階層構造に基づく具体度・詳細度を考慮した手順情報の検索

DEIM Forum 2016 G6-5