第3章 行政文書として管理すべき文書の選別手法の提案
3.2 研究手法
3.2.3 算出したコサイン類似度の特性
一連の手順で算出したコサイン類似度は文書のタイトルに含まれる単語に基づき算出し たものであり、コサイン類似度が大きくても文書の内容が一致しているとは限らない。そ こで、行政機関①に保管されている各文書の組合せとコサイン類似度の値を整理した。こ こで、一例としてコサイン類似度が 0.8 となった文書の組合せを図 3-2-3 に示す。図 3-2-3 の事例 1 では、a,b 各文書のタイトルを構成する語の送り仮名の付け方が異なっているが、
2 つの文書の内容は一致している。事例 2 では、文書 c が歳入歳出外現金の計算に関係する 書類全般を集約しているのに対し、文書 d はこれらの書類の一つである歳入歳出外現金出 納計算書に限定しており、両文書の集約範囲は厳密には一致していない。事例 3 では、文 書 e が行政監査プログラムとその運営方針に関係する資料を集約範囲としているのに対し、
文書 f は同プログラムとその監査資料を集約範囲としており、両文書の集約範囲に共通す る部分は多いものの完全には一致していない。事例 4 では、g,h いずれの文書も規程・要領・
指針等(以下、「規程等」)を集約する点で類似しているが、文書 g が通信業務に関係する 規程等を集約するのに対し、文書 h は観測業務に関係する規程等を集約することから、両 文書の内容は全く異なるものとなっている。このようにコサイン類似度が同じ値の組合せ であっても、2 つの文書の内容が一致する組合せ(以下、「一致」)のほか、一方の文書が他 方を内包する関係にある組合せや両者の一部のみが共通する組合せ(以下、「部分一致」)、
タイトルを構成する単語がほぼ同じであるにもかかわらず文書の内容が全く異なる組合せ
(以下、「不一致」)がある。
図 3-2-4 は、行政機関①における各文書の比較事例に基づき、コサイン類似度の各値の 組合せの中に「一致」「部分一致」「不一致」のそれぞれの組合せが占める割合を集計した ものである。図 3-2-4 が示すとおり、コサイン類似度の値が大きくなるほど、比較した文 書の内容が「一致」又は「部分一致」となる組合せが占める割合も大きくなる。しかし、
例えば、コサイン類似度が 0.9 を超える組合せの中にも「不一致」の組合せはあるため、
1つ1つの文書に注目してそれらの一致・不一致を判定する指標としては、完全なものと は言えない。文書間の類似度をコサイン類似度の値に適切に反映させるために、筆者は以 下の改善点を挙げる。
49
(1)管理簿への文書記載時に生じた誤植や表記揺れの補正
図 3-2-3 の事例 1 にも示したとおり、文書を管理簿に記載する際に生じた誤植や表記揺 れにより、実際には文書の内容が一致しているにも関わらず、コサイン類似度の値が小さ くなる事例がある。想定される誤植や表記揺れについて、管理簿に記載された文書を集計 するタイミングで補正しておくことで、文書間の類似度を適切に反映した値に近づくと考 える(図 3-2-3 の事例 1 の場合、文書 b のタイトルを「取り扱い要領」→「取扱要領」に 補正しておくことで、内容が一致している文書 a との間のコサイン類似度の値は 1 となる)。
(2)コサイン類似度の算出に用いる単語の選定
前述のとおり、コサイン類似度は文書のタイトルに含まれる単語に基づき算出したもの であり、文書間の類似度を適切に反映させるためには、コサイン類似度の算出に用いる単 語を適切に選定しなければならない。現在、ベクトルの次元が概ね 300 次元程度になるよ うに、全文書の中から出現回数が多い順に 300 語程度を選定しているが、これらの単語の 中には「業務」「関係」など、文書の内容には直接関係しない語も含まれており、コサイン 類似度の値にこれらの語の存否が影響を与えている。一方、文書の内容を特徴づける単語 でありながら出現回数が少ないためにコサイン類似度の算出に用いられていない単語もあ る。コサイン類似度は算出に用いる単語を適切に選定することで、文書間の類似度をより 適切に反映した指標になり得る。
50
図 3-2-1 行政機関①・②の各課室が保管している行政文書数
注)主に事務を所掌する課室(行政機関①では A,B,C 課、行政機関②では I 課)の文書が 部局全体の 7 割を占める。行政機関①-部局 3 については、当該部局が設置されている地 域の実情により D,E,G 課が存在しない。
51
図 3-2-2 コサイン類似度の算出手順
注)2 つの文書のタイトルに共通する単語が全く含まれない場合、対応する 2 つのベクトル の内積(A・B)は 0 となり、コサイン類似度は 0 になる。一方、2 つの文書のタイトル が全く同じである場合、対応する 2 つのベクトルは全く同じ値となり、コサイン類似度 は 1 になる。コサイン類似度は 0 から 1 の値をとり、1 に近いほど 2 つの文書のタイトル はより類似していると判断できる。
52
表 3-2-1 行政機関①・②で保管される文書のタイトルに含まれる単語一覧
(上位 20 語を抜粋)
注)各行政機関に固有の業務とは直接関係しない単語も多く含まれている(例えば、業務、
関係、物品、管理等)。本章で算出するコサイン類似度はこれらの単語の有無の影響を受 ける。一方、文書の内容を特徴づける単語でありながら出現回数が少ないためにコサイ ン類似度の算出に用いられていない単語もある。コサイン類似度は算出に用いる単語を 適切に選定することで、文書間の類似度をより適切に反映した指標になり得る。
53
図 3-2-3 コサイン類似度が 0.8 となる文書タイトルの組合せ事例
注)コサイン類似度が 0.8 の組合せの中にも、文書の内容が一致する事例 1、部分一致の事 例 2,3、不一致の事例 4 がある。個々の文書間のコサイン類似度の値がそれらの文書の内 容の類似性を保証するものではない。
図 3-2-4 コサイン類似度の各値においてファイルの内容の
「一致」「部分一致」「不一致」の各組合せが占める割合
注)コサイン類似度が 0.8~0.84 の組合せ(955 組)のうち、内容が一致(又は部分的に一 致)する組合せが占める割合は 39%(377 組)である。この組合せが全体に占める割合は、
コサイン類似度が 0.85~0.89(595 組)になると 67%(400 組)まで上昇する。
54