第3章 行政文書として管理すべき文書の選別手法の提案
3.3 行政機関の各課室が保管する文書群の間の類似度の算出
54
55
行政機関②についても、各課室間の類似度を算出した(表 3-3-2)。ここでも、課室間の 類似度の平均が 0.46、標準偏差が 0.22 であることを踏まえ、平均以上の比較的高い値に着 色して表示した。行政機関②についても同様に、同一の部局内で異なる業務を所掌する課 室よりも、異なる部局において同種の業務を所掌する課室との間で類似度が大きくなる傾 向があった(表 3-3-2 中の太枠部分)。
3.3.3 コサイン類似度を利用した文書間の類似度の測定結果
筆者は、文書間の類似度を測る指標としてコサイン類似度を使用し、評価対象とした行 政機関内の各課室が保管している文書間の類似度を測定した。コサイン類似度の算出過程 については、管理簿への記載時に生じる誤植や表記揺れの補正方法のほか、コサイン類似 度の算出に用いる単語の選定方法において改善すべき点があるが、コサイン類似度が大き な文書の組合せほど内容が一致する割合が増えるという結果を得た。この結果から、コサ イン類似度が文書間の類似度をある程度反映する指標として有用であることを示した。
次に筆者は、コサイン類似度を利用して各課室が保管する文書群の間の類似度を測定し、
異なる部局において同種の業務を所掌する課室の間で類似度が大きくなる傾向があること を明らかにした。行政機関①、②に共通するこの傾向は、異なる部局であっても同種の業 務を所掌する課室にはタイトルが良く似た文書が多く保管されており、自課室の管理簿に 追記すべき行政文書の選定や管理簿(及び共有フォルダ)の構成について再検討を行う際 の参考になることを示唆するものである。
56
図 3-3-1 各課室が保管する文書群の間の類似度の算出手順
注)X 課と Y 課の文書数が大きく異なる場合、上記の手順では類似度が小さくなる傾向があ る。例えば、X 課の文書数>>Y 課の文書数の場合、X 課の各文書にとって比較対象の Y 課 の文書数が非常に少なく、手順 2 で算出するコサイン類似度の最大値が小さいものが必 然的に多くなる。逆に Y 課の各文書にとって比較対象の X 課の文書数が非常に多くなり、
手順 2 で算出するコサイン類似度の最大値が大きくなる傾向がある。この不均衡を是正 するため、手順 3 で全ての最大値の平均値を算出しているが、文書数が多い X 課の値を 多く含むため、類似度が小さく算出される。
57
表 3-3-1 各課室が保管する文書群の間の類似度(行政機関①の場合)
表 3-3-2 各課室が保管する文書群の間の類似度(行政機関②の場合)
58