横断的読書による知識構造化支援システム

(1)

横断的読書による知識構造化支援システム

A System to Support for Acquiring Knowledge from Various Texts

榎本崇志

1∗

_{笹倉万里子}

1

Takashi Enomoto

1

_{Mariko Sasakura}

1 1

_{岡山大学大学院自然科学研究科}

1

_{Graduate School of Natural Science and Technology, Okayama University}

Abstract: In this paper, we discuss a method to acquire knowledge from various texts. It is better when we acquire knowledge from more than one sources that stands on various point of view than from a single one. However, it is not so easy for us to collect appropriate information of specific amount for a specified topic and find relations among them. Therefore we propose a method and a system which assists users for it. The system estimates a user’s level of knowledge for a specified topic and represents appropriate texts to read.

1 はじめに

近年情報化社会はますます進んでおり，インターネットを介して簡単に誰しもが情報を得ることができるようになった．しかし，得られた情報を自身の知識として結びつけ，構造化することは難しい．なぜならば，各情報はどれも発信者自身の体験に基づくことが多く，閲覧者の背景や環境と一致する情報であることは多くないからである．また，発信者によって情報に偏りが発生する可能性もあるだろう．しかし，複数の情報を比較し，自身の経験をもとに判断することで偏りを取り払い，自身で再構成して知識となるのではないだろうか．ある情報に対して，異なる背景を持つ情報を比較し，ユーザ自身の経験と照らし合わせ，情報を分析することで自身の知識として情報を結びつけ，構造化することができるだろう．本研究では情報源として用いる実用書などの書籍を扱い，情報を構造化するために複数の書籍を読みながら比較する支援方法を提案し，システムの枠組みを提示する．２節では，書籍を題材として扱う理由を述べ，その特性から必要な支援について議論する．３節では，どのような情報を提示し，どのようなタイミングで提示するかについて述べる．最後の 4 節にて本研究の課題や展望を述べる．以下，本稿で「書籍」とは著者の経験によって書かれた実用書を示す．つまり，小説などストーリーが目的のものではなく，知識として活用するために利用する本を「書籍」と呼ぶ． ∗_{連絡先：岡山大学自然科学研究科 (工) HCI 学研究室} 〒 700-8530 岡山市北区津島中 3-1-1 E-mail: [email protected]

2 横断的読書と知識構造化

書籍に含まれる情報は，ウェブページの記事に含まれる情報と比べて，最新情報は少ないが校閲され確実性の高い情報が記載されている場合が多い．一般にウェブページの記事では，項目ごとに記載するため情報量は少ないが，最新の情報について得ることができる．一方で書籍は体系的にまとめられているため，体験談や理由，動機などが記載してあり，読者も追体験しながら学習することができる．それゆえに情報量もはるかに多く，タイトルや目次からその書籍が自分にとって適切かどうか判断するのは難しい．一般に書籍を横に並べて同じ項目（例えば同じ目標に対する具体例）を比較しながら読むことは少ないだろう．書籍は著者の経験や知識から書かれており，著者が変われば表現方法や伝えたい事項の優先順位など同じ項目を扱っている書籍でも様々である．さらに，読む側にとっても必要な情報はそれぞれであろう．それゆえに，たくさんの書籍がある中で求める情報を適切な表現で受け取ることができる書籍を探すことは容易ではない．長尾によると，思想と言われるのものは，基本的な考え方から出発してその考え方をより深く精密なものにすると共に，より広くし１つの大きな体系としたものを指す．先人の考え方の上に立ち，またこれを批判的に受け入れ，自分のものの考え方，置かれた立場，またその時の社会の状況等から新しい考え方を展開して行くことによって新しい思想が形成されてゆく [3]. 幾つかの書籍を読み，比較することは，その意図を確認しつつ自身に適した知識へと昇華させるには必要なプロセスであろう．もちろんたくさんの経験を積み，知人工知能学会研究会資料 SIG-ALST-B502-01 − 1 −

(2)

識を固めることも重要であるが，先人の知恵が詰まった書籍から情報を得ながら経験を積むほうが非常に効率的であり，また，自身の経験では気付くことのできない発見もあるだろう．幾つかの書籍を読むことを一般的には多読と呼ぶ．本研究でもたくさんの書籍を参照することになるが，書籍間を読みながらにして参照することを重視していることから，同系列の複数の書籍を同時に参照することを本研究では横断的読書と呼ぶ．また，ある書籍から別の書籍へと書籍を読み替えることを遷移と呼ぶ．横断的読書を扱うために発生する大きな問題は以下の 3 つである． (1) 対応する情報が別の書籍のどの部分にあるかわか らない (2) 現在の書籍より内容が高度または低度の書籍が簡 単に探せない (3) 著者による言葉の定義や活用方法が異なる (1) についてはある情報アクセスの単位が書籍の中でどのような役割を担っているかタグ付けする必要がある．情報アクセスの単位とは，得たい情報を得るための最小の情報量である．この役割を分析するためには，文書構造やレイアウト情報をもとに論理構造を抽出する必要がある．加藤らは構造を持つ文章の例として論文を扱い，論理構造の抽出を実現するための枠組みとコーパスを提示した [1]．本研究では，書籍に対する情報アクセス単位を節単位として扱う．節単位の情報をテキストデータマイニングのための統合環境である TETDM1 にて, キーワード抽出を行い，論理構造の位置付けや関連付けは手作業で行う．(2) については書籍のメタデータとして内容の難易度を 5 段階の情報で付加する．(3) については，別の書籍へと遷移した後に出てくる単語について，その定義部分を参照する．定義部分はその単語が新出の時に記載されているので，その語句が遷移先の書籍において新出である部分を抜き出し，提示することによって対応する．

3 ユーザ支援

3.1 方針

２節で述べた横断的読書によって複数の書籍からの情報を自身で知識として構造化するための支援についてこの節で述べる．知識の構造化の支援にあたって，他の書籍と表示している書籍を比較する．ユーザ支援は，以下の２段階を考える． (1) ユーザにとって適切な難易度の書籍を推薦する． 1_{http://tetdm.jp/pukiwiki/index.php} (2) ユーザが読んでいる節に対して，比較することが できる別の書籍の節情報を提示する．まず，ユーザに適切な難易度の書籍を推薦するためのユーザ情報の推定について述べ，その後節情報をどのように提示するかについて述べる．ユーザ情報推定ユーザに適切な情報を提示するにあたって，ユーザがどのようなレベルの知識を有していて，どのような内容の難易度を持つ情報が適切であるか推定する必要がある．一般に内容が難しく感じる時より，簡単と感じる時の方が，読む早さは早くなるだろう．これをもとに本研究では，ユーザにとって適切な内容の難易度を，読んでいる部分のメタデータとして付与された 5 段階の難易度と読む速さから推定する．しかし，読む速さは日本語の書き方によって変わるため，日本語の難易度推定を用いて基準値を定める．．書籍の読みやすさを「帯 2[6]」を用いて日本語の難易度を推定する [2]．「帯 2」は日本語の教科書をコーパスとして文書をどのレベルの教科書に近いか尤度推定を行う．本システムでは，そのランク付けをもとに一定文字数あたりの読む速さの基準値を設ける．文章を読む速さには個人差があるが，ここではそれを考慮せず一定の値として用いる．情報提示方法本システムでは，遷移先となる適切な書籍の節を提示するときに，情報欲求の段階を考慮する，情報欲求とは，情報を得たいと感じることである [9]．奥村らによって，Taylor の情報欲求の 4 段階の分類 [8] に顕在化していない欲求を付け加えて 5 つのレベルとし，さらに「問題」を「要求」と捉え，調整済みの欲求における「問題を解決するために必要な情報の情報源が同定」を「要求を満たすために必要な手段が同定」とした以下の情報欲求 5 つの段階モデルが提示されている [5]． 1. 潜在的要求 :要求を認識していないが，提示されれ ば顕在化する状態 2. 直観的要求 :現状に満足していないことは認識して いるが，それを具体的に言語化して上手く説明できない状態 3. 顕在的要求 :頭のなかでは要求を整理できるが，あ いまいな表現やまとまりのない表現でしか言語化できない状態 4. 形式化された要求 :要求を具体的な言語表現で言語 化できる状態 5. 調整済み要求 :要求を満たすために必要な手順が同 定できるくらい要求が具現化された状態 − 2 −

(3)

現状の不満や問題を解決するためには, 人々の要求内容を明確にする手段と明確になった要求を充足する簡便な手段を提供する必要がある．つまり, 上記モデルにおいて 1 から 5 へレベルを向上させる方法と，ある程度明確になったレベルにおいて要求を満たすための手順が必要である．レベルを向上させる手法については，書籍を扱っているため，そのまま読むことで，要求を満たすための手段を得ることができるだろう．段階が 1 や 2 のように要求が明確になっていない状態で沢山の遷移先を候補に出しても判断できる状態に無いことが想定できる．ゆえに，段階が低いほどシステムで遷移先を限定し，高いほど遷移先を自由にユーザ判断し遷移するよう遷移先候補を提示する．ユーザはシステムによって提示された情報で，別の書籍のほうが難易度が適切であると判断したり，比較すべき情報であると判断しなくてはならない．そのため，提示する情報はユーザが判断するために必要な情報を含んでおり，読みながらでも把握できる文量でなければならない．また，提示される情報は複数あり，たくさん並べて表示する必要があるので，本研究では節の情報をカード状にまとめて表示する．読みながらでも把握し判断できるようにするために，節ごとを抜き出すのではなく，節の概要を抜き出しカードに表示し，カードをクリックすることで全文表示する．また，概要だけでは判断するのは難しいので，難易度情報や節の論理構造の位置付けを表示する．さらに，書籍間の遷移を行うために，カードに対してダブルクリックすることによって該当する書籍の節へと遷移する．レイアウトに関しては，ユーザにとってまず読むことが第一であり，遷移や比較はその次となる．ゆえに，読む邪魔にはならないが，読む手が止まった時に自然に視野に入る必要がある．

3.2 システム概要

書籍間の遷移では，関連の書籍の節をどのようにカードに表示し，どのようなレイアウトやインタラクションで行うべきかについて検討をする．以下，書籍とレイアウト，表示方法について順に述べていく．書籍については，プレゼンテーションに関する電子書籍を 4 冊選び題材とする．それぞれの書籍は，網羅的な書籍，一部に強く焦点をおいた書籍，網羅的な訳本，テクニックが主の簡単なハウツー本と意図的に種類が異なるものを集めている．これらの書籍に対して，節ごとに TETDM のテキスト評価のモジュールにて分析し，「主役」と「主題」，「最重要文」を抜き出した（表 1）．結果のうち，「主題」を別書籍間の節の関連づけに用い，「最重要文」はその節の概要としてシステムでは扱う．レイアウトについては，読む書籍の文章を大きく，カードは常に目に入るように右側に並べて表示することで，書籍を読むことに集中でき，かつ自然にカードが視野に入るレイアウトとした (図 1)．図 1 では，左側に書籍の文書を，右側にカードを表示している．カードの一番上は，現在表示している部分の節のキーワードとが概要を表示し，それ以外のカードは，関連する他の書籍の節の概要を表示している．一番上のカードには現在読んでいる節のキーワードや概要が表示されるので，ユーザは現在の節の情報を把握することができる．本研究では，読む部分を画面の 70%，カード部分を残りの 30%としている．現状では 13.3 インチ（2560 x 1600）の画面サイズを基準に作成しているが，タブレットやスマートフォンといった携帯端末となると，提示方法を新たに考える必要があるだろう．インタラクションについては，カードをシングルクリックすることで，節の概要表示から節の全文表示へと切り替わる．さらに，ダブルクリックでカードに表示されていた書籍の節へと遷移する．クリックではインタラクション数が増加するが，分量が変化し，カードのサイズが変化するため，クリックなどユーザの意図的な操作が必要なインタラクションとしている．

4 おわりに

同系統の複数の書籍を関連付け，ユーザの状態に合わせて関連する遷移先を提案することで横断的読書を支援するシステムの枠組みを提示し，必要な支援について述べた．書籍間の遷移について現在実装を進めている．また，提案した枠組みのほとんどが構想段階であり，今後以下の課題を検討していかなければならない．本研究では，プレゼンテーションの関係について 4 冊を題材とし検討中である．今後はさらに増やして検討する必要がある．日本語の難易度については帯をはじめとして様々な研究が行われている [2, 6]．しかし，内容自体の難しさについてまで言及しているものは少ない．西原らは Web ページの難易度について，特徴語の難しさを出現度の低さと捉え，取得した Web ページ集合から特徴語が含まれる割合から評価している [4]．この研究では Web ページ集合を母数としているが，題材として扱う書籍全体を母数とし，特徴語が含まれる割合で評価する場合でも応用可能かどうか検討する必要がある．

参考文献

[1] 加藤恒昭, 岩月憲一, 山口和紀:文書構造に基づく対話的情報アクセスにむけて, 人工知能学会イン − 3 −

(4)

表 1: プレゼンテーションに関する書籍 1[10] と，異なるプレゼンテーションに関する書籍 2[7] の一部を TETDM で分析した例主題最重要文書籍1 プレゼンテーション,的, 明らか,企画,情報切なことは常ごろから、これからかかわるプレゼンテーションに対して、その的や標をあいまいにせず、分にいい聞かせると同時にスタッフ全員に明らかにしておくことである。書籍1 構成話題結論本題メッセージそのためにはこれから伝えようとするメッセージや話題を厳選して適切な順序に並べる作業が必要で、構成とはまさにこのことをいう。書籍2 前提論理提案顧客必然たとえば営業マンが「Ａ社は重要顧客なので、この取引は行うべきです」と提案した場合、彼の頭のなかには、Ａ社は自社の主要取引先で、業界のリーディングカンパニーで、将来もずっと市場で今のポジションを占めていて、自社に対して今の発注量を維持してくれる……という多くの暗黙の前提がある。書籍2 全体フレームワーク責任言葉（１）漏れをなくす既製のフレームワークを数多く覚えておけば、いろいろな場面に適用できるのだが、ありとあらゆる状況で議論の全体像を把握し、相手を説得しようとした場合、既成のフレームワークに従うというアプローチだけではこころもとない。図 1: システム画面のレイアウト例タラクティブ情報アクセスと可視化マイニング研究会 (第 10 回), pp. 1–8 (2015) [2] 近藤陽介, 松吉俊, 佐藤理史: 教科書コーパスを用いた日本語テキストの難易度推定, 言語処理学会, 第 14 回年次大会発表論文集，pp. 1113–1116 (2008) [3] 長尾真: 未来の図書館を作るとは, 達人出版会, pp. 1–2 (2015) [4] 西原陽子, 砂山渡, 谷内田正彦: Web ページの難易度と学習順序に基づく情報理解支援システム, 電子情報通信学会論文誌, D, Vol. J89–D, No. 9, pp. 1963–1975 (2006) [5] 奥村明俊, 安藤真一, 西沢俊広: コミュニケーションエージェントによるメッセージ理解とモバイル情報提供, 第７回情報科学技術フォーラム, https://www.ipsj.or.jp/10jigyo/fit/fit2008/ fit2008program/html/event/pdf/A8 okumura.pdf (2008) [6] 佐藤理史: 均衡コーパスを規範とするテキスト難易度測定, 情報処理学会論文誌, Vol. 52, No. 4, pp. 1777–1789 (2011) [7] 高田貴久: ロジカル・プレゼンテーション，英治出版株式会社 (2015)

[8] Taylor, R. S.: Question-Negotiation and Infor-mation Seeking in Libraries, College and Re-search Libraries, Vol. 28, No. 29, pp. 178-194 (1968) [9] 徳永健伸: 言語と計算 5 情報検索と言語処理, 東京大学出版会, pp3–5 (1999) [10] 脇山真治:プレゼンテーションの教科書第三版, 日経ＢＰ社 (2015) − 4 −

横断的読書による知識構造化支援システム