横断的読書による知識構造化支援システム
A System to Support for Acquiring Knowledge from Various Texts
榎本 崇志
1∗笹倉 万里子
1Takashi Enomoto
1Mariko Sasakura
1 1岡山大学 大学院 自然科学研究科
1
Graduate School of Natural Science and Technology, Okayama University
Abstract: In this paper, we discuss a method to acquire knowledge from various texts. It is better when we acquire knowledge from more than one sources that stands on various point of view than from a single one. However, it is not so easy for us to collect appropriate information of specific amount for a specified topic and find relations among them. Therefore we propose a method and a system which assists users for it. The system estimates a user’s level of knowledge for a specified topic and represents appropriate texts to read.
1
はじめに
近年情報化社会はますます進んでおり,インターネッ トを介して簡単に誰しもが情報を得ることができるよ うになった.しかし,得られた情報を自身の知識として 結びつけ,構造化することは難しい.なぜならば,各情 報はどれも発信者自身の体験に基づくことが多く,閲 覧者の背景や環境と一致する情報であることは多くな いからである.また,発信者によって情報に偏りが発 生する可能性もあるだろう.しかし,複数の情報を比 較し,自身の経験をもとに判断することで偏りを取り 払い,自身で再構成して知識となるのではないだろう か.ある情報に対して,異なる背景を持つ情報を比較 し,ユーザ自身の経験と照らし合わせ,情報を分析す ることで自身の知識として情報を結びつけ,構造化す ることができるだろう. 本研究では情報源として用いる実用書などの書籍を 扱い,情報を構造化するために複数の書籍を読みなが ら比較する支援方法を提案し,システムの枠組みを提 示する.2節では,書籍を題材として扱う理由を述べ, その特性から必要な支援について議論する.3節では, どのような情報を提示し,どのようなタイミングで提 示するかについて述べる.最後の 4 節にて本研究の課 題や展望を述べる. 以下,本稿で「書籍」とは著者の経験によって書か れた実用書を示す.つまり,小説などストーリーが目 的のものではなく,知識として活用するために利用す る本を「書籍」と呼ぶ. ∗連絡先:岡山大学自然科学研究科 (工) HCI 学研究室 〒 700-8530 岡山市北区津島中 3-1-1 E-mail: [email protected]2
横断的読書と知識構造化
書籍に含まれる情報は,ウェブページの記事に含ま れる情報と比べて,最新情報は少ないが校閲され確実 性の高い情報が記載されている場合が多い.一般にウェ ブページの記事では,項目ごとに記載するため情報量 は少ないが,最新の情報について得ることができる.一 方で書籍は体系的にまとめられているため,体験談や 理由,動機などが記載してあり,読者も追体験しなが ら学習することができる.それゆえに情報量もはるか に多く,タイトルや目次からその書籍が自分にとって 適切かどうか判断するのは難しい. 一般に書籍を横に並べて同じ項目(例えば同じ目標 に対する具体例)を比較しながら読むことは少ないだ ろう.書籍は著者の経験や知識から書かれており,著 者が変われば表現方法や伝えたい事項の優先順位など 同じ項目を扱っている書籍でも様々である.さらに,読 む側にとっても必要な情報はそれぞれであろう.それ ゆえに,たくさんの書籍がある中で求める情報を適切 な表現で受け取ることができる書籍を探すことは容易 ではない. 長尾によると,思想と言われるのものは,基本的な 考え方から出発してその考え方をより深く精密なもの にすると共に,より広くし1つの大きな体系としたも のを指す.先人の考え方の上に立ち,またこれを批判 的に受け入れ,自分のものの考え方,置かれた立場,ま たその時の社会の状況等から新しい考え方を展開して 行くことによって新しい思想が形成されてゆく [3]. 幾 つかの書籍を読み,比較することは,その意図を確認 しつつ自身に適した知識へと昇華させるには必要なプ ロセスであろう.もちろんたくさんの経験を積み,知 人工知能学会研究会資料 SIG-ALST-B502-01 − 1 −識を固めることも重要であるが,先人の知恵が詰まっ た書籍から情報を得ながら経験を積むほうが非常に効 率的であり,また,自身の経験では気付くことのでき ない発見もあるだろう. 幾つかの書籍を読むことを一般的には多読と呼ぶ.本 研究でもたくさんの書籍を参照することになるが,書 籍間を読みながらにして参照することを重視している ことから,同系列の複数の書籍を同時に参照すること を本研究では横断的読書と呼ぶ.また,ある書籍から 別の書籍へと書籍を読み替えることを遷移と呼ぶ. 横断的読書を扱うために発生する大きな問題は以下 の 3 つである. (1) 対応する情報が別の書籍のどの部分にあるかわか らない (2) 現在の書籍より内容が高度または低度の書籍が簡 単に探せない (3) 著者による言葉の定義や活用方法が異なる (1) についてはある情報アクセスの単位が書籍の中でど のような役割を担っているかタグ付けする必要がある. 情報アクセスの単位とは,得たい情報を得るための最 小の情報量である.この役割を分析するためには,文書 構造やレイアウト情報をもとに論理構造を抽出する必 要がある.加藤らは構造を持つ文章の例として論文を 扱い,論理構造の抽出を実現するための枠組みとコー パスを提示した [1].本研究では,書籍に対する情報ア クセス単位を節単位として扱う.節単位の情報をテキス トデータマイニングのための統合環境である TETDM1 にて, キーワード抽出を行い,論理構造の位置付けや関 連付けは手作業で行う.(2) については書籍のメタデー タとして内容の難易度を 5 段階の情報で付加する.(3) については,別の書籍へと遷移した後に出てくる単語 について,その定義部分を参照する.定義部分はその 単語が新出の時に記載されているので,その語句が遷 移先の書籍において新出である部分を抜き出し,提示 することによって対応する.
3
ユーザ支援
3.1
方針
2節で述べた横断的読書によって複数の書籍からの 情報を自身で知識として構造化するための支援につい てこの節で述べる.知識の構造化の支援にあたって,他 の書籍と表示している書籍を比較する.ユーザ支援は, 以下の2段階を考える. (1) ユーザにとって適切な難易度の書籍を推薦する. 1http://tetdm.jp/pukiwiki/index.php (2) ユーザが読んでいる節に対して,比較することが できる別の書籍の節情報を提示する. まず,ユーザに適切な難易度の書籍を推薦するため のユーザ情報の推定について述べ,その後節情報をど のように提示するかについて述べる. ユーザ情報推定 ユーザに適切な情報を提示するにあ たって,ユーザがどのようなレベルの知識を有してい て,どのような内容の難易度を持つ情報が適切である か推定する必要がある.一般に内容が難しく感じる時 より,簡単と感じる時の方が,読む早さは早くなるだ ろう.これをもとに本研究では,ユーザにとって適切 な内容の難易度を,読んでいる部分のメタデータとし て付与された 5 段階の難易度と読む速さから推定する. しかし,読む速さは日本語の書き方によって変わるた め,日本語の難易度推定を用いて基準値を定める..書 籍の読みやすさを「帯 2[6]」を用いて日本語の難易度 を推定する [2].「帯 2」は日本語の教科書をコーパスと して文書をどのレベルの教科書に近いか尤度推定を行 う.本システムでは,そのランク付けをもとに一定文 字数あたりの読む速さの基準値を設ける.文章を読む 速さには個人差があるが,ここではそれを考慮せず一 定の値として用いる. 情報提示方法 本システムでは,遷移先となる適切な 書籍の節を提示するときに,情報欲求の段階を考慮す る,情報欲求とは,情報を得たいと感じることである [9].奥村らによって,Taylor の情報欲求の 4 段階の分 類 [8] に顕在化していない欲求を付け加えて 5 つのレベ ルとし,さらに「問題」を「要求」と捉え,調整済み の欲求における「問題を解決するために必要な情報の 情報源が同定」を「要求を満たすために必要な手段が 同定」とした以下の情報欲求 5 つの段階モデルが提示 されている [5]. 1. 潜在的要求 :要求を認識していないが,提示されれ ば顕在化する状態 2. 直観的要求 :現状に満足していないことは認識して いるが,それを具体的に言語化して上手く説明で きない状態 3. 顕在的要求 :頭のなかでは要求を整理できるが,あ いまいな表現やまとまりのない表現でしか言語化 できない状態 4. 形式化された要求 :要求を具体的な言語表現で言語 化できる状態 5. 調整済み要求 :要求を満たすために必要な手順が同 定できるくらい要求が具現化された状態 − 2 −現状の不満や問題を解決するためには, 人々の要求内容 を明確にする手段と明確になった要求を充足する簡便 な手段を提供する必要がある.つまり, 上記モデルにお いて 1 から 5 へレベルを向上させる方法と,ある程度 明確になったレベルにおいて要求を満たすための手順 が必要である.レベルを向上させる手法については,書 籍を扱っているため,そのまま読むことで,要求を満 たすための手段を得ることができるだろう.段階が 1 や 2 のように要求が明確になっていない状態で沢山の 遷移先を候補に出しても判断できる状態に無いことが 想定できる.ゆえに,段階が低いほどシステムで遷移 先を限定し,高いほど遷移先を自由にユーザ判断し遷 移するよう遷移先候補を提示する. ユーザはシステムによって提示された情報で,別の 書籍のほうが難易度が適切であると判断したり,比較 すべき情報であると判断しなくてはならない.そのた め,提示する情報はユーザが判断するために必要な情 報を含んでおり,読みながらでも把握できる文量でな ければならない.また,提示される情報は複数あり,た くさん並べて表示する必要があるので,本研究では節 の情報をカード状にまとめて表示する. 読みながらでも把握し判断できるようにするために, 節ごとを抜き出すのではなく,節の概要を抜き出しカー ドに表示し,カードをクリックすることで全文表示す る.また,概要だけでは判断するのは難しいので,難 易度情報や節の論理構造の位置付けを表示する.さら に,書籍間の遷移を行うために,カードに対してダブ ルクリックすることによって該当する書籍の節へと遷 移する. レイアウトに関しては,ユーザにとってまず読むこ とが第一であり,遷移や比較はその次となる.ゆえに, 読む邪魔にはならないが,読む手が止まった時に自然 に視野に入る必要がある.
3.2
システム概要
書籍間の遷移では,関連の書籍の節をどのようにカー ドに表示し,どのようなレイアウトやインタラクショ ンで行うべきかについて検討をする.以下,書籍とレ イアウト,表示方法について順に述べていく. 書籍については,プレゼンテーションに関する電子 書籍を 4 冊選び題材とする.それぞれの書籍は,網羅 的な書籍,一部に強く焦点をおいた書籍,網羅的な訳 本,テクニックが主の簡単なハウツー本と意図的に種 類が異なるものを集めている.これらの書籍に対して, 節ごとに TETDM のテキスト評価のモジュールにて分 析し,「主役」と「主題」,「最重要文」を抜き出した(表 1).結果のうち,「主題」を別書籍間の節の関連づけに 用い,「最重要文」はその節の概要としてシステムでは 扱う. レイアウトについては,読む書籍の文章を大きく, カードは常に目に入るように右側に並べて表示するこ とで,書籍を読むことに集中でき,かつ自然にカード が視野に入るレイアウトとした (図 1).図 1 では,左側 に書籍の文書を,右側にカードを表示している.カー ドの一番上は,現在表示している部分の節のキーワー ドとが概要を表示し,それ以外のカードは,関連する他 の書籍の節の概要を表示している.一番上のカードに は現在読んでいる節のキーワードや概要が表示される ので,ユーザは現在の節の情報を把握することができ る.本研究では,読む部分を画面の 70%,カード部分 を残りの 30%としている.現状では 13.3 インチ(2560 x 1600)の画面サイズを基準に作成しているが,タブ レットやスマートフォンといった携帯端末となると,提 示方法を新たに考える必要があるだろう. インタラクションについては,カードをシングルク リックすることで,節の概要表示から節の全文表示へ と切り替わる.さらに,ダブルクリックでカードに表 示されていた書籍の節へと遷移する.クリックではイ ンタラクション数が増加するが,分量が変化し,カー ドのサイズが変化するため,クリックなどユーザの意 図的な操作が必要なインタラクションとしている.4
おわりに
同系統の複数の書籍を関連付け,ユーザの状態に合 わせて関連する遷移先を提案することで横断的読書を 支援するシステムの枠組みを提示し,必要な支援につ いて述べた.書籍間の遷移について現在実装を進めて いる.また,提案した枠組みのほとんどが構想段階であ り,今後以下の課題を検討していかなければならない. 本研究では,プレゼンテーションの関係について 4 冊を題材とし検討中である.今後はさらに増やして検 討する必要がある. 日本語の難易度については帯をはじめとして様々な 研究が行われている [2, 6].しかし,内容自体の難し さについてまで言及しているものは少ない.西原らは Web ページの難易度について,特徴語の難しさを出現 度の低さと捉え,取得した Web ページ集合から特徴 語が含まれる割合から評価している [4].この研究では Web ページ集合を母数としているが,題材として扱う 書籍全体を母数とし,特徴語が含まれる割合で評価す る場合でも応用可能かどうか検討する必要がある.参考文献
[1] 加藤恒昭, 岩月憲一, 山口和紀:文書構造に基づく 対話的情報アクセスにむけて, 人工知能学会 イン − 3 −表 1: プレゼンテーションに関する書籍 1[10] と,異なるプレゼンテーションに関する書籍 2[7] の一部を TETDM で分析した例 主題 最重要文 書籍1 プレゼンテーション,的, 明らか,企画,情報 切なことは常ごろか ら、これからかかわるプレゼンテーションに対して、そ の的や 標をあいまいにせず、分にいい聞かせると同時にスタッ フ全員に明ら かにしておくことである。 書籍1 構成 話題 結論 本題 メッセージ そのためにはこれから伝えようとするメッセージや話題を厳選して適 切な順 序に並べる作業が必要で、構成とはまさにこのことをいう。 書籍2 前提 論理 提案 顧客 必然 たとえば営業マンが「A社は重要顧客なので、この取引は行うべきです」と提 案した場合、彼の頭のなかには、A社は自社の主要取引先で、業界のリーディ ングカンパニーで、将来もずっと市場で今のポジションを占めていて、自社 に対して今の発注量を維持してくれる……という多くの暗黙の前提がある。 書籍2 全体 フレーム ワーク 責任 言葉 (1)漏れをなくす 既製のフレームワークを数多く覚えておけば、いろい ろな場面に適用できるのだが、ありとあらゆる状況で議論の全体像を把握し、 相手を説得しようとした場合、既成のフレームワークに従うというアプロー チだけではこころもとない。 図 1: システム画面のレイアウト例 タラクティブ情報アクセスと可視化マイニング研 究会 (第 10 回), pp. 1–8 (2015) [2] 近藤陽介, 松吉俊, 佐藤理史: 教科書コーパスを 用いた日本語テキストの難易度推定, 言語処理学 会, 第 14 回年次大会 発表論文集,pp. 1113–1116 (2008) [3] 長尾真: 未来の図書館を作るとは, 達人出版会, pp. 1–2 (2015) [4] 西原陽子, 砂山渡, 谷内田正彦: Web ページの難 易度と学習順序に基づく情報理解支援システム, 電子情報通信学会論文誌, D, Vol. J89–D, No. 9, pp. 1963–1975 (2006) [5] 奥村明俊, 安藤真一, 西沢俊広: コミュニケー ションエージェントによるメッセージ理解とモ バイル情報提供, 第7回情報科学技術フォーラ ム, https://www.ipsj.or.jp/10jigyo/fit/fit2008/ fit2008program/html/event/pdf/A8 okumura.pdf (2008) [6] 佐藤理史: 均衡コーパスを規範とするテキスト難 易度測定, 情報処理学会論文誌, Vol. 52, No. 4, pp. 1777–1789 (2011) [7] 高田貴久: ロジカル・プレゼンテーション,英治 出版株式会社 (2015)
[8] Taylor, R. S.: Question-Negotiation and Infor-mation Seeking in Libraries, College and Re-search Libraries, Vol. 28, No. 29, pp. 178-194 (1968) [9] 徳永健伸: 言語と計算 5 情報検索と言語処理, 東 京大学出版会, pp3–5 (1999) [10] 脇山真治:プレゼンテーションの教科書 第三版, 日 経BP社 (2015) − 4 −