1.背 景
「過去とは一種の外国だ.そこではみんな,様子もや り方も違う」,これはしばしば引用される,L. Hartley 作の小説“The Go-Between”[Hartley 58] の冒頭の一 文である.これは過去が現在とかなり異なり,どちら かといえば未知であるという,一般的な直感を強調する ものである.実際,多くの人々が過去,特に自分が生 まれる前の期間について,もち合わせ得る知識はかなり 限られてくる.初等教育と中等教育においては,選択 された出来事や主体しか取り上げられることはない.過 去に関する我々の知識は,集合的記憶にも影響される [Halbwachs 80, Yeung 11]──集合的記憶とは,マスメ ディア,さまざまな記録保存機関,そして非制度的情報 源によって維持される,選択性が高く非固定的な,歴史 の表現である.特に若年層は,現在と未来に関する情報 の海に没頭してしまいがちである(例えば,多数の新た な ICT 技術によって仲介される情報).そうすると,若 年層による現在の解釈は,しっかりした自分達の国や世 界の歴史の中で築かれた基盤を欠いてしまう可能性があ る.加えて,現在の娯楽技術やソーシャルネットワーク サービスによって提供される大いに魅力的な要素に比 べ,歴史知識の訴求力は低く,興味をそそらないものと も考えられる.事実,学校での歴史学習に対する関心は 近年,多くの先進国で急落している.例えば,米国では 全国テストの結果,アメリカの歴史に強い生徒は 4 分の 1に満たず,また米国の歴史に関する最も基本的な事実 すら知らない生徒が過半数を占めていることが明らかと なった [Soboroff 11].同様に,この分野での習熟度や関 心の低下はオーストラリア [Gregory 07] や,日本 [山田 13]でも見受けられる. しかし,過去を適切に知り,理解することは,さまざ まな理由から重要である.それは過去そのものを理解す るためだけでなく,現在を理解し,現代社会において能 動的な生活に備えるうえでも役立つ.例えば,若年層は 選挙の際に関連する過去を適切に把握し,理解しておけ ば,より多くの情報に基づく賢明な投票決定を下すこと ができる.加えて,歴史知識は将来の予測,計画,そし て意思決定の補助手段としても必要なのである [Abelson 85, Gilovich 81].したがって,一般的な人間が過去につ いてもち合わせている知識が限られていることを踏まえ れば,ユーザに効果的で途切れのない補助を提供できれ ば,有益であろうと思われる. 外国人旅行者(例:日本を訪れる旅行者)も,歴史知 識の不備と不適合性を抱える社会的な対象である.欧州 または他の西洋諸国の学校は,地域の歴史(例:欧州史) を重視する傾向にある.そこでは他の国々(例:日本) での歴史的発展については,教えることはあってもかな り表層的で,主に顕著な全世界的出来事との関連で教わ る傾向にある.この類の国単位または地域単位の歴史に 限定した教育に偏る傾向は,欧州または他の特定の国に おいて特有というわけでもなく,ほとんどの国々で見受 けられ,結果として諸外国の過去に関する知識は浅く, 断片的なものになってしまう.それは一方で日本人の海 外旅行者(例:欧州訪問)の多くが,訪問地の歴史をあ まり知らない,という状況にも当てはまる.しかし,言 うまでもなく,ある国の歴史を適切な水準で知っておく ことは,旅行を満足のいく学習体験にするための必須条 件であることが多い.しかし,さまざまな国々の歴史に 関する知識が断片的で不完全であるために,外国人旅行 者は訪問地の文化,習慣,そして特徴を十分に理解する ことができない.2.問 題
我々は,上述の章で述べた議論は二つの重要な問題を 示すものであると考える.一つ目は,過去を理解するこ とは,広範な歴史知識と,それに呼応する時間的文脈の 理解が伴わなければ困難である,という問題である.つ計算歴史学による過去と現在の橋渡し
Bridging the Past and Present by Computational History
ヤトフト アダム 京都大学
Adam Jatowt Kyoto University.
[email protected], http://www.dl.kuis.kyoto-u.ac.jp/~adam
訳:人工知能学会編集委員会
Keywords:
computational history, across-time similarity. 「人工知能と歴史」─歴史を知る─まり,自動文脈化のような説明技術が必要である.二つ 目の問題は,過去が現在と無関係であり,したがって「遠 く離れ」,興味をそそらないものとみなされてしまうこ とが多い,ということである.これは,現在のさまざま なトピックに対する歴史的文脈の呼応と関連性を見いだ すことができれば,歴史知識の価値,有用性,関心が高 まるはずである,ということを示唆するものである.こ の短い解説記事の中では,二つ目の問題にフォーカスす ることにする.一つ目にあげた歴史の自動説明という課 題は最近,[Tran 15a, Tran 15b] の研究で取り上げられ ている.我々は,過去を自動的に現在と関連付け,つな ぎ合わせるには,複雑かつ,多様なレコメンデーショ ン・関連付け技術が必要である,と認識している.それ らの技術により,現在の文脈や文書(例:過去に起こっ た同様の出来事につなげられるようになる,何らかの現 在の出来事に関する報道記事)をシームレスに「歴史 化」することが可能になるはずである.そうした歴史化 (historification)プロセスは,Wikipedia コミュニティ [Wikipedia]において「長期にわたる歴史的視点に欠け, 歴史に基づく参考文献を無視した記述,編集または論述」 と定義される,すなわち「リーセンティズム(recentism)」 との闘いに向けた一歩と捉えることができる.これに対 応するため,我々に必要なものは,過去に関連する内容 を自動的に現在と関連付けることにより,現在の使用者 が「現在化(presentification)」プロセスを通じて過去 に関連する内容の価値と魅力を高めることができるよう な技法である.歴史化と現在化,これら双方の技術の開 発に成功すれば,ユーザが過去を理解し,評価すること はもとより,学習と知識同化の推進にも役立つと思われ る.以降の章では,過去を現在と関連付けるプロセスの 支援となる,多様なアプローチの例を紹介する.
3.より緊密な過去と現在とのつながりを目指して
本章では,現在の内容と過去の内容を比較するアプ ローチ,またはそれらの関係を見いだすアプローチの例 を三つ紹介する.一つ目のアプローチでは,発生時期の 異なる複数の項目の類似性(時系列横断的類似性)を 測定する.このアプローチでは iPod や Walkman など, 対応物となる項目を見つけだすことが可能である.二つ 目の例は,存在時期の異なる複数の主体間の関係の強さ を見いだすために,Wikipedia のリンク構造を利用する 方法についてである.最後に,三つ目の例は,報道記事 選集など,長期的な文書保存記録に基づく,異なる期間 における複数の主体(同じ主体または異なる主体)の内 容を比較するための,双方向型比較システムである. 3・1 時系列横断的な対応物探し まず,時系列横断的類似性を推定するために開発され た方法について述べる [Zhang 15, Zhang 16].これは任 意の基準期間(概して現時点)におけるクエリ対象主体 と類似する主体を,任意の対象期間から見つけだすもの である.2010 年代の主体である iPod を例に取ると,我々 の方法では,対象期間(例:1980 年代)において呼応 する Walkman などの主体をランク付けしたリストを, それぞれの呼応性を決定付ける信頼度スコアと併せて出 力することができる.注意点として,時間的対応物の 検出という問題は,些細な問題ではない [Berberich 09, Tahmasebi 12].主な困難の発生源は,文脈全体が変化 する結果,時系列横断的な文脈上の項目の重なり合いが 少なくなる状況である.我々の解決策は,単語分散表現 [Mikolov 13](図 1)が頼りであるとともに,意味ベク トル空間における複数の項目間の相対的距離を保持する 変換行列を使用して,複数の異なる期間において呼応す るベクトル空間のマッピング(図 2)を用いるものである. 変換行列を構築するための学習データとして,我々は最 頻出項目(例:ストップワードを伴わない最上位 5%の 項目)を使用する.これは,当該項目が概して長期間に わたりそれぞれの意味を保持するため,学習事例の役割 を果たし得るという仮定によっている.変換行列が構築 されたら,検索プロセスは問合せベクトル(概して現在 の概念)に変換行列を乗じ,その後,乗算結果と最も類 似する項目を対象期間(選択された過去の期間)から出 力する.この変換方法と,その拡張(例:局所的呼応や 全体的呼応)の一部はすでに,短期間および長期間にわ たる試験と,多様な種類の主体(物体,人物,場所,組 織など)にまたがる試験に成功している [Zhang 16]. 時系列横断的類似性のほか,類似性の自動説明も,現 在のコンテンツに対する類似する主体,類似する出来事, あるいはもっと全般的に,類似するトピックをレコメン ドするための基礎的要素として使うことができる. 図 1 二つの異なる期間からの文書に基づく,単語埋込みの準備 ([Zhang 15] から抜粋) 対象期間 (例:1987 ~ 91 年)(例:2003 ~ 07 年)基準期間 スキップグラム モデルの使用に よる学習 スキップグラム モデルの使用に よる学習 ベクトル空間表現 図 2 異なるベクトル空間において意味的に関連する項目の対応 付け([Zhang 15] から抜粋) 音楽 iPod mp3 walkman カセット 音楽 基準期間 (例:2003 ~ 07 年) (例:1987 ~ 91 年)対象期間の最短経路の発見に頼る方法も可能であるはずである. また我々は,[Gyöngyi 04] で実証されているとおり,人々 を重要性や影響力によってランク付けするための一つの シグナルとして,過去と現在のつながりを使用できるこ とも指摘しておく. 3・3 歴史比較システム 最後に,文書保存記録を時間単位で区切った時間スラ イスにおけるさまざまな主体に関するデータを比較する 目的で設計された,HistoryComparator(歴史比較)シ ステム [Jatowt 16c] を紹介するが,このシステムでは一 つのスライスが最近作成された文書を含み得る一方,他 のスライスは過去の任意の期間に作成された文書を含 む.このシステムは文書検索エンジンを土台として構築 され,二つの基本的な比較モード,すなわち対照的項目 クラウドビューと,対照的グラフビューを使用すること ができる.前者は対照的テキストサマリーを生成する一 方,後者は異なる期間における,クエリに対する上位項 目のネットワーク表現を対応付ける. 歴史的観点を比較するため,我々は二重コラム視覚化 を使用する.これは各コラムが異なる期間に基づく結果 を表示する仕組みである.並列構成は直接比較に役立ち, また共通性と変化に関する推論を行う際の認知上の負担 を軽減してくれる.対照的項目クラウドビュー(図 4 の 上部参照)では,両方のコラム内の項目が,変化と類似 性を強調するよう色分けされる.各項目のフォントサイ ズは任意の期間中での相対的頻度に結び付けられる一 方,色は頻度の相対的差異に関連付けられる.ある期間 で頻度が高いが他の期間での頻度は低くなる項目は,該 当するコラムに応じて赤色が強くなるか,あるいは青色 が強くなる(青が左,赤が右を意味する).黒色は,両 方の比較対象期間での相対的頻度が同等の項目であるこ とを意味する.フォントと色は,線形尺度または対数尺 度いずれかに基づいて設定することができる.さらに, 各コラム内の表示項目数の調整も,スライダの操作に よって可能であるほか,このシステムでは色の強さ,フォ ントサイズまたはアルファベット順に項目をランク付け することもできる.最後に,各期間における問合せの人 気度傾向のほか,全体的な感情極性スコアも表示される. 項目クラウドは,項目間の関係の経時的変化を捕捉す ることはできない.単語間親和性を比較できるよう,図 4 の下部に図示されているとおり,第 2 のビュー,すなわ ち対照的グラフビューモードが提供される.このビュー では,最頻出単語のノードが,両方のウィンドウに表示 される二つの力指向グラフ内に配置される.力指向グラ フは,フックの法則に基づくノードの分離と配置に使用 される,引力と反発力によって特徴付けられる.項目の 重要性に関する情報を提供するため,ノードサイズは項 目の頻度に応じて設定される.相互に同時発生する頻度 が高い項目が接続され,それらのエッジの幅が,単語の 3・2 Wikipedia ベースの関連性尺度 Wikipediaはユーザと研究者の両者により,広範な歴 史データの源泉として一般的に使用されている.例えば, Wikipediaは,オンライン検索者が過去に関連する検索 を目的として検索作業する際に参照する,主要なリソー スの一つであると認められている [Joho 15]. 現在の主体と任意の過去の主体との関連性を推定する 方法の一つとして,Wikipedia のリンク構造の使用があ げられる.直感的に,一連の現在の主体に対する過去の 主体(例:ある人物)とのつながりが強ければ強いほど, 現在に対する過去の主体の関連性も高くなる.[Jatowt 16a, Jatowt 16b]の中で,我々は,人物に焦点を当てつつ,
Biased PageRank(TrustRank [Gyöngyi 04] の概念と 似ている)の適用を行った.我々が用いた現在の人物は, 四つの 10 年単位の期間(1970 ∼ 2000 年代)のいずれ においても存命であるが,この期間は恣意的であるとい う点に留意されたい.現在と過去とのつながりは,歴史 上の人物を表すノードと現在の人物に呼応するノードの 近接性によって表される.我々は,Biased PageRank を, Wikipediaに掲載された人物主体と,当該人物を取り上 げた複数の記事間のハイパーテキストリンクに相当する エッジを含む,有向グラフに適用した.現在の人物は, ランダムウォークにおけるテレポーテーション部分にバ イアスを掛ける目的で使用した. 図 3 では,過去の任意の 10 年単位の期間中に存命で あった人々のスコアを平均化することによって得られ た,現在に偏重した PageRank の平均スコアを示して いる.このグラフは,任意の過去の 10 年間からの人々 と現在の人々との間の関係の強さを示すものと解釈する ことができる.見てわかるとおり,比率は 20 世紀から 昔に遡ると激減し,1900 年代より前になるとおおよそ 安定する.興味深いことに,15 世紀と 16 世紀の前後の 人々は他の遠い過去の世紀と比べ,少々,現在とのつな がりが強いと見られ,これは当時の人々が世界の歴史 に重要な役割を果たしたことを示唆するものと考えられ る.ほかにも過去と現在のつながりを測定する方法とし て,例えばリンクの意味情報の使用,あるいはグラフで 図 3 過去の任意の 10 年単位の期間の人々と現在の人々の 関係の強さの平均値(縦軸)([Jatowt 16a] から抜粋)
同時発生頻度に基づいて計算されるジャッカード係数の 値によって決定付けられる.対照的項目クラウドビュー 同様,任意のウィンドウ内のノードの色も,両方のウィ ンドウにまたがるノードの根底をなす,項目の頻度の相 対的差異に左右される.ノードの配色に加え,エッジの 色は,接続されたノードの複数の比較対象期間にまたが る親和性が同等であるか,あるいは異なるかに関する情 報を伝達する役割を果たす.効果的な比較を可能にする ため,両方の比較対象グラフにおけるノードの位置が対 応付けされる.言い換えれば,両方のグラフにおいて同 一である項目は,両方のコラム内でも相対的に同じ位置 に配置される. 我々は,HistoryComparator システムは時期の異なる 主体の共通性はもとより,差異についても,より深い分 析を行うために使用できると考える.したがって,この システムは過去と現在の主体または出来事の類似性関係 に関する推論を行うためのデータを提供可能である.
4.結 論
足早に変化する現在の世界において,人々は過去,特 に遠い過去から物事についてもち合わせる知識や理解が 限られる傾向にある.特に,若い世代(新世紀世代,ジェ ネレーション X,ジェネレーション Z)は現在と未来へ の方向性が強い [Connerton 09].つまり,これらの世代 は,歴史の中からしっかりした広範な専門知識をもつこ とで得られる潜在的な恩恵が多数あるにもかかわらず, 過去を学んだり過去に言及したりすることが滅多にない 可能性がある.しかし,若い世代が過去に関する基本的 理解を欠いてしまうと,現代的生活の多数の側面におい て,十分に役割(例:政治的,経済的,社会的な役割など) を果たす際に困難を抱える可能性がある. 最近,歴史的文書のディジタル化や保存記録集の構築 に,巨額の費用が費やされてきた.例えば,2009 年と 2010年,日本の国立国会図書館におけるディジタル化 予算は合計 137 億円に上った [大場 14].しかし,ディ ジタルアーカイブの利用状況は依然,満足のいく水準に ほど遠い.例えば,Europeana(3 000 余りの欧州の博 物館,図書館および諸機関からアーティファクトに関す るデータを集約するポータルサイト)へのトラヒックの 80%が Google 検索エンジン経由でのアクセスであり, 訪問の 60%は持続時間が 10 秒未満である [Stroeker 12].これは,近年における多数の文化遺産情報システ ムがユーザに関与してもらうための戦略を欠いている, という事実を指す [Stiller 15].願わくは,情報処理的ア プローチを介して歴史を現在と関連付けることにより, 文書保存記録の活用度を高めたいところである.ディジ タルアーカイブに眠る潜在力を解放すれば,最近数十年 間にわたるディジタル化プロジェクトに要した巨額の費 用の正当性も高まるはずである.本質的に,我々は単に 検索ボックスを提供するだけでなく,より先進的な相互 作用が必要である. 本稿ではまず,市民はもとより,外国人旅行者につい ても,歴史に関する包括的知識の欠如が問題であるとい う点を強調した.次に,この問題の中核にある二つの争 点,すなわち歴史知識を理解することに対する難しさと, 現在に対する歴史の関連性の認知度の弱さを明らかにし た.次いで後者の争点に焦点を当てつつ,過去関連知識 と現在に関する内容の統合の緊密化を狙いとするアプ ローチおよび技術の例を三つ紹介した.これらは単純な 予備的取組みに過ぎないことから,我々としては,それ らが主にこの種のさらなる研究推進に向けた刺激を提供 し得るものとなることを願う次第である.特に,我々は 現在,時系列横断的類似性検出に関する説明を提供する ための方法の改良に取り組んでいる [Zhang 16].時間的 対応物に相当すると推定される任意の対の項目について (時系列横断的類似性が高い項目),我々は,類似する側 面を明らかにする説明的な項目または文章を出力できる ようにしたいと考えている.加えて,我々が行っている 別系統の研究では,現在の出来事と類似した出来事の検 出を狙いとしている.出来事は相互作用する一連の主体 (例:人物,場所)として表現可能であることから,こ れを目的に,[Zhang 15, Zhang 16] に記載されているよ うな技術の拡張が可能である.最後に,我々は今後,我々 がこれまでに行ってきた,ユーザが多様な文書ジャンル 図 4 HistoryComparator システムにおける対照的項目クラウド ビュー(上部)と対照的グラフビュー(下部) 国 文書の ジャンル 感情極性分布 期間 人気度 出来事または人物の名称[Stiller 15] Stiller, J. and Petras, V.: A Framework for Classifying and Comparing Interactions in Heritage Information Systems, I. Ruthven and G. G. Chowdhury, Cultural Heritage
Information, Access and Management, Neal-Schuman, Chicago
(2015)
[Stroeker 12] Stroeker, N. and Vogels, R.: Survey Report on Digitisation in European Cultural Heritage Institutions 2012(2012), www.enumerate.eu/fileadmin/ENUMERATE/ documents/ENUMERATE-Digitisation-Survey-2012.pdf [Soboroff 11] Soboroff, J.: If students fail history, does it matter?
CNN(July 28, 2011)
[Tahmasebi 12] Tahmasebi, N., Gossen, G., Kanhabua, N., Holzmann, H. and Risse, T.: NEER: An unsupervised method for named entity evolution recognition, Proc. COLING, pp. 2553-2568(2012)
[Tran 15a] Tran, N. K., Ceroni, A., Kanhabua, N. and Niederée, C.: Back to the past: Supporting interpretations of forgotten stories by time-aware recontextualization, Proc. WSDM 2015, pp. 339-348(2015)
[Tran 15b] Tran, N. K., Ceroni, A., Kanhabua, N. and Niederée, C.: Time-travel translator: Automatically contextualizing news articles, WWW(Companion Volume) 2015, pp. 247-250(2015) [Wikipedia] https://en.wikipedia.org/wiki/Wikipedia:
Recentism
[山田 13] 山田 順:自国の歴史を知らず,“迷子”になる日本人, 東洋経済(2013 年 05 月 08 日)
[Yeung 11] Yeung, C. M. A. and Jatowt, A.: Studying how the past is remembered: Towards computational history through large scale text mining, Proc. CIKM 2011, pp. 1231-1240(2011) [Zhang 15] Zhang, Y., Jatowt, A., Bhowmick, S. and Tanaka, K.:
Omnia mutantur, Nihil interit: Connecting past with present by finding corresponding terms across time, Proc. 53rd Annual
Meeting of the Association for Computational Linguistics(ACL
2015), pp. 645-655, Beijing, China(2015)
[Zhang 16] Zhang, Y., Jatowt, A., Bhowmick S. and Tanaka, K.: The past is not a foreign country: Detecting semantically similar terms across time, Trans. on Knowledge and Data
Engineering(TKDE), Vol. 28, No. 10, pp. 2793-2807, IEEE Press(2016) 2016年 10 月 3 日 受理 において過去を参照する方法に関する研究 [Yeung 11] を,レコメンデーションの設計の改良に適用していきた いと考えている.
◇ 参 考 文 献 ◇
[Abelson 85] Abelson, R. P. and Levi, A.: Decision making and decision theory, Handbook of Social Psychology, Vol. 2, pp. 231-309(1985)
[Berberich 09] Berberich, K., Bedathur, S. J., Sozio, M. and Weikum, G.: Bridging the terminology gap in web archive search, Proc. WebDB’09(2009)
[Connerton 09] Connerton, P.: How Modernity Forgets, Cambridge University Press(2009)
[Gilovich 81] Gilovich, T.: Seeing the past in the present: The effect of associations to familiar events on judgments and decisions, J. Personality and Social Psychology, Vol. 40, No. 5, p. 797(1981)
[Gregory 07] Gregory, J.: Don’t Know Much about History: Australian History in Schools Today, The Critic, Institute of
Advanced Studies of the University of Western Australia, Issue 6(Oct. 2007)
[Gyöngyi 04] Gyöngyi, Z., Garcia-Molina, H. and Pedersen, J.: Combating web spam with trustrank, VLDB 2004, pp. 576-587 (2004)
[Hartley 58] Hartley, L. P.: The Go-Between, Harmondsworth: Penguin Books $ Hamish Hamilton(1958)
[Halbwachs 80] Halbwachs, M.: The Collective Memory, New York, Harper & Row Colophon Books(1980)
[Jatowt 16a] Jatowt, A. Kawai, D. and Tanaka, K.: Digital history meets Wikipedia: Analyzing historical persons in Wikipedia,
Proc. 16th ACM/IEEE-CS Joint Conf. on Digital Libraries
(JCDL 2016), ACM Press, Newark, USA, pp. 17-26(2016) [Jatowt 16b] Jatowt, A., Kawai, D. and Tanaka, K.: Predicting
importance of historical persons using Wikipedia, Proc. 25th
ACM Int. Conf. on Information and Knowledge Management
(CIKM 2016), ACM Press, Indianapolis, USA(2016)(to appear)
[Jatowt 16c] Jatowt, A. and Bron., M.: HistoryComparator: Interactive across-time comparison in archives, Proc. 26th Int.
Conf. on Computational Linguistics(COLING 2016), Osaka, Japan, demo paper(2016)
[Joho 15] Joho, H., Jatowt, A. and Blanco, R.: Temporal information searching behaviour and tactics, Information
Processing and Management Journal, Vol. 51, No. 6, pp.
834-850, Elsevier(2015)
[Mikolov 13] Mikolov, T., et al.: Efficient Estimation of Word Representations in Vector Space, arXiv preprint arXiv:1301.3781(2013) [大場 14] 大場利康:国立国会図書館におけるデジタルアーカイブ 事業の進捗,平成 26 年 11 月 26 日,知的財産戦略本部検証・ 評価・企画委員会(2014),http://www.kantei.go.jp/ jp/singi/titeki2/tyousakai/kensho_hyoka_ kikaku/2015/dai3/siryou3-4.pdf