Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Webの進化:Web2.0とセマンティックWeb
武田 英明
[email protected]
国立情報学研究所
東京大学 人工物工学研究センター
価値創成イニティアティブ(住友商事)寄附研究部門Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
未来の
Web…
z
電話が鳴ったとき,娯楽システムからビートルズの“We Can Work It Out”が
流れていた.Peteは電話で出たとき,彼の電話は音量調整を持っている他
の
ローカルデバイス
すべての音量を下げるようメッセージを出して,音を
低くした.彼の妹,Lucyが医師の部屋から電話をかけていた.「お母さん
は専門家に診察してもらい,物理治療を続けてなくてはいけないのよ.2
週に1回ぐらいね.これから
私のエージェント
にアポイントメントを取っ
てもらうわ.」Peteはすぐに車での送り迎えを請け負った.
z
医師の部屋で,
Lucyは彼女のハンドヘルドのWeb Browserを通して,
エー
ジェントに教示
していた.
エージェントはすぐに医師のエージェントから
母親の処方箋に関する情報を入手
していた.そしてこのサービスを提供す
る提供者をいくつか調べ,加入している保険でカバーでき,母親の家から
半径20マイル以内で
信頼
できる
評価サービス
において優秀と評価されて
いる提供者を探した.次に提供者の可能なアポイントメントの時間(個々
の提供者のエージェントが提供)と
PeteとLucyのスケジュールのすりあわ
せ
をはじめた
…
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Web 2.0
z
戦略的な位置づけ: プラットフォームとしてのウェブ
z
コアコンピテンス
パッケージソフトウエアではなくてサービス
参加のアーキテクチャ
高い拡張性とコスト効率
再構成可能なデータソースとデータの変換
単一デバイスを超えたソフトウエア
集合知の活用
What Is Web 2.0 Design Patterns and Business Models for the Next Generation of Software
by
Tim
O'Reilly
http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html
Web 2.0
z
代表的サービス
Folksonomy (例 del.icio.us, Flickr)
豊かなユーザ経験
(例 Gmail, Google Map, AJAX)
ユーザの貢献
(例 PageRank, eBey, Amazon)
Long tail (ex. AdSense)
公開ではなくて参加
(ex. Blogs)
ラディカルな信頼
(ex. Wikipedia)
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
セマンティック
WebとWeb2.0
z
さまざまな喧騒
Web2.0ブーム?
Web2.0って何?
Web2.0とセマンティックWebは同じ目的?
Web2.0はセマンティックWebを殺す?
ところでセマンティック
Webって何?
z
本講演のねらい
セマンティックWebの立場からセマンティックWebと
Web2.0の関係,ひいてはWebの将来の方向を考える
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
セマンティック
WebとWeb2.0
z
Web2.0:ビジネスモデル及びソフトウエア構築方法論
z
セマンティックWeb:技術開発および標準化
z
そもそも目的は異なるが,両者とも現在あるいは未来のWeb
をモデル化
z
しかし,ともに部分的
Web2.0:ビジネス
セマンティックWeb:技術
z
では,そもそもWebの全体像は?
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
社会としての
Web
z
Webの社会化
z
社会のWeb化
Webの2つの層
z
Webの2つの層
Webコンテンツ
計算機システムとしてのWeb
z
計算機システムとしての新しい技術が新しいWebコンテンツをつくる
計算機システムとしてのWeb
Web世界
Webコンテンツ
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Webの3つの層
z
Webの世界は我々の日常世界と一体である
日常世界と合わせてはじめて意味をもつ
Web世界だけでは閉じていない
境界もはっきりしない
日常世界の問題が次々と
Web世界に反映される
今日の
Webは明日には過去に…では明日のWebは?
計算機システムとしてのWeb
Web世界
Webコンテンツ
日常世界
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
社会としての
Web
z
我々の日常世界と“
同等
”の世界がWebに構築されていく
我々の日常世界の反映としてのWeb
我々の日常世界の場としてのWeb
z
今はその途上でしかない
計算機システムとしてのWeb
Web世界
Webコンテンツ
日常世界
社会としてのWeb
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
社会としての
Web
z
2つの特徴を併せ持つ
社会としての特徴
計算機世界としての特徴
z
我々の社会の“dead copy”ではない
z
両者を併せ持った新しい構造をもった社会
社会としての
Web
z
社会として
我々の社会がもつ要素全
てが持ち込まれる
人々,もの
人と人の相互作用,人
とものの相互作用
社会的活動
z生活,教育,ビジ
ネス
組織,コミュニティ
ルール,モラル
法律,犯罪
…
政治
…
特徴
大量
共有,共存
不変と可変
集中と分散
制御と不制御
…
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
社会としての
Web
z
計算機世界として
プロセスの特徴
時間非依存
場所非依存
多重化可能
並列化可能
量非依存
データの特徴
複製可能
再利用可能
永続性
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
社会としての
Web
z
Webの社会化ははじまったばかり
z
現在はそのほんの端緒でしかない
z
現時点での到達点
社会の広がりの実現
人と人のインタラクションを可能とする最も原始的なイン
フラの実現
z
技術的表現でいうなら
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Massive
Information Sharing
z
大規模さ
/
Massiveness
大量性:人,もの
多様性:沢山あれば多様
分散性:沢山あれば分散
動的:どんどんと変わりいく
z
情報共有
/
Information Sharing
基盤構築:共有の基盤作り
標準化:何かを定めなけば情
報交換ができない
セマンティックWeb
Web2.0
• Web2.0は
大規模さ
に主に注目し,セマンティックWebは
情報共有
に主に注目する.
• しかし,両者とも両方の側面を実現しなければ目標は達成しない.
相反する要求
Massive
Information Sharing
z
大規模さ
/
Massiveness
大量性:人,もの
多様性:沢山あれば多様
分散性:沢山あれば分散
動的:どんどんと変わりいく
z
情報共有
/
Information Sharing
基盤構築:共有の基盤作り
標準化:何かを定めなけば情
報交換ができない
Web2.0
セマンティックWeb
• Web2.0は
大規模さ
に主に注目し,セマンティックWebは
情報共有
に主に注目する.
• しかし,両者とも両方の側面を実現しなければ目標は達成しない.
相反する要求
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Web2.0
z
戦略的な位置づけ: プラットフォームとしてのウェブ
z
コアコンピテンス
パッケージソフトウエアではなくてサービス
参加のアーキテクチャ
高い拡張性とコスト効率
再構成可能なデータソースとデータの変換
単一デバイスを超えたソフトウエア
集合知の活用
z
代表的なサービス
Folksonomy (ex. del.icio.us, Flickr)
Rich User Experience (ex. Gmail, Google Map, AJAX)
User as Contributor (ex. PageRank, eBey, Amazon)
Long tail (ex. AdSense)
公開ではなくて参加
(ex. Blogs)
Radical Trust (ex. Wikipedia)
Radical Decentralization (ex. BitTorrent)
z
What Is Web 2.0 Design Patterns and Business Models for the Next Generation of Software
by
Tim O'Reilly
http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
社会としての
WebとWeb2.0
z
User as Contributor (ex. PageRank, eBey, Amazon)
z
公開ではなくて参加(ex. Blogs)
z
Folksonomy (ex. del.icio.us, Flickr)
z
Long tail (ex. AdSense)
z
Rich User Experience (ex. Gmail, Google Map, AJAX)
z
Radical Decentralization (ex. BitTorrent)
z
Radical Trust (ex. Wikipedia)
“大規模”“情報共有”(人のいる社会)
“大量性,多様性”情報共有(社会の大規模さ,多様さ)
“動的”情報共有基盤(動的な社会基盤)
“分散的”情報共有基盤(分散的な社会)
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
社会としての
WebとセマンティックWeb
z
情報共有に注目
z
情報共有を
知識共有
によって解決する
抽象化
共有のレイヤーを一段上げる
z
しかし,他の大規模特性も同時に解決しないといけない
多様性
分散性
動的
セマンティック
Web
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
The Semantic Webの目的
z
"The Semantic Web is an extension of the current web in which information
is given well-defined meaning, better enabling computers and people to
work in cooperation."
z
セマンティックWeb は現在のWebの拡張であり,そこでは情報には定義
された意味が用意され,人と計算機の共同作業がより容易にできるように
なる.
The Semantic Web, Scientific American, May 2001, Tim Berners-Lee, James Hendler and Ora Lassila
z
The Semantic Web is a vision: the idea of having data on the web defined
and linked in a way that it can be used by machines not just for display
purposes, but for
automation
,
integration
and
reuse of data across various
applications
.
z
セマンティックWeb はビジョンである.そこではWeb上のデータは,単
に表示目的でなく,
自動化
や
統合
,
アプリケーション間でのデータ再利用
などに使えるように定義されてリンクされる.
http://www.w3.org/2001/sw/
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Next Generation Web?
z
Webの進化
HTML: 表示のためのWeb
XML:シンタックスをもったWeb
?? :セマンティックスをもったWeb
z
なぜセマンティックスを
Webのメカニズムの中に組み込なね
ばならないか
人間のためのWeb
から
人間と機械のためのWeb
ヘ
cf. 機械ためだけのWeb
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
どうやって意味を記述するか
z
情報に関する情報を記述する仕組みが必要
メタデータ
データに関するデータ
z
共通に理解し合える仕組みが必要
シンタックス(言語,スキーマ)
語彙(オントロジー)
Semantic Webの階梯
z
RDF (Resource Description Framework)
最も原始的な意味記述の枠組みを提供ー>
SVOモデル
Entity-Relation Model(実体関連モデル)
セマンティックネット
zRDF Schema
RDFに最も原始的な概念記述の仕組みを追加
class-subclass関係,制約
弱いオントロジー記述言語
zOWL
より一般的な概念記述の枠組みを提供
多様なクラス表現,多様な制約
十分なオントロジー記述言語
3種
zOWL-Lite
zOWL-DL
zOWL-Full
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
社会としての
WebとセマンティックWeb
z
情報共有に注目
z
情報共有を知識共有によって解決する
抽象化
共有のレイヤーを一段上げる
z
しかし,他の大規模特性も同時に解決しないといけない
多様性
分散性
動的
…
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
セマンティック
Webにおける大規模特性の解決
z
多様性,分散性
分散オントロジーとオントロジーマッピング
HICAL
オントロジーの協同開発
Semantic Wikis
Web Miningによるオントロジーの構築
Ontologyとしてのfolksonomy
人間関係ネットワークの発見
(Polyphonet)
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
分散オントロジーとオントロジーマッピング
z
多様なオントロジーの許容
z
オントロジー間の調整/マッピング/統合の必要性
コミュニケーション・レベル
オントロジー・
メタデータ・レベル
メタデータ連携
HICAL: インターネットディレクトリの関係付けの発見
z
目的
階層構造間の関係の発見
z
問題設定
インターネットディレクトリ
z
方法
インスタンスの共通性から統計的に推測
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
HICAL
z
類似するカテゴリペアの判定
インスタンスを共有をκ
統計量で判定
インスタンスとは
URL
z
概念の包含関係を利用
上位概念は下位概念のイ
ンスタンスもインスタン
スとして持つ
z
カテゴリペアの探索
木構造を上から探索
発見したペアのみ詳細化
概念体系A 概念体系B 概念a 概念b インスタンス (ページ) 概念体系A 概念体系B 概念a 概念b インスタンス (ページ)Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
実験結果
z
Yahoo!→Google
z
Google→Yahoo!
[1] R. Agrawal and R. Srikant. On integrating catalogs. In Proceedings of the Tenth International World Wide
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Semantic Wiki
z
Wikiの仕組みを使ってメタデータおよびコンテンツを協同編
集,公開
z
沢山の実装
Semantic MediaWiki
Semantic MediaWiki (jp)
IkeWiki
…
Semantic MediaWiki
on the Edit Box of the <source_page>, write the Wiki syntax:
[[term:target_page|property]]
source_page:
-> property -> target_page target_page:<- property <- source_page property:
source_page -> target_page
Wiki Syntax: [[Term:target_page|property]] source_page property target_page RDF:
Display on the Wiki pages
<source_page>
Term:Homer Term:Child Term:Bart <property> <target_page> The RDF triple
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Semantic MediaWiki
http://semanticwiki.jp/
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Ontologies are us: A Unified Model of Social
Networks and Semantics [Mika05]
z
コミュニティを考慮に入れたオントロジーのモデル化
z
Actor - Concept - Instance
3部グラフから2部グラフへの変換とネットワーク分析
6パターンのネットワーク
Content A Content B Content C Content D Content E
Tag A Tag B Tag C Tag D Tag E
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Social bookmarkingからのオントロジー抽出
z
Del.icio.usからのコミュニティ・オントロジー抽出
30,000 users(2004.12)
Actor - ユーザ
Concept - タグ
Instance - ブックマークのURI
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Social bookmarkingからのオントロジー抽出
z
概念の上位下位判定
出現頻度と共起,包含率から
Broader - Narrowerを自動決定
A
B
A
B
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Polyphonet
z
Webから人間関係を抽出するシステム
z
技術分野
Webマイニング
Web上の情報に対して、パターンの抽出処理や解析処理を行うこと
で、明示的に書かれていない有用な知識を見つけ出す技術。
z
特徴
一般の検索エンジンを利用している。数万回~数十万回、Webの検索を
行いながら、研究者の情報を抽出・整理する。
検索エンジンでページを集める⇒一部のページの解析 ではなく、
Web全体のページの解析を検索エンジンをうまく用いることで行っ
ている。
自然言語処理、機械学習と呼ばれる手法を組み合わせて用いている。
名前と所属だけを入れれば、あとの情報はすべてWebから自動的に抽出
する。
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
抽出の方法
例)124件
メンバーのリスト(名前、所属)は所与
検索エンジン(Google)を使って、共起関係の強さを測る。
Jaccard係数、相互情報量などさまざまな尺度があるが、 閾値つきOverlap係数を用いる。例)
“松尾豊 石塚満”:123件強い
“松尾豊 溝口理一郎”:11件弱い
“石塚満”:791件 “溝口理一郎”:813件検索されたWebページから、ページの特徴量を抽出し関係を把握。
共著、 研究室、 プロジェクト、 発表Simpson係数は、関係の強さを的確に表す。
9割程度の適合率(再現率は2割~5割):アンケート調査
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Web3.0?
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Web3.0?
z
社会としてのWebはまだ途上
Web1.0: 言葉が呪術の世界
HTMLを操れる者が特権階級
Web2.0: 言葉を操る知識階級の世界
ネットに積極的に関与する人々でつくられる世界
まだ特別な階級による
“善意”による“平和”な世界
フラットな構造:擬似的な“民主主義”
Web3.0?
z
社会としてのWebはまだ途上
Web3.0?: ほとんどの人が参加する世界
“声なき大衆”の参加
混沌,混乱
構造化,囲い込み
z新しい秩序の形成
革命
??
ほんとうの“民主主義”の実現
????
一つの例
zオンラインゲーム
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Web3.0?
z
何に備えなければならないか?
社会としてのWebの特徴
=社会としての特徴x計算機世界としての特徴
二つの特徴の組み合わせとして新しい特徴が生まれる
社会としての特徴
がどれだけ埋め込まれるか
社会の
Web化度
z社会活動のどの位の割合が
Web上で実現されているか
zそれが高まれば高まるほど,社会としての特徴が埋め込まれる
計算機世界としての特徴
がどれだけ埋め込まれるか
技術の発展度合
技術の普及度合
社会としての
Web
z
2つの特徴を併せ持つ
社会としての特徴
計算機世界としての特徴
z
我々の社会の“dead copy”ではない
z
両者を併せ持った新しい構造をもった社会
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}