放置自転車問題における因果関係を含むLODの半自動的な構築手法の提案

(1)

放置自転車問題における因果関係を含む

LOD

の

半自動的な構築手法の提案

A Method for Semi-automatic Construction of Illegally Parked

Bicycle LOD with Causal Relations

江上周作

1 ∗

_川村隆浩

1,2

_古崎晃司

3

_{大須賀昭彦}

1

Shusaku Egami

1

_{, Takahiro Kawamura}

1

_{, Kouji Kozaki}

3

_{, Akihiko Ohsuga}

1

_{電気通信大学大学院情報理工学研究科}

1

_{Graduate School of Informatics and Engineering, The University of Electro-Communications}

2

_{科学技術振興機構情報分析室}

2

_{Department of Information Planning, Japan Science and Technology Agency}

3

_{大阪大学産業科学研究所}

3

_{The Institute of Scientific and Industrial Research (ISIR), Osaka University}

Abstract: Illegally Parked Bicycle (IPB) is an urban problem in Tokyo and other urban areas. To support the problem solving by applying Linked Open Data (LOD), Illegally Parked Bicycle LOD (IPBLOD) has been sustainably built by us. Also, we have estimated and complemented the spatio-temporal missing data to enrich the IPBLOD, which has consisted of intermittent social-sensor data. However, it was necessary to manually extract factors of the IPB from the Web document, when designing the LOD schema. Therefore, it is diﬃcult to extract a wide range of factors. Thus, we propose a method to semi-automatically construct LOD including causal relations of the urban problem. Also, in this paper, we introduce our previous works and the extended results of estimation of spatio-temporal missing data.

1 はじめに

我が国では健康意識の高まりや環境問題への配慮などにより，自転車保有台数が昭和 45 年から平成 25 年までに 2.6 倍に増加している1_{．その一方で，駐輪場の} 整備不足や違法性の認識不足などにより，放置自転車の発生が後を絶たず社会課題・都市課題の一つとなっている．放置自転車のような身近な社会課題をデータ駆動方式で解決するためには，日々の問題発生状況のデータ蓄積と構造化，およびオープンデータ化することによる第三者の利活用促進が重要である．そこで，我々は放置自転車の原因を調査して Linked Data のスキーマ設計を行い，ソーシャルセンサにより観測された台数情報を基に放置自転車 LOD2_{を構築した [1, 3]．さら} に放置自転車 LOD の活用により，撤去活動の支援，駐 ∗連絡先：電気通信大学大学院情報理工学研究科〒 182-8585 東京都調布市調布ケ丘 1-5-1 E-mail: [email protected] 1 http://www.soumu.go.jp/menunews/s-news/94984.html 2_{http://www.ohsuga.is.uec.ac.jp/bicycle/dataset.} html 輪場，自転車シェアリング施設，バス停等の最適な設置場所の提示，都市設計の際の放置自転車シミュレーションが可能になると考えている．しかし，ソーシャルセンサによる観測は不定期で行われるため，収集されるデータには必ず時間的な欠損が生じる．また，全ての範囲を観測できるわけではないため，空間的な欠損（放置自転車が存在するが観測されていない地点）も存在している．そこで，我々は放置自転車の時間的・空間的な拡充を試み，ベイジアンネットワークと数値流体力学を用いて放置自転車 LOD の時間的・空間的欠損値を推定し補完する手法を提案した [2, 3, 4] これまでに提案した放置自転車 LOD の構築手法は，ポイ捨てや落書きなど放置自転車と同様に日常的に発生する他の社会課題にも適用できる可能性がある．しかしながら，LOD スキーマの設計の際は Web 文書からの人手による要因抽出を行う必要があったため，設計に手間がかかり広範囲の要因抽出が困難である．また，今後様々な社会課題の LOD 化を視野に入れた時に，社会課題の因果関係を LOD として構築しておく 10-01

(2)

ことで，複数の社会課題の因果関係リンクをたどった横断的な分析が可能になる．そこで，本論文ではこれまでの取り組みの紹介に加えて，放置自転車の因果関係を含んだ LOD を半自動的に構築する手法を提案する．具体的には因果抽出のプロセスにおいて，Web 文書や行政のオープンデータをから自然言語処理を用いた因果単語の抽出を行い，クラウドソーシングによる因果単語の絞り込みを行う．その後，クラス・インスタンスを設計し因果関係を構築する．以下，本論文では，まず 2 章で因果関係を含む LOD の半自動的な構築手法について述べる．3 章で放置自転車 LOD の時間的な欠損値の推定手法について述べ， 4 章で放置自転車 LOD の空間的な欠損値の推定手法について述べる．5 章で関連研究について述べる．最後に 6 章でむすびとする．

2 因果関係を含む

LOD

の半自動的

な構築

我々はこれまで放置自転車問題解決に向けてデータを収集し，継続的に放置自転車 LOD を構築してきた．放置自転車 LOD を構築するため，まず必要な要件を抽出した上でスキーマを設計した．この LOD スキーマ設計の手順を方法論としてまとめ，放置自転車と同様に日常的に生じる社会課題の LOD スキーマ設計に適用することを目指している．これまでの LOD スキーマ設計の方法論を次に示す． 1. ドメイン要件抽出 a. 対象とする地域課題をモデル化する既存オントロジーを選択 b. 検索エンジンを用いた記事検索 c. 記事からキーワードを抽出 d. キーワードのクラスタリング 2. スキーマ設計 a. 既存オントロジーを軸としてスキーマを設計 b. クラスタリング結果を基にインスタンスとプロパティと値の設計この方法論では全てのステップが手作業によるものであり，作業者の負担が大きいという問題がある．また，収集する Web 文書の数が少なく作業者一人の知識に依存するため，対象とする社会課題の因果関係の抽出に関してはカバー率が低いという問題がある．そこで，本論文では社会課題の因果関係を含んだ LOD スキーマを半自動的に設計する手法を提案する．また，本手法を社会課題の因果関係を含む LOD スキーマ設計の方法論として以下にまとめる． 1. 因果単語の抽出 a. 検索エンジンを用いた記事検索および収集（自動） b. 収集した記事から因果単語を抽出（自動） c. 抽出した単語を基にワードクラウドを生成（自動） d. クラウドソーシングによるキーワードの選択（半自動） 2. スキーマの設計 a. 対象とする社会課題をモデル化する既存オントロジーを選択（手動） b. 既存オントロジーを軸として因果単語を基にクラスを設計（手動） c. 設計したクラスを基にインスタンスを設計（手動）

2.1 因果単語の抽出

まず，対象とする社会課題名とその同意語を一番目の検索語とし，“要因” の同意語を二番目の検索語として検索エンジンを用いた記事検索を行う．本研究では放置自転車問題を対象とするため，一番目の検索語は “放置自転車”，“違法駐輪” を使用する．二番目の検索語は “要因” とその同意語であり，日本語 WordNet の RDF データ [9] から “因子”，“素因”，“要素”，“導因”， “もと”，“原因”，“誘因”，“起こり”，“起り” を取得して使用する．同意語として取得したが日本語文書において使用頻度の少ないと考えられる，“factor”，“ファクタ”，“エレメント”，“ファクター” に関しては，これらの検索語がメインとして検索されてしまったため除外した．本研究では検索エンジンとして Google を使用し，Google Custom Search API3_{に「放置自転車要}

因」のようなキーワードパラメータを与えて結果を取得する．取得するファイルタイプとして HTML と PDF を別々に指定し，一番目の検索語と二番目の検索語の全ての組み合わせで記事を 20 件ずつ検索する．HTML ページの場合はサイドバーやヘッダー・フッダーなどを除いたメインコンテンツのみ抽出するために，Mercury Web Parser API4_{を使用する．このように検索語を複}

数設定することで，対象とする社会課題の記事を広く収集する．HTML と PDF を分けて検索した意図としては，社会課題の因果関係について言及している記事を，行政の調査報告や議事録等と一般人の SNS やブログ等から満遍なく収集するためである．また，記事中 3_{https://developers.google.com/custom-search/?hl=ja} 4 https://mercury.postlight.com/web-parser/

(3)

における社会課題名の出現回数が低い場合は，この後の要因単語抽出処理でノイズが多く混ざってしまうため，社会課題名の出現回数でフィルタリングを行う．このような記事は，例えば地域の抱える様々な問題（育児，教育，医療，交通等）について全て述べた長文記事が該当する．今回は，“放置自転車” または “違法駐輪” の出現回数が合計 3 回未満の記事を解析対象外とした．次に，収集した記事を一文ごとに分割し，文ごとに形態素解析を行い名詞を抽出する．形態素解析には mecab-ipadic-NEologd5_{を使用した．この後の処理で} あるクラウドソーシングによる要因単語選択の処理において，ある程度意味が通じる名詞となるように，サ変接続名詞の直前・直後に名詞がある場合はそれらを連結して一つの名詞とする．例えば “駐輪料金” は通常 “ 駐輪 (名詞-サ変接続)” と “料金 (名詞-一般)” に分割されてしまうが，本手法ではサ変接続を結合して “駐輪料金” とする．次に TEXT2LOD[7] を用いて各文を RDF トリプルに分解する．TEXT2LOD は自然言語処理，ルール適用，条件付き確率場により，与えられた文からチャンク（句）を生成し関係抽出を行い，主語，述語，目的語を Linked Data として生成する Web API である．TEXT2LOD から得られた結果に対して，以下の SPARQL を実行することで対象とする社会課題の要因を表す句を取得する．取得した句の中に形態素解析を実行して得られた名詞が存在する場合，その名詞を要因単語として抽出する． S E L E C T D I S T I N C T ( str (? o2 ) AS ? v a l u e ) W H E R E { { S E L E C T ? s ? p W H E R E { ? s ? p ? o . f i l t e r (? p != < h t t p :// www . uec . ac . jp / p r o p e r t y / S E N T E N C E >) f i l t e r r e g e x ( str (? o ) , 二番目の検索語) } } O P T I O N A L { ? s ? p2 ? o2 . f i l t e r (? p2 != < h t t p :// www . uec . ac . jp / p r o p e r t y / S E N T E N C E >) } } 最後に抽出した要因単語の出現回数を重みとしてワードクラウドを生成する．図 1 に生成したワードクラウドを示す．出現回数が多いほど中心に位置し文字サイズが大きくなる．文字の色はランダムに決定する．このワードクラウドから放置自転車の原因として考えられるものを 10 個選択するというタスクを設定し，クラウドソーシングによる要因単語の選択を行う．今回は予備実験として 6 人の作業者に依頼した．作業者により選択された要因単語を図 2 に示す．今回はこのうち 2 人以上に選択された要因単語を使用した．また，図 2 のように “撤去頻度”，“撤去確率”，“撤去率” などの類 5 https://github.com/neologd/mecab-ipadic-neologd 図 1: 放置自転車の要因単語のワードクラウド図 2: ワードクラウドから選択された要因単語似の単語が存在することがある．このような場合は選択した人数の多い単語に統一する．最終的に抽出された放置自転車の要因単語は，“撤去頻度”，“同調行動”， “駐輪料金”，“時間的制約”，“施設”，“撤去保管料”，“ 設置方法”，“駐輪施設付近”，“環境要因”，“利己”，“ アクセス利用” である．同様に因果関係の結果（以下，結果単語）に関しての抽出も行う．日本語 WordNet の RDF から “引き起こす”，“惹起”，“もたらす”，“来たす”，“招く”，“誘発”，“生み出す” などの同意語を取得し，これらを二番目の検索語として要因抽出と同様の処理を行う．図 3 に結果単語に関して生成したワードクラウドを示す．このワードクラウドから放置自転車が引き起こすものとして考えられるものを 10 個選択するというタスクを設定し，6 人の作業者に選択された結果単語を図 4 に示す．最終的に抽出された結果単語は “盗難”，“都市景観”，“交通渋滞”，“快適性”，“走行空間”，“撤去作戦”，“公共サービス”，“妨げ”，“交通事故”，“犯罪”， “秩序” である．

2.2 因果関係を含むスキーマの設計

2.1 節で最終的に抽出した単語を基に因果関係を含むスキーマを設計する．まず，対象とする社会課題をモデ

(4)

図 3: 放置自転車の結果単語のワードクラウド

図 4: ワードクラウドから選択された結果単語

ル化する既存オントロジーを選択する．本研究では放置自転車をイベントとみなし，Event Ontology (EO)6

を選択した．次に，対象とする社会課題名のクラスを作成し，EO における Event クラスのサブクラスとする．次に，抽出した単語を基にクラスを作成し，因果関係のプロパティでリンクする．EO には要因として factor プロパティが存在するためこれを再利用する．要因クラスは factor プロパティの range として設定されている owl:Thing クラスのサブクラスとする．しかし，因果関係の結果部分に相当するプロパティが EO に存在しないため，cause プロパティを新たに定義してリンク付けする．また，place，time，agent，product，sub event プロパティを EO から再利用し，EO と同様の構造で設計する．さらに，対象とする社会課題において重要であると思われる項目がある場合，新たにプロパティとその値を追加する．放置自転車問題においては台数情報も重要な項目であるため追加する．放置自転車 LOD のクラス要件を以下に記述論理で示す．放置自転車_{⊑ Event} 放置自転車_{⊑ ∃place.SpatialThing} 放置自転車_{⊑ ∃time.TemporalEntity} 放置自転車_{⊑ ∃agent.Agent} 6 http://motools.sourceforge.net/event/event.html 放置自転車_{⊑ ∃product.Thing} 放置自転車_{⊑ ∃sub event.Event} 放置自転車 _{⊑ ∃factor.(撤去頻度 ⊔ 同調行動 ⊔} 駐輪料金_{⊔ 時間的制約 ⊔ 施設 ⊔ 撤去保管料 ⊔} 設置方法_{⊔ 環境 ⊔ 利己 ⊔ アクセス利用)} 放置自転車_{⊑ ∃cause.(盗難 ⊔ 都市景観 ⊔ 交通} 渋滞_{⊔ 快適性 ⊔ 走行空間 ⊔ 公共サービス ⊔ 撤} 去作戦_{⊔ 妨げ ⊔ 交通事故 ⊔ 犯罪 ⊔ 秩序)} 放置自転車_{⊑ ∃number.Integer} 次に各クラスのインスタンス部分を設計する．各クラスのインスタンスは実データを基に作成されるため，データとして取得することが困難な場合は LOD 化する際にインスタンスを作成しない．最終的に設計した放置自転車の LOD スキーマを図 5 に示す．各要因単語・結果単語のクラス-インスタンス関係は例として駐輪料金のみ示している．

2.3 LOD の構築

これまでの研究で，Twitter 上で位置情報，写真，ハッシュタグを付けた放置自転車台数報告のツイートを募集し，現在までに 1174 件の放置自転車の台数情報を収集している．さらに，周辺施設の情報を Google Places API7_{と Foursquare API}8_{から取得し，駐輪場の情報を}

東京都総務局および市区町村の Web サイトから収集した [3]．そこで，本論文で新たに設計した LOD スキーマに従い，過去に収集した放置自転車に関するデータを LOD 化した．構築された放置自転車 LOD の一部を図 6 に示す．インスタンスレベルでは実際にデータを取得可能なリソースのみ追加している．因果関係の結果については事故や犯罪などの容易に取得できない，または容易に関連付けられない繊細なデータが多く，今回は追加を見送ることになった．構築したデータ全体は RDF データベースの Virtuoso9に格納し，SPARQL エンドポイント10_{を通して Web 上に公開している．ま} た，データセット一式をオープンライセンスで公開している11_．

2.4 LOD スキーマ設計の考察

因果関係抽出処理において，最終的に収集された要因の記事数はリンク切れや画像 PDF を除いて 330 記事となり，“放置自転車”，“違法駐輪” を合計 3 個以上含 7_{https://developers.google.com/places/?hl=ja} 8_{https://developer.foursquare.com/} 9_{http://virtuoso.openlinksw.com/} 10_{http://www.ohsuga.is.uec.ac.jp/sparql} 11_{http://www.ohsuga.is.uec.ac.jp/bicycle/dataset.} html

(5)

図 5: 放置自転車の LOD スキーマの一部図 6: 実際に構築される放置自転車 LOD の一部む文は 83 記事であった．また，要因単語を抽出した文の数は全 64,676 文のうち 103 文であった．因果関係の結果に関する記事数は 323 記事となり，“放置自転車”， “違法駐輪” を合計 3 個以上含む文は 57 記事であった．結果単語を抽出した文の数は全 164,238 文のうち 94 文であった．記事数が減った原因としては，Google 検索において二番目の検索語を重視してマッチした記事が取得されてしまう場合があるためである．特に因果関係記述を多く含む医療関係の記事がノイズとして多く取得された．今後は「“放置自転車の原因”」など，検索語をスペースで区切らずにフレーズとして検索することで，この問題を解決できると考える．また，クラウドソーシングによる要因単語・結果単語選択の一致度を算出するためにカッパ係数 [6] を計算した．要因単語はワードクラウドの表示単語数 238 語に対してカッパ係数は 0.464，結果単語は表示単語数 204 語に対してカッパ係数は 0.433 となり，どちらも中程度の一致度が得られた．この結果から，要因単語・結果単語の抽出結果およびワードクラウドの表示はある程度妥当であったと考えられる．しかし，放置自転車の要因として考えられる盗難，駅，駐輪場の設備（照明，ロック方式）などの単語は取得できなかった．これは形態素解析と TEXT2LOD を用いた因果単語抽出処理と，クラウドソーシングによる因果単語選択処理のどちらかで抽出漏れしていることが原因である．前者の場合，TEXT2LOD で SVO に分割する時に，要因について言及している部分が欠落することがわかった．これは，行政の発行する記事に冗長的な言い回しが多く，一つの文が複雑な複文で構成されていることが多いからである．後者の場合，今回は作業人数が少なかったことも原因の一つであるが，因果単語抽出処理の段階で放置自転車以外の要因単語も多く抽出されたことも原因であると考えられる．その結果，放置自転車の真の要因単語の抽出回数が相対的に減ることとなり，ワードクラウド上で目立たなくなった．これにより，真の要因単語が作業者に選択されづらくなったと考えられる．今後は対象とする社会課題の因果単語をより高精度に抽出するために，因果単語の抽出ルールを新たに設定する必要があると考える．また，結果単語に関しては放置自転車により引き起こされる問題と，放置自転車が与える影響が混在するという結果になった．今後は結果単語の分類を行い，適切なプロパティでリンクする必要がある．

(6)

本論文で構築したスキーマとこれまでに構築していた放置自転車 LOD[3] のスキーマを比較すると，スキーマ設計の段階では要因リソースと結果リソースの数が大幅に増加している．しかし，これらのリソースは実データとして取得できるものが少なく，LOD 構築の段階ではこれまでの放置自転車 LOD と比べて要因リソースの数が減少するという結果になった．そのため，クラスレベルでの因果関係分析に使用できる可能性があるが，インスタンスレベルでの因果関係分析を目的として使用することは難しい．今後は，現在データとして取得することができないものについて，新たにオープンデータ化するように行政に働きかける必要があると考える．また，要因単語クラスと結果単語クラスの粒度を，実データを取得できる範囲で統一化・階層化する必要があると考える．

3 時間的欠損値の推定

放置自転車問題において，自転車の放置台数はソーシャルセンサにより観測されるため，各観測地点における全ての時間帯の放置台数を観測することはできない．すなわち，構築した放置自転車 LOD には時間的な欠損が生じる．この欠損データを推定・補完することで時系列的に密な LOD となり，データとしての有用性が高まる．そこで放置自転車 LOD では，未観測日時の放置自転車の台数をベイジアンネットワークにより推定する．推定結果をもとに RDF グラフを構築し，放置自転車 LOD に追加する．ベイジアンネットワークとはグラフィカルモデルの一種であり，因果関係を確率的に表現することで様々な推論を行う技術である．まず，放置自転車 LOD から放置自転車の要因を取得する．放置自転車の要因は event:factor プロパティを辿ることで取得できるリソースまたは値と仮定し，これらをベイジアンネットワークにおける属性とする．2.4 節で述べた通り，本論文で新たに構築した LOD は要因の種類がこれまでの放置自転車 LOD より減少している．そのため，時間的欠損値の推定に関してはこれまでに構築した放置自転車 LOD のデータを使用する．使用する属性は，実際にデータとして取得することができた観測地点，曜日，時間帯，降水量，気温，駐輪場 の日極料金，駐輪場の月極料金，可住地面積 1km2_当たり人口密度，自宅外通勤・通学者数（鉄道・電車），周辺施設のタイプとした．ここで，周辺施設のタイプは全部で 68 種類得られたが，これを全て属性として追加すると属性過多となる．そこで，LinkedGeoData[14] オントロジーにおける上位クラスを取得し，これを属性とすることで周辺施設の属性数を 46 種類にまで削減 している．各属性の集合は観測地点名 Loc，曜日 Day， 時間帯 Hour = {1, . . . , 24}，降水量 P recipitation = {0, 1, ...}，気温 T emperature = {..., −1, 0, 1, ...}，駐 輪場の日極料金 DailyF ee ={0, 1, . . .}，駐輪場の月極 料金 M onthlyF ee ={0, 1, . . .}，人口密度 Density = {0, 1, ...}，自宅外通勤・通学者数 Commuters={0,1,...}, 周辺施設のタイプ 46 種 = {0, 1}，放置台数 Num = {1, 2, 3, 4} である．放置自転車の台数 Num は自然分類

（Jenks Natural Breaks）[15] を用いて 4 つに分類し，台数の範囲は，0∼6，7∼17，18∼35，36∼100 となっ ている．この 56 次元のベクトル集合 O を入力データと して，時間的な欠損における放置自転車の台数をベイジアンネットワークにより推定する．ベイジアンネットワークのライブラリとして Weka12_{を使用する．データ} 数は 1174 件である．すなわち，1174 件のデータを学習データとして，既知の観測地点の未観測日時における放置自転車の台数を推定する．ベイジアンネットワークにおけるパラメータとして，探索アルゴリズム，確率計算アルゴリズム，マルコフブランケット分類器の有無，最大親ノード数，評価指標の項目を変更しながら実験を行い，最も推定精度の高くなるパラメータを採用する．最終的に，探索アルゴリズムとして LAGDHillClimber を使用，確率計算アルゴリズムとして SimpleEstimator を使用，マルコフブランケット分類器を使用，最大親ノード数を 7，評価指標を BAYES とした時に，10 分割交差検証の精度が 70.9%と最も高くなった．ベイジアンネットワークによる放置台数推定後に，推定結果とその確率を用いて RDF グラフを生成し，放置自転車 LOD に追加する．本研究では，各観測地点において初観測日から最終観測日までの間で，午前 9 時または午後 9 時に観測がされていない場合に，前述のパラメータ設定で放置自転車の台数を推定する．推定値とその確率を基に次のような RDF を生成し，放置自転車 LOD に追加する． @ p r e f i x ipb : < h t t p :// www . o h s u g a . is . uec . ac . jp / i p b l o d / v o c a b u l a r y # > @ p r e f i x b i c y c l e : < h t t p :// www . o h s u g a . is . uec . ac . jp / b i c y c l e / r e s o u r c e / > b i c y c l e : i p b _ { o b s e r v a t i o n p o i n t } _ { d a t e t i m e } ipb : e s t i m a t e d V a l u e [ rdf : v a l u e "0 -7" ; ipb : p r o b a b i l i t y " 0 . 7 7 2 " ^ ^ xsd : d o u b l e ] .

4 空間的欠損値の推定

放置自転車 LOD には時間的な欠損値だけでなく，空間的な欠損値（放置自転車があるが未観測の地点）も存在している．我々はこの空間的な欠損値を補完することにより，放置自転車 LOD を地理空間的に拡充する手法を提案した [4]．本論文ではこの手法について，実験データを増加しノイズの除去を行った結果とともに報告する．人の避難行動のシミュレーション研究においては物理モデル手法，セルオートマトン法，エージェントシ 12 http://www.cs.waikato.ac.nz/ml/weka/

(7)

図 7: 調布駅周辺の格子生成図ミュレーションが存在する [5]．我々はこれらの手法から着想を得て，人の流れをシミュレーションすることで自転車の放置地点を推定できないかと考えた．セルオートマトン法とエージェントシミュレーションは行動ルールを設定する必要があり，放置者個人の目的が不明瞭な放置自転車問題においては，これらの手法を直接取り入れることは難しい．そこで，本研究では流体の保存則に従う物理モデルを用いて放置自転車のシミュレーションを行う．具体的には，駅付近の 3D 地図を基に気流のシミュレーション行うことでよどみ点を検出し，放置自転車の観測地点との相関性を調べた．さらに DBpedia Japanese[16] を用いてよどみ点をフィルタリングし，この結果を放置自転車が存在する可能性の高い地点として，空間的な欠損値を推定した．

4.1 CFD を用いたよどみ点の検出

本研究では国土地理院基盤地図情報サービス13_から建物の平面データを取得し，地理情報サービスの Ar-cGIS14_{を用いて建物の 3D データを作成した．建物の高} さデータは取得することができなかったため一律 30m として作成した．次に，ArcGIS 上で動作する気流のシミュレーションソフトである Airflow Analyst15_を使用して，駅付近の気流シミュレーションを行った．図 7 は調布駅を中心として解析範囲を設定して格子を生成した図である．解析範囲は放置自転車の観測地点が全て含まれるように設定した．図 7 では調布駅を中心として 700m 四方を解析範囲とし，格子点間の距離を 5m，合計格子点数を 10,000 としている．また，風源は駅に伸びる道路と平行になるように設定し，調布駅の場合は道路に沿って 4 方向から人が駅に向かうことを想定し 11 度，109 度，190 度，288 度と風向を変えてシミュレーションを行う． 13_{http://www.gsi.go.jp/kiban/} 14_{http://www.esrij.com/products/arcgis/} 15 http://www.airflowanalyst.com/ 図 8: 調布駅周辺の平均風速図 9: 本研究で定義したよどみ点のパターン図 8 は風向を 11 度として，風速 5m/s の風を発生させた時のシミュレーション結果を基に，全格子点における平均風速の値を OpenStreetMap16_{上にプロットし} た結果である．青い点が格子点であり，この点の大小が平均風速を表している．この数値データを基に気流のよどみ点を検出する．よどみ点とは流れ場の中で流体の速度が 0 になる点である．我々は図 9 のパターンを全格子点に適用してよどみ点の検出を試みた．黒色部分は平均風速が 0 以上の点，白色部分が平均風速が 0 の点，灰色部分が平均風速が 0 より大きく 0.1 以下の点である．実際には平均風速が 0 の格子点は建物がある点となるため，本研究では隣接する格子点より平均風速が低く，かつ平均風速が 0.1 以下の点をよどみ点として定義した．結果として，パターン (a) と (j) が最も放置自転車の観測地点の分布と近い結果となったため，本研究においてはよどみ点の検出にパターン (a) と (j) を使用する．図 10 は調布駅において 4 方向のシミュレーション結果に図 9 のパターン (a) と (j) でよどみ点を検出し，4 方向の検出結果をマージして地図上にプロットしたものである．青いマーカはよどみ点であり，赤いマーカは放置自転車の観測地点である． 16 https://openstreetmap.jp/

(8)

図 10: 調布駅周辺にけるよどみ点の検出結果

4.2 DBpedia Japanese を用いたよどみ点

のフィルタリング

前節で述べた手法によりよどみ点を検出したが，図 10 を見て分かる通り多くのノイズが含まれている．我々は，気流のよどみ点付近であり，かつ注目度の高い POI が周囲に存在する点に放置自転車が発生しやすいと考えた．そこで，よどみ点周囲の POI の注目度を DBpedia Japanse を用いて算出し，注目度の総和でフィルタリングした．まず，前節で得られたよどみ点の緯度経度を基に， Google Places API で半径 20m 以内の POI を検索する．取得した POI の type に関するリソースについて，DBpedia Japanse 上での被リンク数を計算する． Google Places API のタイプは DBpedia Japanse のリソースに予めマッピングしている．我々は，人物に関するリソースからの被リンク数を注目度とし，POI の type に関するリソースが foaf:Person のインスタンスから受けているリンクの数を取得した．例えば (http://ja.dbpedia.org/resource/居酒屋) の場合この値は 47 となる．その後，周辺 POI の注目度の総和を計算し，注目度の合計が 200 未満であるよどみ点を除外する．この閾値は 100 から 1000 まで変動させて，最も結果が良くなったものを使用している．次に，自転車が入ることができない建物敷地内の空間も推定値の対象となっているため，これらの範囲内で得られた推定値をノイズとして除去する．建物データと同様に国土地理院基盤地図情報サービスから道路データを取得し，最寄りの道路から 10m 以上離れて存在している点をノイズデータとして削除する．図 10 のフィルタリング後の結果，すなわち最終的な空間的欠損の推定値を示す．緑色の点は建物敷地内と判定され削除された点である．さらに，この空間的欠損の推定値を以下の RDF 表現で放置自転車 LOD に追加した．追加したデータを放置図 11: 調布駅周辺にけるフィルタリング後のよどみ点（最終的な推定値）自転車マップ17_{で図 12 のように可視化しており，こ} れにより新規観測地点における放置自転車の台数データの収集が期待できる． @ p r e f i x ipb : < h t t p :// www . o h s u g a . is . uec . ac . jp / i p b l o d / v o c a b u l a r y # > @ p r e f i x b i c y c l e : < h t t p :// www . o h s u g a . is . uec . ac . jp / b i c y c l e / r e s o u r c e / >

@ p r e f i x geo : < h t t p :// www . w3 . org / 2 0 0 3 / 0 1 / geo / w g s 8 4 _ p o s # > . @ p r e f i x o g c g s : < h t t p :// www . o p e n g i s . net / ont / g e o s p a r q l # > . @ p r e f i x n g e o : < h t t p :// g e o v o c a b . org / g e o m e t r y # > . @ p r e f i x d c t e r m s : < h t t p :// p u r l . org / dc / t e r m s / > . @ p r e f i x gn : < h t t p :// www . g e o n a m e s . org / o n t o l o g y # > . @ p r e f i x g n j p : < h t t p :// g e o n a m e s . jp / r e s o u r c e / > . @ p r e f i x xsd : < h t t p :// www . w3 . org / 2 0 0 1 / X M L S c h e m a # > . b i c y c l e : e s t i m a t e d _ o b s _ { t i m e s t a m p } rdf : t y p e ipb : E s t i m a t e d O b s e r v a t i o n P o i n t ; geo : lat " l a t i t u d e "^^ xsd : d o u b l e ; geo : l o n g " l o n g i t u d e "^^ xsd : d o u b l e ; gn : p a r e n t A D M g n j p :{ P r e f e c t u r e } gn : p a r e n t A D M 2 g n j p :{ City , P r e f e c t u r e } ; gn : p a r e n t A D M 3 g n j p :{ Town , City , P r e f e c t u r e } ;

gn : p a r e n t A D M 4 g n j p :{ L a n d lot , Town , City , P r e f e c t u r e } ; n g e o : g e o m e t r y [ a n g e o : G e o m e t r y ; o g c g s : a s W K T " P O I N T ( l a t i t u d e , l o n g i t u d e ) "^^ < h t t p :// www . o p e n l i n k s w . com / s c h e m a s / v i r t r d f # G e o m e t r y > . ] ; gn : n e a r b y b i c y c l e :{ POI n a m e } ; d c t e r m s : c r e a t e d " d a t e t i m e "^^ xsd : d a t e T i m e .

4.3 評価と考察

本節では，4.1 節で述べたよどみ点検出手法と 4.2 節で述べた手法それぞれとベースライン手法を比較することで，本研究の提案手法の優位性について検証した結果を示す．本研究では，事前に放置自転車の観測地点を複数取得できている調布駅，府中駅，新宿駅を対象に実験を行った．4.2 節で述べた提案手法とベースライン手法の再現率，適合率を比較する．全よどみ点の内，放置自 17 http://www.ohsuga.is.uec.ac.jp/bicycle/

(9)

図 12: 空間的欠損値推定結果の可視化転車の観測地点から半径 20m 以内に含まれるよどみ点の割合を適合率と定義した．また，全観測地点の内，半径 20m 以内によどみ点を含む観測地点の割合を再現率とした．ベースライン手法では一様性を保つために，提案手法により推定された地点数とほぼ同数となるように格子の幅と格子点数を設定し，この格子点をベースライン手法における推定地点としている．図 13 に本研究のベースライン手法を示す．表 1 にベースライン手法と提案手法の再現率，適合率，F 値を示す．結果として，提案手法は再現率，適合率，F 値の全てにおいてベースライン手法を上回った．また，ベースライン手法と提案手法 1 結果に差がないとの帰無仮説のも と，χ 二乗検定を適用した結果，5%水準で優位であっ た (χ2 _{= 22.3725, df = 1, p < 0.05)．従ってベースラ} イン手法と提案手法に優位な差が見られ，提案手法は放置自転車の新規観測地点検出の手法として一定の優位性があると考える．提案手法の精度が落ちた原因として，観測地点数の不足が考えられる．本研究で正解データとして使用した観測値点数は調布駅付近と府中駅付近と新宿駅付近の合計で 56 地点である．実際には提案手法により推定された地点の付近にも放置自転車が存在している可能性はあり，正確な精度を計算するためには推定地点の実地調査による確認が必要である．

5

6 むすび

本論文では，放置自転車の因果関係を含んだ LOD を半自動的に構築する手法を提案した．これにより，これまで手動で行っていた LOD スキーマの設計段階から，因果関係を含んだ社会課題の LOD を半自動的に構築することが可能となった．今後は因果関係抽出及び構築精度を高めるために，2.4 節で述べた解決策を試行する．本手法により放置自転車以外の様々な社会課題が LOD 化されることで，社会課題同士の因果関係を記述した大規模な LOD クラウドの形成が期待できる．これにより，LOD の因果関係リンクを辿って自治体の抱える課題の解決策の提示などが可能になると考える．また，本論文では放置自転車 LOD の時空間的な欠損値を推定し補完する手法を紹介し，新たにデータを追加して実験を行った結果を可視化した．今後はより多くの地域で推定実験を行い，実地調査により提案手法の精度を算出する．

参考文献

[1] 江上周作，川村隆浩，大須賀昭彦.: 放置自転車問題解決に向けた循環型LOD構築システムの提案．人工知能学会研究会資料，SIG-SWO-038-08 (2016) [2] 江上周作，川村隆浩，大須賀昭彦.: 放置自転車LODの拡充に向けた空間的欠損値推定手法の提案．人工知能学会研究会資料，SIG-SWO-039-06 (2016)

[3] Egami, S., Kawamura, T., Ohsuga, A.: Building Urban LOD for Solving Illegally Parked Bicycle in Tokyo. In: Proc. The 15th International Semantic Web Conference, pp.291-307 (2016)

[4] Egami, S., Kawamura, T., Ohsuga, A.: Estimation of Spatio-temporal Missing Data for Expanding Urban LOD. In: Proc. The 6th Joint International Semantic Technology Conference, pp.152-167 (2016)

[5] 堀宗明，宮嶋宙，犬飼洋平，小国健二.: 地震時避難行

動予測のためのエージェントシミュレーション，土木学会論文集Ａ, vol.64, no.4, pp.1017-1036 (2008) [6] Landis, J Richard and Koch, Gary G.: The

mea-surement of observer agreement for categorical data. Biometrics, pp.159-174 (1977)

[7] 川村隆浩，大須賀昭彦.: TEXT2LOD∼テキスト情報

のLOD化に向けたWeb APIの開発∼．人工知能学会

論文誌(to appear) [8] 坂地泰紀，増山繁.: 新聞記事からの因果関係を含む文の抽出手法．電子情報通信学会論文誌，Vol.J94-D, No.8, pp.1496-1506 (2011) [9] 小出誠二，他.:日本語WordNetとIPAdic辞書のRDF 化とDBpediaリンク．人工知能学会全国大会論文集， Vol.27, 1N4-OS-10b-4 (2013)

[10] Bischof, S., Martin, C., Polleres, A., Schneider, P.: Collecting, Integrating, Enriching and Republishing Open City Data as Linked Data. In: Proceedings of the 14th International Semantic Web Conference (ISWC), pp.57-75 (2015)

[11] Lopez, V., Kotoulas, S., Sbodio, M. L., Stephenson, M., Gkoulalas-Divanis, A., Aonghusa, P. M.: Queri-oCity: A Linked Data Platform for Urban Informa-tion Management. In: Proceedings of the 11th Inter-national Semantic Web Conference (ISWC), pp.148-163 (2012)

[12] Barbieri, D. F., Ceri, S.: C-SPARQL: SPARQL for continuous querying. In: Proc. The 18th Interna-tional Conference on World Wide Web, pp.1061-1062 (2012)

[13] Auer, S., Bizer, C., Kobilarov, G., Lehmann, J., Cy-ganiak, R., Ives, Z.: DBpedia: A Nucleus for a Web of Open Data. In: Proc. The 6th International Se-mantic Web Conference, 2nd Asian SeSe-mantic Web Conference (ISWC 2007 + ASWC 2007), pp.722-735 (2007)

[14] Stadler, C., Lehmann, J., H¨oﬀner, K., Auer, S.: LinkedGeoData: A Core for a Web of SpatialOpen Data. Semantic Web Journal, vol.3, no.4, pp.333-354 (2012)

[15] Jenks, G. F.: The data model concept in statisti-cal mapping. International yearbook of cartography, vol.7, no.1, pp.186-190 (1967)

[16] Kato, F., Takeda, H., Koide, S., Ohmukai, I.: Build-ing DBpedia Japanese and Linked Data Cloud in Japanese. In: Proceedings of the Joint International Workshop: 2013 Linked Data in Practice Workshop (LDPW2013) and the First Workshop on Practical Application of Ontology for Semantic Data Engi-neering (PAOS2013). CEUR Workshop Proceedings (2013)

放置自転車問題における因果関係を含むLODの半自動的な構築手法の提案