DEIM Forum 2016 D1-4
鉄道における乗車率予測手法と
グリーン車の乗車実測データを用いた実証実験
髙垣 良宏
1荻原 崇
2倉林 修一
3清木 康
4 1JR 東日本研究開発センターフロンティアサービス研究所 〒331-8513 埼玉県さいたま市北区日進町 2-479 2慶應義塾大学大学院政策メディア研究科 3,4慶應義塾大学環境情報学部 〒252-0882 神奈川県藤沢市遠藤 5322 E-mail: 1[email protected], 2,3,4{ ogiogi93,kurabaya,kiyoki}@sfc.keio.ac.jpキーワード 鉄道, 混雑予測,類似度計算, 在来線グリーン車
要旨
本稿では,鉄道環境において,列車からリアルタイムに得られる荷重センサの値と,蓄積した過去の列車の荷重データとの照合 を行い,直近の未来の列車の混雑率を高精度に予測する方式を示す.本方式を鉄道利用の乗客への情報提供に適用することによ り,乗車の快適さと列車運行上の安全性を同時に向上させることが可能になる.本方式の特徴は,過去の列車の乗車率のデータベ ースを構成し,現在運行中の列車からリアルタイムに得られる乗車率(荷重センサ値から得られる値)の変化の履歴に最も類似 している変化の特徴を有する過去の列車の乗車率を検索し,過去のその列車のその後の乗車率を現在運行中の列車の予測データ として利用する点にある.JR 東日本は,既に,長期に渡り荷重センサ値の履歴を保有しており,これらのセンサ・ビッグデータを 過去の列車の乗車率のデータベースとして構成する本方式は,計算により予測することが困難な乗客の非線形な振る舞いを対象 として,これから発生する乗車率の変化を予測することを可能にする.1. はじめに
鉄道を利用する旅客は,これから乗車する列車の乗車率の 把握,および,混雑度の変化の予測を期待している.轟らの研 究によれば[1],混雑情報の提供は,混雑時における乗車率の ばらつきを平準化させる可能性を示唆している.ある程度長 い時間列車に乗る場合,混雑しているか,席に「座れる」か「座 れないか」は,旅客にとって大きな関心事である. また鉄道輸 送トラブルの発生原因において,遅延時間が 10 分未満の場合 は混雑によるものが多いという調査結果がある[2].遅延が一 旦発生すると遅延時間が拡大し,列車運行上の安全性が損な われることが懸念される[3]. そのため乗車率の情報提供は 旅客に対し,乗車の快適さと列車運行上の安全性を同時に向 上させることが可能になる. 本稿は,着席の機会がいつ訪れるか情報提供する目的で,乗 客がこれから乗ろうとしている列車を対象に,直近の未来の 乗車率を予測する.乗車率の情報提供は,現在山手線に「JR 東 日本アプリ」[4]にて混雑可視化が実施されている.これは車 両に搭載されている荷重センサから得られた乗客人数をリア ルタイムで伝送することで実現している.このセンサにより 現在乗車している列車の乗車率をリアルタイムで確認するこ とができ,今後リアルタイム情報提供は拡大していくことが 期待される.一方で,現時点での乗車率の情報提供に留まって いるため,その先の列車の乗車率がどのように変化していく かまでの情報提供は行われていない. 今回,実験の対象を在来線グリーン車に設定した.在来線グ リーン車とは座席に座れることを主なサービスとした列車で あり,サービスの特性として形のない無形性と,限定された時 間や空間に対し存在し在庫や保存が出来ないという非貯蔵性 がある.また,席は全て自由席のため着席が保証されていない, かつグリーン券の事前購入料金と車内購入料金とで金額が 260 円も異なるという利用する上での懸念事項が存在する.そ のため旅客に空席情報及び直近の乗車率の情報提供をすることで在来線グリーン車の利用促進に繋がると考えられる. 在来線グリーン車の乗車率を予測するにあたり最大の課題 は,列車への乗降は,旅客の意図次第で大きく変化するため,非 線形な振る舞いとなる点が挙げられる.具体的には,その日の 天候や気温,駅周辺で開催されるイベントや駅構内での混雑 状況に応じて,列車の乗車率は大きく変動する. したがって, 現在運行中の列車のリアルタイムに得られる乗車率から未来 の値を,計算により直接予測することは難しい. 本稿では,ユーザがこれから乗ろうとしている列車の乗車 率と,類似する時系列変化をした過去データを,過去数か月間 のすべての列車のログデータという膨大な候補の中から参照 することにより,直近の未来を予測する方式を開発した.デー タの統計量を使って算出した重みを用いる「重み付き類似 度」計算方式にて,予測列車の乗車率から最も類似した過去 列車のデータを用い予測値を算出する手法を検証する.
2. 手法の検討
本システムの基本構造および利用データ,類似度計算手法 について以降に詳細を述べる. (1)システムの基本構造 本システムは, 過去の列車のログデータを“荷重センサデ ータ履歴・データベース”として蓄積し,“現在走行中列車混 雑度データ”との類似度計算により,予測対象列車の予測し たい駅までの乗車率の変化と最も類似している変化の特徴を 有する過去の列車を抽出し,その後の乗車率を用い線形回帰 によって現在運行中の列車の予測データとして算出する(図 1 参照).線形回帰する理由は,予測対象列車の推移を考慮し た乗車率を推定するためである. (2)利用データについて JR 東日本では在来線グリーン車は東海道線,横須賀・総武快 速線,宇都宮線,高崎線,湘南新宿ライン,上野東京ライン,常磐 線の普通列車,快速列車に連結されており,運転距離及び一回 あたりの平均乗車時間が長い.「上野東京ライン」「湘南新宿ラ イン」「高崎線」「宇都宮線」「東海道線」を対象路線と設定し, 図1.システム構成図および空間的かつ時間的に類似した列車参照モデル列車から得られる荷重センサ値を分析対象データとして利用 する.荷重センサは車両にかかる荷重に応じたブレーキ制御 を行うことを目的に車両に搭載されている装置のことで,こ の荷重を測定することで総重量を算出する.その後,総荷重を 人間の平均体重で除算することで乗車率を算出している.し かし,測定中に発生する揺れや乗客の平均体重の変動により, 誤差が生じる.そのため本システムでは在来線グリーン車の 座席使用記録データにより実際の使用実績を調査,荷重セン サ値との比較を実施した.その結果から総じて誤差を±20% と設定した. 本研究で分析する過去の“荷重センサデータ履歴・データ ベース”のテーブル構造及びデータは表 1,表 2 の通りである. 行数は 2,142,895 行となり,データ保有期間は本年度のダイ ヤ改正後の H27.3.14 から H27.8.10 までの 150 日間で総列車 本数は 73,738 本となる. 表 1 テーブル構造 表 2 データ一例 (3)類似度計算手法 鉄道空間の場合,時間帯や日付,駅における利用者数など, 様々な要因が影響し,その列車の乗車率が変動していると考 えられる.本システムではデータの統計値から得られる特徴 を重みとして計算に加え,独自の「重み」を用いた計算手法を 検証していく.最初のプロトタイプとして重みを反映させる のが容易であって検証しやすいユークリッド距離を計算のベ ースに使用した. 予測する駅を N とすると,始発駅から予測する手前の駅は M=N-1 の M 次元となる.予測列車の乗車率の変化はχ = (𝜒1, … , 𝜒𝑀), {0 ≤ 𝜒 ≤ 3},過去データの乗車率の変化を𝜇 = (𝜇1, … , 𝜇𝑀), {0 ≤ 𝜇 ≤ 3}とすると類似度Dは(1)式で求めるこ とができる. D = √∑𝑀𝑚=1(𝑥𝑚− 𝜇𝑚)2 (1) {0 ≤ 𝐷 ≤ √9𝑀} (4)変化量による重みづけ 過去データから乗車率の変化が起きやすい駅とそうでない 駅の違いを強調させるため,変化量として前の駅との乗車率 の差分を算出し,平均を取ることで重みωを算出した.分析デ ータより列車α{α ≤ 73,783},駅β{β ≤ 97},列車の乗車率のy = (y1, … , 𝑦𝛽), {0 ≤ 𝑦 ≤ 3}から駅βにおける𝜔𝛽は(2)式で求める ことができる.なお実データの一例を表 3 に示す. 𝜔𝛽= ∑𝛢𝛼=1(𝑦𝛽− 𝑦𝛽−1)/𝛢 (2) ω=(𝜔1,…, 𝜔𝛽) 𝜔 = {0 ≤ 𝜔 ≤ 2.7} 表 3 変化量から算出した重み 一例 算出した重み𝜔を(1)式に加え,(3)式を定義した. D = √∑𝑀𝑚=1𝜔𝑚(𝑥𝑚− 𝜇𝑚)2 (3) {0 ≤ 𝐷 ≤ √24.3𝑀} (5)時間差による重みづけ 時間帯によって乗車率のピーク(荷重センサの誤差を± 20%としているため 80%をピークと設定している)を迎え る駅が存在するため(表 2 参照),予測したい列車の時刻と
過去データの列車の時刻の差を重みとして加えることで,過 去データから予測したい列車と近い時刻の列車を参照するこ とが出来る.前節までの類似度計算(1),(3)に時間差で算出し た時間軸の重み𝛥𝑡 =(𝑡𝑥𝑀− 𝑡𝜇𝑀){𝛥𝑡: 𝛥𝑡𝑚𝑖𝑛= 0, 𝛥𝑡𝑚𝑎𝑥= 1439} を加えるパターン(4),(5)式を検証する. D (𝛥𝑡, √∑𝑀𝑚=1(𝑥𝑚− 𝜇𝑚)2) (4) {0 ≤ 𝛥𝑡 ≤ 1439, √9𝑀} D (𝛥𝑡, √∑𝑀𝑚=1𝜔𝑚(𝑥𝑚− 𝜇𝑚)2) (5) {0 ≤ 𝛥𝑡 ≤ 1439, √24.3𝑀} 表 2 時間細分別,乗車率 8 割超の本数と割合の一例 (上野駅・北行列車) (6)空間的かつ時間的に類似した列車参照モデル (1),(3)式の類似度計算を用い,予測列車に類似した列車を 過去データから一定の本数を抽出する.抽出した列車から予 測列車の普通車の乗車率の差と,時刻の差を求め,一番類似し ている列車を割り出す.これにより,在来線グリーン車の乗車 率の変化が似ている過去の列車の中から,普通車の乗車率及 び時刻が近い列車を選択することで,過去データから列車内 全体の空間と運転時刻に類似した列車が参照できる.(図 1 参 照)
3. 評価実験
(1)実験概要 本システムにおける計算方式の精度評価のため,実験を実施 した.実験方法について,以下の手順で実施した. ① 予測対象列車と日付,駅を入力する ② 前章までの各計算手法を用いて,過去データから類似 した特徴を持つ列車を参照する ③ 線形回帰を実施し,予測駅から 4 駅分までの区間の予 測値を算出. ④ 正解値との差の累積和をスコアとして抽出 スコアが低い程予測誤差が小さく,精度が良いと判断できる. また,予測区間を 4 駅分とした理由として,1 つの駅の間隔を約 5 分とした時,実際の利用者は直近の未来である約 20 分以内 の予測情報を知りたいと考えるという仮説を立てたためであ る.20 分以内の乗車率に関する情報によって,利用者は必要な 乗車券類を購入する余裕が得られると考える.(図 2 参照) 実験は各計算手法の精度確認を信頼度 95%のとき𝜇(𝛼)=1.96, 誤差ε=5%の範囲で検証するため必要な標本数 n を(5)式によ り算出した. N は母集団の大きさ, ρ は母比率で,ここでは最も n が大き くなる 0.5 を用いた. n ≥ 𝑁 {( 𝜀 𝜇(𝛼)) 2 × { 𝑁 − 1 𝜌(1 − 𝜌)} + 1} (6)式より算出した最小限必要な標本数を 385 個と設定し,無 作為に標本を抽出し実験を行い,精度を比較する[5].また,鉄 道の運行ダイヤは平日と休日で異なるため評価実験では, そ れぞれ分けて行った. 図 2. 実験の実例 (6)表 3 平日ダイヤの類似度計算結果 P<0.05 自由度はいずれも(5,2335) 表 4 休日ダイヤの類似度計算結果 P<0.05 自由度はいずれも(5,2328) 図 3 手法①ユークリッド距離 平日ダイヤの実験結果 図 4 手法①ユークリッド距離 休日ダイヤの実験結果
(2)実験結果 平日ダイヤにおける実験結果を表 3,図 3 に,休日ダイヤの 実験結果を表 4,図 4 に示す. 平日ダイヤについて,予測区間 1 駅~4 駅の全ての区間にお いて,手法①が他の手法よりも小さい値となった.予測区間 1 駅ではどの計算手法においても平均誤差(0.036 内)に収まっ ており,良い精度で予測することができている.しかし,区間 2 駅・3 駅になるつれ,各手法における平均誤差および標準偏差 の差が大きくなっている.区間 4 駅になると,誤差が 0.2 以上 のものもあり,大きな誤差が生じている. 休日については, 予測区間 1 駅において手法④が,予測区 間 2 駅~4 駅では手法②が他の手法と比べ平均誤差が小さく なっている.休日ダイヤでも予測区間が増えていくほど,各手 法における平均誤差および標準偏差の差が大きくなっている. また手法①は 0.001~0.006 の差で平均誤差が算出できてお り,前項で求めた「重み付き類似度計算」の各手法②~⑥と比 べ遜色ない予測できることが分かった. 各手法の比較のために一元配置分散分析を行った.平日ダ イヤの予測区間 2 駅では手法①と手法⑥に,3 駅では手法①と 手法⑤,手法①と手法⑥に,4 駅においては手法①と手法⑥に 有意差がみられた.また休日ダイヤでは予測区間 4 駅にて手 法②と手法⑥に有意差がみられた.
4. 評価実験の考察
実験では利用者の乗車券類を購入する時間を考慮し一度の 類似度計算で予測する区間を 4 駅分と設定した. 平日と休日 ダイヤの類似度計算結果から予測区間 4 駅で見られる平均誤 差値 0.2 では,180 席数のある在来線グリーン車において 36 席 あまりの大きな誤差のある情報となる.そこで誤差が与える 影響を考慮し,予測区間は平均誤差が 0.15 程度で収まる 3 駅 が望ましいと考える. 類似度計算の各手法は分散分析と多重比較の結果から,有 意差がみられる手法があり,平均誤差の大きさが認められた 手法⑤・⑥については類似度計算後の列車選択をする部分空 間として普通車の乗車率および時間差が適していなかったこ とが言える.乗客の乗車時間が一様に定まっていない普通車 と,長距離利用の多いグリーン車では互いの混雑度に因果関 係がないと考えられる. 平日と休日ダイヤの両方において手法①のユークリッド距 離のみでも良い結果が得られたが,主な要因として扱ったデ ータの量が挙げられる. 同じ列車でも日付が違えば異なる乗 車率の履歴が確認されるように,列車の乗車率の履歴は時間 帯や季節,イベント,駅の規模など数々の要因が影響を及ぼす と考え,膨大なパターンが存在する. 本研究で用いたデータは 列車本数 7 万本を超える乗車率の履歴のパターンを有するビ ッグデータである.このデータ量の大きさがユークリッド距 離のみでも,重みづけで重要視する空間選択を行うような工 夫を凝らした類似度計算に匹敵する精度になったと言える. 列車の乗車率の履歴は形こそ非線形ではあるが,0 から始まり 0 で終わるようになっており,鉄道という限られた空間におい てビッグデータが蓄積しているならば,現在の運行中の列車 の乗車率の変化の履歴のみに最も類似するデータを選択する ことで予測がうまくいく可能性があると言える.5. 計算の最適化と今後の課題
実験を進めていくにあたり,各類似度計算手法に共通して, 予測値と実測値が大きく振れる「予測困難な駅」および振れ が小さく安定した精度で予測することができる「予測が容易 な駅」があることが分かった. この特徴を用いることにより,計算ポイントの最適化及び 精度向上のための要因を検討することができる.以降により 詳細を述べる. (1)計算の最適化-駅ごとの予測難易度の算出- 駅毎に予測が容易か,または困難かが分かることにより,そ の駅に応じた予測精度向上のための施策を検討することがで きる.例として,困難な駅に対しては駅構内における流動情報 など特徴量として増やし,精度向上を目指すなどの検討を行 うことができる. 図 5 は予測値と正解値の振れが小さい区間における予測結 果である.振れが小さく安定した精度で予測することができ ていることから,この区間における各駅は「予測が容易」な駅 だと言える. 図 6 は振れが大きくなる駅が存在する区間の予測結果であ る.特に「新宿駅」において,高い精度で予測することができる 予測結果もある中,振れが大きく全く予測することができていないものもある.このような駅は予測が「困難」な駅だと言 える. 図 5 予測値と正解値の振れが小さい区間 図 6 予測値と正解値の振れが大きい区間 (2) 計算の最適化-計算ポイントの算出-駅毎に予測難易度が判明することで計算ポイントの最適化 が計れる.予測値と正解値の振れが小さい区間内では,一度に 数駅分の予測を行い算出した予測値は,正解データと大きく 外れにくい傾向となる.これにより予測したい列車が運行す る時,毎回停車駅ごとに予測値を算出しなくても良く,このよ うな区間では部分的に駅を計算ポイントとして設定すること で余計な計算を減らすことができる. (3)今後の課題 予測困難駅のように乗車率の変化の振れが大きい駅では駅 構内の流動や,天気,時刻,イベントといった外部要因が影響 を及ぼすと考える.このような駅では予測精度向上の施策と して類似度計算結果で複数の列車を抽出し,外部要因から参 照する列車を選択する方法か,外的要因を類似度計算に加え, 外的要因を含めたより現在の状況に近い過去データを選択す る方法が予測困難駅での精度向上が見込めると考える.セン シング技術の発展により,列車を選択するために適した要因 を明らかにすることが今後の課題となる.
6. まとめ
本研究はこれから発生する未来を予測するという実サービ スを見据えての実験環境を設定することで予測手法を明らか にすることができた. 在来線グリーン車のように乗車券の他にグリーン券を購入 するような付加価値が付いた車両では情報の確実性が求めら れる.予測値は可能性という見込み情報であり,不正確な情報 を伝えることで利用者は余計に混乱したり,苛立ったりして しまうだろう.見込み情報でも案内ルールを定め,情報提供を 工夫することで有用性が確認されている[6].提供できる情報 の幅を広げることにより利用者は自分自身で必要な判断と行 動がとれるようになるだろう[7].本研究の知見と成果が見込 み情報の価値を高め,顧客満足度向上につながるサービスの 提供に繋がる可能性を示せれば幸いである. 謝辞 清木康先生,倉林修一先生,荻原崇さんをはじめ,慶應義塾大 学清木研究室と倉林研究室皆さまには技術指導,議論,共同作 業など大変お世話になりました.また,JR フロンティアサービ ス研究所の皆さまにはご指導いただきましたことを感謝いた します.参考文献
[1]轟 朝幸,水野 隆二:「都市鉄道におけるリアルタイ ムな混雑情報提供の有用性の検討」 土木計画学研究・論文集Vol.27 no4 2010年9月 [2]国土交通省:鉄道輸送トラブルによる影響に関する調査 報告書<http://www.mlit.go.jp/> [3]角田 史記,加藤 学,大塚 恵理子,助田 浩子,大関 一博:「交通系ICカードを利用した鉄道輸送障害時の影響を 定量化する方法の研究」 情報処理学会論文誌データベース(TOD),6(3),187-196 (2013-06-28) , 1882-7799 [4]JR東日本アプリ:<http://www.jreast-app.jp/>[5]宮澤 永光:「予測精度研究に関する-考察」 早稲田商学第353号1992年
[6]山内 香奈,村越 暁子,藤浪 浩平:「運転再開見込み を伝える」
RRR(Railway Research Review), 鉄道総合技術研究所, Vol.67, No.2, pp.22-25, 2010.2.
[7]菅澤 学,清木 康,Jeremy Hall,倉林 修一:「鉄道運 行情報配信における“可能性可視化”方式」