鉄道における乗車率予測手法とグリーン車の乗車実測データを用いた実証実験

(1)

DEIM Forum 2016 D1-4

鉄道における乗車率予測手法と

グリーン車の乗車実測データを用いた実証実験

髙垣良宏

1

_{荻原崇}

2

_{倉林修一}

3

_{清木康}

4 1_{JR 東日本研究開発センターフロンティアサービス研究所〒331-8513 埼玉県さいたま市北区日進町 2-479} 2_{慶應義塾大学大学院政策メディア研究科} 3,4_{慶應義塾大学環境情報学部〒252-0882 神奈川県藤沢市遠藤 5322} E-mail: 1_{[email protected],} 2,3,4_{{ ogiogi93,kurabaya,kiyoki}@sfc.keio.ac.jp}

キーワード鉄道, 混雑予測，類似度計算, 在来線グリーン車

要旨

本稿では,鉄道環境において,列車からリアルタイムに得られる荷重センサの値と,蓄積した過去の列車の荷重データとの照合を行い,直近の未来の列車の混雑率を高精度に予測する方式を示す.本方式を鉄道利用の乗客への情報提供に適用することにより,乗車の快適さと列車運行上の安全性を同時に向上させることが可能になる.本方式の特徴は,過去の列車の乗車率のデータベースを構成し,現在運行中の列車からリアルタイムに得られる乗車率（荷重センサ値から得られる値）の変化の履歴に最も類似している変化の特徴を有する過去の列車の乗車率を検索し,過去のその列車のその後の乗車率を現在運行中の列車の予測データとして利用する点にある.JR 東日本は,既に,長期に渡り荷重センサ値の履歴を保有しており,これらのセンサ・ビッグデータを過去の列車の乗車率のデータベースとして構成する本方式は,計算により予測することが困難な乗客の非線形な振る舞いを対象として,これから発生する乗車率の変化を予測することを可能にする.

1. はじめに

鉄道を利用する旅客は,これから乗車する列車の乗車率の把握,および,混雑度の変化の予測を期待している.轟らの研究によれば[1],混雑情報の提供は,混雑時における乗車率のばらつきを平準化させる可能性を示唆している.ある程度長い時間列車に乗る場合,混雑しているか,席に「座れる」か「座れないか」は,旅客にとって大きな関心事である. また鉄道輸送トラブルの発生原因において,遅延時間が 10 分未満の場合は混雑によるものが多いという調査結果がある[2].遅延が一旦発生すると遅延時間が拡大し,列車運行上の安全性が損なわれることが懸念される[3]. そのため乗車率の情報提供は旅客に対し,乗車の快適さと列車運行上の安全性を同時に向上させることが可能になる. 本稿は,着席の機会がいつ訪れるか情報提供する目的で,乗客がこれから乗ろうとしている列車を対象に,直近の未来の乗車率を予測する.乗車率の情報提供は,現在山手線に「JR 東日本アプリ」[4]にて混雑可視化が実施されている.これは車両に搭載されている荷重センサから得られた乗客人数をリアルタイムで伝送することで実現している.このセンサにより現在乗車している列車の乗車率をリアルタイムで確認することができ,今後リアルタイム情報提供は拡大していくことが期待される.一方で,現時点での乗車率の情報提供に留まっているため,その先の列車の乗車率がどのように変化していくかまでの情報提供は行われていない. 今回,実験の対象を在来線グリーン車に設定した.在来線グリーン車とは座席に座れることを主なサービスとした列車であり,サービスの特性として形のない無形性と,限定された時間や空間に対し存在し在庫や保存が出来ないという非貯蔵性がある.また,席は全て自由席のため着席が保証されていない, かつグリーン券の事前購入料金と車内購入料金とで金額が 260 円も異なるという利用する上での懸念事項が存在する.そのため旅客に空席情報及び直近の乗車率の情報提供をするこ

(2)

とで在来線グリーン車の利用促進に繋がると考えられる. 在来線グリーン車の乗車率を予測するにあたり最大の課題は,列車への乗降は,旅客の意図次第で大きく変化するため,非線形な振る舞いとなる点が挙げられる.具体的には,その日の天候や気温,駅周辺で開催されるイベントや駅構内での混雑状況に応じて,列車の乗車率は大きく変動する. したがって, 現在運行中の列車のリアルタイムに得られる乗車率から未来の値を,計算により直接予測することは難しい. 本稿では,ユーザがこれから乗ろうとしている列車の乗車率と,類似する時系列変化をした過去データを,過去数か月間のすべての列車のログデータという膨大な候補の中から参照することにより,直近の未来を予測する方式を開発した.データの統計量を使って算出した重みを用いる「重み付き類似度」計算方式にて,予測列車の乗車率から最も類似した過去列車のデータを用い予測値を算出する手法を検証する.

2. 手法の検討

本システムの基本構造および利用データ,類似度計算手法について以降に詳細を述べる. (1)システムの基本構造本システムは, 過去の列車のログデータを“荷重センサデータ履歴・データベース”として蓄積し,“現在走行中列車混雑度データ”との類似度計算により,予測対象列車の予測したい駅までの乗車率の変化と最も類似している変化の特徴を有する過去の列車を抽出し,その後の乗車率を用い線形回帰によって現在運行中の列車の予測データとして算出する（図 1 参照）.線形回帰する理由は,予測対象列車の推移を考慮した乗車率を推定するためである. (2)利用データについて JR 東日本では在来線グリーン車は東海道線,横須賀・総武快速線,宇都宮線,高崎線,湘南新宿ライン,上野東京ライン,常磐線の普通列車,快速列車に連結されており,運転距離及び一回あたりの平均乗車時間が長い.「上野東京ライン」「湘南新宿ライン」「高崎線」「宇都宮線」「東海道線」を対象路線と設定し, 図１．システム構成図および空間的かつ時間的に類似した列車参照モデル

(3)

列車から得られる荷重センサ値を分析対象データとして利用する.荷重センサは車両にかかる荷重に応じたブレーキ制御を行うことを目的に車両に搭載されている装置のことで,この荷重を測定することで総重量を算出する.その後,総荷重を人間の平均体重で除算することで乗車率を算出している.しかし,測定中に発生する揺れや乗客の平均体重の変動により, 誤差が生じる.そのため本システムでは在来線グリーン車の座席使用記録データにより実際の使用実績を調査,荷重センサ値との比較を実施した.その結果から総じて誤差を±20％と設定した. 本研究で分析する過去の“荷重センサデータ履歴・データベース”のテーブル構造及びデータは表 1,表 2 の通りである. 行数は 2,142,895 行となり,データ保有期間は本年度のダイヤ改正後の H27.3.14 から H27.8.10 までの 150 日間で総列車本数は 73,738 本となる. 表 1 テーブル構造表 2 データ一例 (3)類似度計算手法鉄道空間の場合,時間帯や日付,駅における利用者数など, 様々な要因が影響し,その列車の乗車率が変動していると考えられる.本システムではデータの統計値から得られる特徴を重みとして計算に加え,独自の「重み」を用いた計算手法を検証していく.最初のプロトタイプとして重みを反映させるのが容易であって検証しやすいユークリッド距離を計算のベースに使用した. 予測する駅を N とすると,始発駅から予測する手前の駅は M=N-1 の M 次元となる.予測列車の乗車率の変化はχ = (𝜒₁, … , 𝜒𝑀), {0 ≤ 𝜒 ≤ 3},過去データの乗車率の変化を𝜇 = (𝜇₁, … , 𝜇𝑀), {0 ≤ 𝜇 ≤ 3}とすると類似度Dは(1)式で求めることができる. D = √∑𝑀𝑚=1(𝑥𝑚− 𝜇𝑚)2 (1) {0 ≤ 𝐷 ≤ √9𝑀} (4)変化量による重みづけ過去データから乗車率の変化が起きやすい駅とそうでない駅の違いを強調させるため,変化量として前の駅との乗車率の差分を算出し,平均を取ることで重みωを算出した.分析データより列車α{α ≤ 73,783},駅β{β ≤ 97},列車の乗車率のy = (y1, … , 𝑦𝛽), {0 ≤ 𝑦 ≤ 3}から駅βにおける𝜔𝛽は(2)式で求めることができる.なお実データの一例を表 3 に示す. 𝜔𝛽= ∑𝛢𝛼=1(𝑦𝛽− 𝑦𝛽−1)/𝛢 (2) ω=(𝜔1,…, 𝜔𝛽) 𝜔 = {0 ≤ 𝜔 ≤ 2.7} 表 3 変化量から算出した重み一例算出した重み𝜔を(1)式に加え,(3)式を定義した. D = √∑𝑀𝑚=1𝜔𝑚(𝑥𝑚− 𝜇𝑚)2 （3） {0 ≤ 𝐷 ≤ √24.3𝑀} (5)時間差による重みづけ時間帯によって乗車率のピーク（荷重センサの誤差を± 20％としているため 80％をピークと設定している）を迎える駅が存在するため（表 2 参照）,予測したい列車の時刻と

(4)

過去データの列車の時刻の差を重みとして加えることで,過去データから予測したい列車と近い時刻の列車を参照することが出来る.前節までの類似度計算(1),(3)に時間差で算出した時間軸の重み𝛥𝑡 =(𝑡𝑥𝑀− 𝑡𝜇𝑀){𝛥𝑡: 𝛥𝑡𝑚𝑖𝑛= 0, 𝛥𝑡𝑚𝑎𝑥= 1439} を加えるパターン(4),(5)式を検証する. D (𝛥𝑡, √∑𝑀𝑚=1(𝑥𝑚− 𝜇𝑚)2) (4) {0 ≤ 𝛥𝑡 ≤ 1439, √9𝑀} D (𝛥𝑡, √∑𝑀𝑚=1𝜔𝑚(𝑥𝑚− 𝜇𝑚)2) (5) {0 ≤ 𝛥𝑡 ≤ 1439, √24.3𝑀} 表 2 時間細分別,乗車率 8 割超の本数と割合の一例（上野駅・北行列車） (6)空間的かつ時間的に類似した列車参照モデル (1),(3)式の類似度計算を用い,予測列車に類似した列車を過去データから一定の本数を抽出する.抽出した列車から予測列車の普通車の乗車率の差と,時刻の差を求め,一番類似している列車を割り出す.これにより,在来線グリーン車の乗車率の変化が似ている過去の列車の中から,普通車の乗車率及び時刻が近い列車を選択することで,過去データから列車内全体の空間と運転時刻に類似した列車が参照できる.（図 1 参照）

3. 評価実験

(1)実験概要本システムにおける計算方式の精度評価のため,実験を実施した.実験方法について,以下の手順で実施した. ① 予測対象列車と日付,駅を入力する ② 前章までの各計算手法を用いて,過去データから類似した特徴を持つ列車を参照する ③ 線形回帰を実施し,予測駅から 4 駅分までの区間の予測値を算出. ④ 正解値との差の累積和をスコアとして抽出スコアが低い程予測誤差が小さく,精度が良いと判断できる. また,予測区間を 4 駅分とした理由として,1 つの駅の間隔を約 5 分とした時,実際の利用者は直近の未来である約 20 分以内の予測情報を知りたいと考えるという仮説を立てたためである.20 分以内の乗車率に関する情報によって,利用者は必要な乗車券類を購入する余裕が得られると考える.（図 2 参照）実験は各計算手法の精度確認を信頼度 95%のとき𝜇(𝛼)=1.96, 誤差ε=5%の範囲で検証するため必要な標本数 n を(5)式により算出した. N は母集団の大きさ, ρ は母比率で,ここでは最も n が大きくなる 0.5 を用いた. n ≥ 𝑁 {( 𝜀 𝜇(𝛼)) 2 × { 𝑁 − 1 𝜌(1 − 𝜌)} + 1} (6)式より算出した最小限必要な標本数を 385 個と設定し,無作為に標本を抽出し実験を行い,精度を比較する[5].また,鉄道の運行ダイヤは平日と休日で異なるため評価実験では, それぞれ分けて行った. 図 2. 実験の実例 (6)

(5)

表 3 平日ダイヤの類似度計算結果 P<0.05 自由度はいずれも(5,2335) 表 4 休日ダイヤの類似度計算結果 P<0.05 自由度はいずれも(5,2328) 図 3 手法①ユークリッド距離平日ダイヤの実験結果図 4 手法①ユークリッド距離休日ダイヤの実験結果

(6)

(2)実験結果平日ダイヤにおける実験結果を表 3,図 3 に,休日ダイヤの実験結果を表 4,図 4 に示す. 平日ダイヤについて,予測区間 1 駅～4 駅の全ての区間において,手法①が他の手法よりも小さい値となった.予測区間 1 駅ではどの計算手法においても平均誤差（0.036 内）に収まっており,良い精度で予測することができている.しかし,区間 2 駅・3 駅になるつれ,各手法における平均誤差および標準偏差の差が大きくなっている.区間 4 駅になると,誤差が 0.2 以上のものもあり,大きな誤差が生じている. 休日については, 予測区間 1 駅において手法④が,予測区間 2 駅～4 駅では手法②が他の手法と比べ平均誤差が小さくなっている.休日ダイヤでも予測区間が増えていくほど,各手法における平均誤差および標準偏差の差が大きくなっている. また手法①は 0.001～0.006 の差で平均誤差が算出できており,前項で求めた「重み付き類似度計算」の各手法②～⑥と比べ遜色ない予測できることが分かった. 各手法の比較のために一元配置分散分析を行った.平日ダイヤの予測区間 2 駅では手法①と手法⑥に,3 駅では手法①と手法⑤,手法①と手法⑥に,4 駅においては手法①と手法⑥に有意差がみられた.また休日ダイヤでは予測区間 4 駅にて手法②と手法⑥に有意差がみられた.

4. 評価実験の考察

実験では利用者の乗車券類を購入する時間を考慮し一度の類似度計算で予測する区間を 4 駅分と設定した. 平日と休日ダイヤの類似度計算結果から予測区間 4 駅で見られる平均誤差値 0.2 では,180 席数のある在来線グリーン車において 36 席あまりの大きな誤差のある情報となる.そこで誤差が与える影響を考慮し,予測区間は平均誤差が 0.15 程度で収まる 3 駅が望ましいと考える. 類似度計算の各手法は分散分析と多重比較の結果から,有意差がみられる手法があり,平均誤差の大きさが認められた手法⑤・⑥については類似度計算後の列車選択をする部分空間として普通車の乗車率および時間差が適していなかったことが言える.乗客の乗車時間が一様に定まっていない普通車と,長距離利用の多いグリーン車では互いの混雑度に因果関係がないと考えられる. 平日と休日ダイヤの両方において手法①のユークリッド距離のみでも良い結果が得られたが,主な要因として扱ったデータの量が挙げられる. 同じ列車でも日付が違えば異なる乗車率の履歴が確認されるように,列車の乗車率の履歴は時間帯や季節,イベント,駅の規模など数々の要因が影響を及ぼすと考え,膨大なパターンが存在する. 本研究で用いたデータは列車本数 7 万本を超える乗車率の履歴のパターンを有するビッグデータである.このデータ量の大きさがユークリッド距離のみでも,重みづけで重要視する空間選択を行うような工夫を凝らした類似度計算に匹敵する精度になったと言える. 列車の乗車率の履歴は形こそ非線形ではあるが,0 から始まり 0 で終わるようになっており,鉄道という限られた空間においてビッグデータが蓄積しているならば,現在の運行中の列車の乗車率の変化の履歴のみに最も類似するデータを選択することで予測がうまくいく可能性があると言える.

5. 計算の最適化と今後の課題

実験を進めていくにあたり,各類似度計算手法に共通して, 予測値と実測値が大きく振れる「予測困難な駅」および振れが小さく安定した精度で予測することができる「予測が容易な駅」があることが分かった. この特徴を用いることにより,計算ポイントの最適化及び精度向上のための要因を検討することができる.以降により詳細を述べる. (1)計算の最適化-駅ごとの予測難易度の算出- 駅毎に予測が容易か,または困難かが分かることにより,その駅に応じた予測精度向上のための施策を検討することができる.例として,困難な駅に対しては駅構内における流動情報など特徴量として増やし,精度向上を目指すなどの検討を行うことができる. 図 5 は予測値と正解値の振れが小さい区間における予測結果である.振れが小さく安定した精度で予測することができていることから,この区間における各駅は「予測が容易」な駅だと言える. 図 6 は振れが大きくなる駅が存在する区間の予測結果である.特に「新宿駅」において,高い精度で予測することができる予測結果もある中,振れが大きく全く予測することができて

(7)

いないものもある.このような駅は予測が「困難」な駅だと言える. 図 5 予測値と正解値の振れが小さい区間図 6 予測値と正解値の振れが大きい区間 (2) 計算の最適化-計算ポイントの算出-駅毎に予測難易度が判明することで計算ポイントの最適化が計れる.予測値と正解値の振れが小さい区間内では,一度に数駅分の予測を行い算出した予測値は,正解データと大きく外れにくい傾向となる.これにより予測したい列車が運行する時,毎回停車駅ごとに予測値を算出しなくても良く,このような区間では部分的に駅を計算ポイントとして設定することで余計な計算を減らすことができる. (3)今後の課題 予測困難駅のように乗車率の変化の振れが大きい駅では駅構内の流動や,天気,時刻,イベントといった外部要因が影響を及ぼすと考える.このような駅では予測精度向上の施策として類似度計算結果で複数の列車を抽出し,外部要因から参照する列車を選択する方法か,外的要因を類似度計算に加え, 外的要因を含めたより現在の状況に近い過去データを選択する方法が予測困難駅での精度向上が見込めると考える.センシング技術の発展により,列車を選択するために適した要因を明らかにすることが今後の課題となる.

6. まとめ

本研究はこれから発生する未来を予測するという実サービスを見据えての実験環境を設定することで予測手法を明らかにすることができた. 在来線グリーン車のように乗車券の他にグリーン券を購入するような付加価値が付いた車両では情報の確実性が求められる.予測値は可能性という見込み情報であり,不正確な情報を伝えることで利用者は余計に混乱したり,苛立ったりしてしまうだろう.見込み情報でも案内ルールを定め,情報提供を工夫することで有用性が確認されている[6].提供できる情報の幅を広げることにより利用者は自分自身で必要な判断と行動がとれるようになるだろう[7].本研究の知見と成果が見込み情報の価値を高め,顧客満足度向上につながるサービスの提供に繋がる可能性を示せれば幸いである. 謝辞清木康先生,倉林修一先生,荻原崇さんをはじめ,慶應義塾大学清木研究室と倉林研究室皆さまには技術指導,議論,共同作業など大変お世話になりました.また,JR フロンティアサービス研究所の皆さまにはご指導いただきましたことを感謝いたします.

参考文献

[1]轟朝幸,水野隆二：「都市鉄道におけるリアルタイムな混雑情報提供の有用性の検討」土木計画学研究・論文集Vol.27 no4 2010年9月 [2]国土交通省:鉄道輸送トラブルによる影響に関する調査報告書<http://www.mlit.go.jp/> [3]角田史記,加藤学,大塚恵理子,助田浩子,大関一博：「交通系ICカードを利用した鉄道輸送障害時の影響を定量化する方法の研究」情報処理学会論文誌データベース（TOD）,6(3),187-196 (2013-06-28) , 1882-7799 [4]JR東日本アプリ：<http://www.jreast-app.jp/>

(8)

[5]宮澤永光：「予測精度研究に関する－考察」早稲田商学第353号1992年

[6]山内香奈,村越暁子,藤浪浩平：「運転再開見込みを伝える」

RRR（Railway Research Review）, 鉄道総合技術研究所, Vol.67, No.2, pp.22-25, 2010.2.

[7]菅澤学,清木康,Jeremy Hall,倉林修一：「鉄道運行情報配信における“可能性可視化”方式」

鉄道における乗車率予測手法とグリーン車の乗車実測データを用いた実証実験