ニューラルネットワークを用いた着順予測に基づく予想記事の生成

(1)

ニューラルネットワークを用いた着順予測に基づく予想記事の

生成

Generation of Predicted Articles Based on Arrival Order Prediction

Using Neural Network

吉田拓海

1∗

_{横山想一郎}

2

_{山下倫央}

2

_{川村秀憲}

2

Takumi Yoshida

1

_{Soichiro Yokoyama}

2

_{Tomohisa Yamashita}

2

_{Hidenori Kawamura}

2

1

_{北海道大学工学部}

1

_{School of Engineering Hokkaido University}

2

_{北海道大学大学院情報科学研究科}

2

_{Graduate School of Information Science and Technology, Hokkaido University}

Abstract: 競輪の 1 日当たりのレース数を考えると予想記事の作成にかかるコストは大きい．よって本研究では，競輪の予想記事を自動生成することを目的とする．また，新規ユーザーの獲得という競輪業界の課題や既存記事が新規ユーザーには理解が困難であることを踏まえ，本研究では，新規ユーザー向けの予想記事の自動生成を行う．本研究では，機械学習による着順予測の生成と，生成された着順予測を解説する予想記事の生成を行った．着順予測については，予測のための入出力設定の比較，機械学習手法の比較，入力特徴量の比較を実施し，本研究での最良の着順予測を生成した．記事生成については，既存記事を参考に，生成する記事の満たすべき条件を設定し，その条件を満たす記事生成手法としてテンプレートによる記事生成を提案した．

1 はじめに

スポーツ競技における記事の自動生成に関する研究は，盛んに行われている．野球においては，打者成績からイニング速報を生成する研究 [1] や，テキスト速報からイニングの要約文を生成する研究 [2] 等が行われている．また，スポーツ以外の分野においても時系列数値データから概況テキストを自動生成する研究 [3] や，天気予報コメントを自動生成する研究 [4] 等が行われている．本研究対象である競輪は，1 日平均約 60 レース実施されており，その各レースごとに予想記事が人手によって作成されている．また，翌日のレースの出走者は前日のレース終了まで決定しないということもあり，競輪の予想記事の作成にかかるコストは大きい．そこで本研究では，競輪の予想記事を自動生成することを考える．近年，競輪ではライブ配信やインターネット投票により，新規ユーザーが気軽に参加可能な環境が整備されている．また，ガールズ競輪やミッドナイト競輪，モーニング競輪の開催など，新規ユーザー獲得のための活動が行われている．このように，競輪業界で ∗_{連絡先：北海道大学工学部} 〒 060-0814 札幌市北区北１４条西９丁目北海道大学大学院情報科学研究科９階調和系工学研究室 E-mail: [email protected] は新規ユーザーの獲得が課題となっている．その一方で，既存の予想記事は新規ユーザーにとっては理解が困難であるという問題点がある．以上を踏まえ，本研究では競輪新規ユーザー向けの予想記事の自動生成を目標とする．

2 競輪について

競輪とは，選手 9 人でバンクと呼ばれる競争路を周回し，ゴールを競う日本発祥のトラックレースであり，競輪特有の要素としてラインと呼ばれるものがある．ラインとは，レース中に選手が形成する縦列である．ラインの先頭になって走る先行選手は，走るペースや勝負を仕掛けるタイミング等を自由に組み立てることができるが，風の抵抗を一番に受けるため，体力を消耗する．一方で，先行選手の後ろで走る番手選手は，先行選手を風よけとして走ることができるため，先行選手よりも体力を消耗しない．その代わりに，他のラインに抜かれないように，後続選手をブロックすることで先行選手を援護する．選手は最後のゴール前の直線に入るまで，ラインを組んでチームで走り，最後はライン関係なく 1 着を競う．このラインによって繰り広げられるレース展開は，その他の競技にはない競輪特

(2)

有の面白さであると言うことができる．

3 記事生成アプローチ

本研究の目的は新規ユーザー向けの予想記事の自動生成である．そのため，予想記事の生成方法として既存記事を学習データとして機械学習を適用するという手法は，現実的では無いことが考えられる．よって本研究では学習データを必要としない手法として，テンプレートによる予想記事生成を提案する．

3.1 競輪における予想記事

既存記事の例を次に示す． • 磯島が駆けて番手の野木が本命．鋭さ光るのは丸 山だ．逆転の捲りに一考．目標の高鍋次第で大久保，攻め多彩な吉田も怖い．[5] 既存記事に含まれている情報として次の 4 つが挙げられる． • 注目選手 • 注目選手に関する情報 • ラインに関する情報 • レース展開に関する情報 レース展開については，本研究段階では取得する手段が存在しないため，本研究では注目選手，注目選手に関する情報，ラインに関する情報の記述を含むことを生成記事が満たすべき条件として設定する．また，この既存記事が新規ユーザーにとって理解が困難であると考えられる理由として次の 2 つが考えられる． • 独特な表現 (鋭さ光る，攻め多彩な) • 複数の展開予想の記述 独特な表現は，競輪に詳しい人には理解ができるものであることが考えられるが，新規ユーザーには理解が困難である．また複数の展開予想の記述も，1 つの着順を予想することが容易ではない新規ユーザーにとっては理解が困難である．以上のことから，記事生成に使用するテンプレートは，ある着順について解説するというような形式にする．また，解説する着順は機械学習によって生成する．

3.2 文テンプレートの設定

本研究で設定した文テンプレートを次に示す． • < 修飾文 1>< 選手名 > が < 修飾文 2>< 予測順 位 > 着 < 修飾文 3> この文テンプレートに任意の文字列を当てはめることによって予想記事を生成する．文テンプレートに実際に文字列を当てはめると次のようになる． • 前日は 9 着だった⃝大山が自力で決めて１着.2 – <修飾文 1> : 前日は 9 着だった – <選手名 > : ⃝大山2 – <修飾文 2> : 自力で決めて – <予測順位 > : 1 – <修飾文 3> : . このように，文テンプレートに対して，説明したい状 況に応じた < 修飾文 > を当てはめることによって，そ の状況を説明する文が生成可能である．

4 着順予測

予想記事生成のための着順予測を機械学習によって生成する．レース情報，選手情報を入力に用いて機械学習による着順予測を生成する．機械学習の入出力の設定，機械学習手法の選択肢，入力特徴量の選択肢として幾つか考えられる．本研究では入出力設定の比較，機械学習手法の比較，入力特徴量の比較実験を実施し，本研究での最良の着順予測生成器を生成する．以降では，次の条件を満たすレースを学習，テストデータの対象とする． • 男性レース • 競り無し • 同着無し • 欠損データのないレース – (過去 nヶ月競争得点を入力に用いる場合， 過去 nヶ月レースに出場して無い等の理由 により競争得点が取得できない選手が存在するレースを除外する)

4.1 入出力設定の比較

入出力設定の比較として次の「9 人モデル」と「2 人モデル」の 2 種類を比較する． • 9 人モデル • 2 人モデル

(3)

図 1: 多クラス分類器の入出力の概要 4.1.1 9人モデル 9人モデルでは，レースの情報と選手 9 人分の情報を多クラス分類器に入力し，出力されるベクトルの値から着順予測を生成する．以降では，多クラス分類器の入出力とモデルの出力から着順予測を生成する部分についてそれぞれ詳細を説明する．多クラス分類器の入出力 9人モデルで使用する多クラス分類器の入出力の概要を図 1 に示す．多クラス分類器の入力として，レース情報と車番 1 から車番 9 の 選手情報のベクトルを用いる．入力ベクトル x の目標 出力を t = [t1, t2, ..., t9]と表記する．ここで，車番 i が 1着の入力に対する目標出力は ti= 1, tj̸=i= 0となる． 入力 x に対する出力は y = [y1, y2, ..., y9]となり，yiを 車番 i が 1 着になる確率として扱う． 着順予測の生成多クラス分類器の出力から着順予測を生成する．9 人モデルの 1 着予測，2 着予測，3 着予測をそれぞれ次のように決定する． 1着 = arg max i yi (1) 2着 = arg max j̸=1着 yj (2) 3着 = arg max k̸=1着,2 着 yk (3) 4.1.2 2人モデルレースの情報と選手 2 人の情報を二値分類器に入力し，その出力値を 1 レース分集計する．集計した数値から着順発生確率を近似的に計算し，着順発生確率が最大のものを予測着順とする．以降では，二値分類器の入出力と着順発生確率の近似計算についてそれぞれ詳細を説明する．二値分類器の入出力 2人モデルで使用する二値分類器の入出力の概要を図 2 に示す．二値分類器の入力と してレース情報と車番 i，車番 j の選手情報のベクト ルを用い，xi,jと表記する．入力 xi,jの教師ラベルを ti,jと表記して，車番 i が車番 j よりも上位である場合 図 2: 二値分類器の入出力の概要

ti,j= 1, tj,i= 0とする．入力を xi,jとした時の二値分

類器の出力を yi,jと表記し，yi,jを車番 i が車番 j より

上位になる確率として扱う．着順予測の生成二値分類器の出力値から着順予測を 生成する．二値分類器の出力値は yi,j̸= 1 − yj,iとなっているため，出力集計時に式 4 のような補正を行う． yi,j(補正後) = yi,j+ (1− yj,i) 2 (4) 式 4 の補正によって yi,j= 1− yj,iが成立する．補正後の出力値を用いて着順の発生確率を近似的に計算する．次の 3 つの確率をそれぞれ計算し，その積によって上位 3 着の発生確率を近似的に計算する． • 車番 a が 1 着になる確率 • 車番 a が 1 着の時，車番 b が 2 着になる確率 • 車番 a が 1 着，車番 b が 2 着の時，車番 c が 3 着 になる確率各確率の計算式を次に示す． p(1着 = a) = ∏ j̸=aya,j ∑ i( ∏ j̸=iyi,j) (5) p(2着 = b|1 着 = a) = ∏ j̸=a,bya,j ∑ i( ∏ j̸=a,iyi,j) (6) p(3着 = c|1 着 = a, 2 着 = b) = ∏ j_̸=a,b,cya,j ∑ i( ∏ j̸=a,b,iyi,j) (7) 式 5,6,7 の積を着順 a−b−c の発生確率として以降扱う． 発生確率の最も高い着順を着順予測として生成する． 4.1.3 実験目的競輪の着順予測のための最適な入出力設定を行うために，入出力設定による着順予測の精度を比較する．9 人モデルと 2 人モデルを比較する． 4.1.4 実験設定学習，テストデータとして 2013 年 6 月 1 日 2016 年 11月 1 日に実施された 67,936 レースを使用する．学習はニューラルネットワークによって行い，67,936 レー

(4)

スの前半 33,968 レースを使用してハイパーパラメータ探索を行う．ハイパーパラメータ探索はグリッドサーチによって行い，性能検証は 5 分割交差検証によって行う．ニューラルネットワークの分類の精度 (accuracy) が最良のハイパーパラメータセットを最適なものとして選択する．入力に用いた特徴量を表 1 に示す．ニューラルネットワークのハイパーパラメータの探索範囲を表 2 に示す．探索によって選択されたハイパーパラメータを以下に示す． • 9 人モデル – 最適化手法 : Adam – 中間層：[256] • 2 人モデル – 最適化手法 : Adam – 中間層：[256, 256] 決定したハイパーパラメータを用いて，67,936 レースの後半の 33,968 レースに対し各機械学習手法の性能比較を行う．性能検証は 5 分割交差検証によって行う．評価項目として，上位 3 着の着順的中率，Top-K-accuracyを用いる．ここで，Top-K-accuracy はある順位の選手を上位 K 着以内に予測できたレースの割合とする．top3(1-2 着) は 1 着 2 着の選手を上位 3 着以内に予測できたレースの割合を表す．表 1: 入力特徴量特徴量レース情報先行選手の競争得点の最大値バンク選手情報車番年齢ギヤ倍率競争得点1 先行選手の競争得点単騎2_か否かラインの長さ (人数) 先行選手か否かライン内での自身の位置 4.1.5 実験結果・考察 9人モデルと 2 人モデルの比較の結果を以下に示す．各モデルの着順予測に関する結果を表 3 に示す．実験 2_{レースの結果によって選手に与えられる得点} 2_{ラインを組まず一人で走る選手} 表 2: ニューラルネットワーク：ハイパーパラメータ探索範囲ハイパーパラメータ探索範囲活性化関数 ReLU 出力層 softmax(9人モデル), sigmoid(2 人モデル) バッチサイズ 256 学習率 (初期値) 0.001 ドロップアウト率 0.5 学習 epoch 数 20

最適化手法 Adagrad, Adadelta, RMSProp, Adam 中間層 [2n_{], [2}n_{, 2}n_{] (n=6,7,8)} の結果から，2 人モデルが 9 人モデルよりも良い性能であることが示された．9 人モデルは 1 着を予測するためのモデルであるため 2 着，3 着の精度に関して大きく差がついたものと考えられる．9 人モデルについては 2 着，3 着の予測精度の向上が今後の課題となる．本研究では，2 人モデルを使用する．表 3: 9 人モデルと 2 人モデルの比較着順的中率 [%] 9人モデル 3.0 2人モデル 4.2

top1(1着)[%] top2(1着)[%] top3(1着)[%]

9人モデル 36.7 57.8 72.1

2人モデル 37.2 58.1 71.5

top2(1-2着)[%] top3(1-2着)[%] top3(1-3着)[%]

9人モデル 21.0 40.0 9.9 2人モデル 23.4 41.5 12.6

4.2 機械学習手法の比較

分類問題を解くための機械学習の手法は数多く存在する．入出力設定の比較で使用したニューラルネットワークに加え，ロジスティック回帰，ランダムフォレストの 3 種類の機械学習手法を比較する． 4.2.1 実験目的競輪の着順予測を生成するための，最適な機械学習手法を調査する．ロジスティック回帰，ランダムフォレスト，ニューラルネットワークの 3 種類の機械学習手法に対して，それぞれ最適なハイパーパラメータを探索した後，その性能を評価する． 4.2.2 実験設定学習，テストデータとして 2013 年 6 月 1 日 2016 年 11 月 1 日に実施された 67,936 レースを使用する．67,936

(5)

レースの前半の 33,968 レースを使用して各機械学習手法の最適なハイパーパラメータ探索を行う．ハイパーパラメータ探索はグリッドサーチによって行い，性能検証は 5 分割交差検証によって行う．モデルの分類の精度 (accuracy) が最良のハイパーパラメータセットを選択する．入力特徴量は実験 4.1 と同じものを使用した．各機械学習手法のパラメータの探索範囲を表 4，5， 2に示す．探索によって選択されたハイパーパラメータを以下に示す． • ロジスティック回帰 – 手法 : newton-CG 法 – C : 0.01 • ランダムフォレスト – 最小サンプル数 : 32 • ニューラルネットワーク – 最適化手法 : Adam – 中間層 : [256, 256] 決定したハイパーパラメータを用いて，67,936 レースの後半の 33,968 レースに対し各機械学習手法の性能比較を行う．性能検証は 5 分割交差検証によって行う．評価項目として，上位 3 着の着順的中率，Top-K-accuracy を用いる．表 4: ロジスティック回帰：ハイパーパラメータ探索範囲ハイパーパラメータ探索範囲ペナルティ L1, L2 (手法によって決定される) 反復回数 100 C 10n_{(n = 3,}_{−2, −1, 0, 1, 2, 3)} 手法準ニュートン法，newton-CG 法，sag，saga 表 5: ランダムフォレスト：ハイパーパラメータ探索範囲ハイパーパラメータ探索範囲木の数 50 分割基準 Gini係数選択特徴数 √d 最小サンプル数 2n_{(n = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9)} 4.2.3 実験結果・考察各機械学習手法における交差検証結果の平均を比較すると表 6 のようになった．全項目においてニューラルネットが最良の値を記録した．代表的な 3 種類の機械学習手法の比較を行ったが，今後は本研究で比較の対象としなかった手法についても比較を行い，最適な機械学習手法を調査する必要が有ると考えている．以降の実験ではニューラルネットワークを学習に用いるものとする．表 6: 機械学習手法の比較着順的中率 [%] ロジスティック回帰 3.8 ランダムフォレスト 4.1 ニューラルネットワーク 4.2

top1(1着)[%] top2(1着)[%] top3(1着)[%]

ロジスティック回帰 35.4 56.8 70.7

ランダムフォレスト 37.0 57.7 71.4

ニューラルネットワーク 37.2 58.1 71.5 top2(1-2着)[%] top3(1-2着)[%] top3(1-3着)[%]

ロジスティック回帰 22.5 40.7 12.4 ランダムフォレスト 23.2 41.5 12.5 ニューラルネットワーク 23.4 41.5 12.6

4.3 入力特徴量による比較 (競争得点)

一般に機械学習において，特徴量の選択はモデルの精度に大きな影響を与える．表 1 中の競争得点について，平均値を計算する対象期間についての比較を行う． 4.3.1 実験目的競輪の着順予測を生成するための，最適な競争得点の対象期間を調査する． 4.3.2 実験設定入力に用いる競争得点の対象期間として次のものを比較する． • 過去 1ヶ月の競争得点 • 過去 2ヶ月の競争得点 • 過去 3ヶ月の競争得点 • 過去 4ヶ月の競争得点 • 過去 1ヶ月，過去 2ヶ月，過去 3ヶ月，過去 4ヶ月 の競争得点 (全てを入力として使用) 競争得点以外の特徴量は，表 1 に示したものを使用する．競争得点の対象期間によって，欠損値の発生が異なるため，本実験では対象データを過去 1ヶ月の競争得点を使用した場合のものに統一する．2013 年 6 月 1 日∼2016 年 11 月 1 日に実施された 64,232 レースの後

(6)

半 33,968 レースに対して学習とテストを行い，モデルの性能を比較する．ハイパーパラメータ設定は機械学習手法の比較で決定したものを使用する．性能検証は 5分割交差検証によって行う．評価項目として，上位 3 着の着順的中率，Top-K-accuracy を用いる． 4.3.3 実験結果・考察各入力を使用したモデルの交差検証結果の平均を比較すると表 7 のようになった．各競争得点を全て入力に用いた時に，全評価項目において最良の結果が得られた．競争得点については，対象期間によって着順予測の性能に変化が見られた．有効な特徴量の調査は，今後の課題である．以降の実験では，入力として過去 1,2,3,4ヶ月の競争得点を全て使用する．表 7: 入力特徴量の比較 (競争得点) 着順的中率 [%] 過去 1ヶ月 4.2 過去 2ヶ月 4.3 過去 3ヶ月 4.3 過去 4ヶ月 4.1 過去 1,2,3,4ヶ月 4.5

top1(1着)[%] top2(1着)[%] top3(1着)[%] 過去 1ヶ月 37.1 57.5 70.8 過去 2ヶ月 37.9 58.4 71.8 過去 3ヶ月 37.6 58.3 72.0 過去 4ヶ月 37.4 57.9 71.5 過去 1,2,3,4ヶ月 38.5 58.6 72.0

top2(1-2着)[%] top3(1-2着)[%] top3(1-3着)[%] 過去 1ヶ月 23.0 40.9 12.6 過去 2ヶ月 23.6 41.8 13.1 過去 3ヶ月 23.7 42.1 13.1 過去 4ヶ月 23.2 41.4 12.6 過去 1,2,3,4ヶ月 23.8 42.4 13.3

4.4 入力特徴量による比較 (ラインフラグ)

現在ラインに関する特徴量として次のものを使用している． • 先行選手の競争得点 • 単騎か否か • ラインの長さ • 先行選手か否か • ライン内での自身の位置 選手 2 人を比較してどちらが上位になるのかを予測するとき，選手 2 人が同じラインである場合と選手 2 人が異なるラインである場合とでは，考慮すべき要素が異なるということが考えられる．現在使用しているラインに関する特徴量には，入力された選手 2 人が同じラインかどうかを識別するための変数が存在しない．そこで，2 人モデルに入力する選手が同じラインの選手の場合に 1，違うラインの選手であった場合に 0 の値をとるラインフラグという特徴量を新しく導入する． 4.4.1 実験目的新しく導入した特徴量であるラインフラグの有無による比較を行い，ラインフラグの有効性を調査する． 4.4.2 実験設定学習，テストデータとして 2013 年 6 月 1 日 2016 年 11 月 1 日に実施された 64,232 レースを使用する． 64,232レースの前半の 32,116 レースを使用してニューラルネットワークの最適なハイパーパラメータ探索を行う．ハイパーパラメータ探索はグリッドサーチによって行い，性能検証は 5 分割交差検証によって行う．モデルの分類の精度 (accuracy) が最良のハイパーパラメータセットを選択する．ハイパーパラメータ探索の結果，ラインフラグの有無に関わらず次のハイパーパラメータを選択する． • ニューラルネットワーク – 活性化関数：ReLU，sigmoid(出力層) – バッチサイズ：256 – 学習率 (初期値)：0.001 – ドロップアウト率：0.5 – 学習 epoch 数：20 – 最適化手法 : Adam – 中間層 : [256] 決定したハイパーパラメータを用いて，64,232 レースの後半の 32,116 レースに対しラインフラグの有無による性能比較を行う．性能検証は 5 分割交差検証によって行う．評価項目として，上位 3 着の着順的中率， Top-K-accuracyを用いる． 4.4.3 実験結果・考察ラインフラグの有無による比較の結果を表 8 に示す． 2人モデルの入力としてラインフラグを用いることによって，僅かではあるが性能の向上が確認された．あまり大きな性能向上が得られなかった理由としては，既に入力に使用していたラインに関する特徴量を比較することで，同じラインかどうかを識別可能であるということが考えられる．ラインに関する有効な特徴量の調査は，今後の課題である．以降の記事生成においては，ラインフラグを入力に使用した着順予測を使用する．

(7)

表 8: 入力特徴量の比較 (ラインフラグの有無)：着順予測

着順的中率 [%] ラインフラグ有り 4.6 ラインフラグ無し 4.5

top1(1着)[%] top2(1着)[%] top3(1着)[%] ラインフラグ有り 38.4 58.7 71.7 ラインフラグ無し 38.3 58.6 71.7

top2(1-2着)[%] top3(1-2着)[%] top3(1-3着)[%] ラインフラグ有り 24.0 42.2 13.6 ラインフラグ無し 23.8 42.0 13.3 図 3: 記事生成の概要

5 記事生成

第 4 章で生成した着順予測に基づき予想記事を生成する．

5.1 記事生成システムの説明

記事生成システムの概要を図 3 に示す．生成された着順予測と選手情報から文テンプレートに当てはめる修飾文を選択し，選択された修飾文を文テンプレートに当てはめることによって，予想記事を生成する．以降では，修飾文の選択について詳細を説明する． 5.1.1 着順予測に基づく修飾文の選択着順予測のライン構成に基づき修飾文を選択することにより，着順予測のライン構成を説明する予想記事を生成する．ライン構成は，1,2,3 着の選手の所属するラインと 1,2,3 着の選手のラインでの位置 (単騎，先行，番手) によって決定され，合計で 58 通り存在する． 5.1.2 選手情報に基づく修飾文の選択選手に関する情報に基づき修飾文を選択することによって，選手個人に注目した記述をする予想記事を生成する．選手に関する修飾文を選択するにあたり，データベースから注目する選手のデータを抽出する．本研究では次のデータを抽出の対象とする． • 前日レースの着順 • 過去 nヶ月の平均着順 (n=1,2,3,4) • 過去 4ヶ月の競争得点 • 年齢 抽出したデータに関して条件を設定し，その条件に応じて修飾文を選択する．本研究では，以下の条件を設定した． • 前日順位 ≦ 2 • 前日順位 ≧ 6 • 過去 nヶ月の平均着順 ≦ 3 (n=1,2,3,4) • 過去 nヶ月の平均着順 ≧ 6 (n=1,2,3,4) • 年齢 ≦ 25 • 年齢 ≧ 40 • 過去 4ヶ月の競争得点 = 最大の過去 4ヶ月の競争 得点 (レース内)

5.2 生成記事結果・考察

実際に生成された記事の例を表 9,10 に示す．ラインに関する情報と注目選手個人に関する情報を含む着順予測を解説する予想記事が生成されることが確認できる．表 9,10 の生成記事は，1,3 着が同じラインというライン構成を説明している．トップ 2 独占とワンツーのような語彙の言い換えによって，同じ内容でも異なる記事が生成されていることが確認できる．選手個人に関する情報については，設定した条件によって生成記事の約 96%に選手個人の情報を含むことが可能となった．しかし，その種類としては前日順位について，過去の平均着順について，年齢について，競争得点についての 4 種類となっている．今後は，選手個人の情報のパターン数の増加が必要である．また，既存記事の注目選手と生成記事の注目選手には重複が数多く見られたことや，1,2 着の top-3-accuracy が 42%，1,2,3 着の top-3-accuracy が 71%ということから，生成された予想記事の予想内容は悪くないと考えられる．

(8)

表 9: 生成された記事例 1 2016年 10 月 1 日函館競輪場第 5 レース既存記事主導権争いとなりそうな三分戦となったが、一番の先行力を持つのは⃝宗崎で初2 日同様に好スパートを決めれば逃げ切れるとみた。追走堅実な⃝木村が続き四国9 コンビが本線。怖いのは⃝菅原に前を任6 せる特選スタートの実力者⃝小橋だ。1 ⃝6 菅原次第ではあるが直線強襲のシーンも。穴は一発力ある⃝臼井の一撃。[5]7 生成記事若手の⃝宗崎が自力で決めて 1 着. 別ラ2 インから⃝小橋が 2 着.1 ⃝小橋に 2 着1 を取られるも⃝宗崎ラインの2 ⃝木村が 39 着. トップ 2 独占とはいかないが⃝宗崎2 ラインが別線より有利と予測. 表 10: 生成された記事例 2 2016年 10 月 3 日高松競輪場第 10 レース既存記事 ⃝中田がパンチ力発揮して他派を封じれ7 ば番手⃝有坂が決め脚を伸ばす。カマシ2 強烈⃝永井―1 ⃝小林の突っ走りや南関勢9 の一発も要注 [5] 生成記事過去４ヶ月競争得点が最大の⃝有坂が2 ⃝7 中田の力もあって 1 着. 別ラインから⃝1 永井が 1 着は逃すも自力で 2 着.⃝永井1 に 2 着を取られるも⃝中田が 3 着. ワン7 ツーとはいかないが⃝中田ラインが有利7 と予測.

6 まとめと今後の展望

本研究では，機械学習により競輪の着順予測を生成し，着順予測に基づく予想記事の自動生成を行った．着順予測に関しては，選手 9 人を入力として着順予測を行う 9 人モデルと，選手 2 人を入力として着順予測を行う 2 人モデルの入出力設定が異なる 2 つのモデルを提案した．入出力設定の比較，機械学習手法の比較，入力特徴量の比較を行い，本研究での最良の性能を示す着順予測生成器を生成した．予想記事の自動生成は，テンプレートに修飾文を当てはめるという手法によって，ラインに関する記述，選手個人に注目した記述，着順予想の記述を含む予想記事を生成した．今後の課題としては，有効な入力特徴量の探索や本研究で比較対象としなかった機械学習手法の比較を行い，着順予測の性能向上を目指す．記事生成については，文テンプレートに当てはめる修飾文の設定や，修飾文選択の条件の設定による記事に出現する語彙の増加が今後の課題である．また，本研究では対象外としたレース展開についての記述や，複数の展開予想を記述した既存記事に近い予想記事の生成も，今後の課題として考えられる．

謝辞

本研究は，株式会社チャリ・ロトの支援を受け実施されたものです．ここに感謝の意を表します．

参考文献

[1] 村上聡一郎, 笹野遼平, 高村大也, 奥村学. 打者成績からのイニング速報の自動生成. 言語処理学会第 22 回年次大会発表論文集, 2016. [2] 田川裕輝, 嶋田和孝. テンプレートの自動生成によるイニングの要約文生成. 言語処理学会第 23 回年次大会発表論文集, 2017. [3] 村上聡一朗, 渡邉亮彦, 宮澤彬, 五島圭一, 柳瀬利彦, 高村大也, 宮尾祐介. 時系列数値データからの概況テキストの自動生成. 言語処理学会第 23 回年次大会発表論文集, 2017. [4] 村上聡一朗, 笹野遼平, 高村大也, 奥村学. 数値予報マップからの天気予報コメントの自動生成. 言語処理学会第 23 回年次大会発表論文集, 2017. [5] 競輪（keirin・ケイリン）ならオッズパーク競輪｜予想情報も充実！http://www.oddspark.com/keirin/. (Accessed on 02/07/2018).

ニューラルネットワークを用いた着順予測に基づく予想記事の生成