居住空間におけるユーザコンテキストを用いた行動推薦に関する研究

(1)

2020(

^平成

31)

^{年度修士論文}

居住空間におけるユーザコンテキストを用いた行動推薦に関する研究

Study on Context-aware Action Recommendation in Living Space

2020(

令和

2)

年

2

月

21

日提出

首都大学東京大学院

システムデザイン研究科システムデザイン専攻情報科学域高間研究室

学習番号

18860609

^{白井佑}

(2)

要旨

本論文では，

wellbeing

向上を目的とした，居住空間におけるユーザコンテキストを用いた行動推薦システムを提案する．近年，高齢化などの影響を受け，起床在宅率が増加しており，自宅での過ごし方に注目が集まっている．また，健康の定義が見直され，単に病気・病弱でない状態とするのではなく，身体的，精神的，社会的状態などといった要素からなる多面的な概念である

wellbeing

の向上に注目が集まっている．このような背景から，居住空間の

wellbeing

を向上させることが重要であると考える．

居住空間における

wellbeing

を向上させるために，その定義を行い，

wellbeing

^を向上させる要因を考える必要がある．多くの研究者によって様々な

wellbeing

が定義されているが，その中でもより代表的かつ多面的な

Diener

らの定義において扱われている，身体的，精神的，環境的状態を本研究で扱う

wellbeing

^{の要因とする．これら}

3

^{つの要因と} 日常生活行動が相互に作用するの考えに基づき，日常生活行動を推薦するシステムを提案する．推薦する行動の決定には，上述の

3

状態を考慮する他，ある行為（生活行動）を行う時間帯には個人に依存しない共通性があるとの想定から国民生活時間調査に基づく行為者率を考慮する．本論文では，これら

3

要因と行為者率をユーザコンテキストと定義する．

生活行動を推薦する場合，行動ごとに特徴が異なるため，単一のアルゴリズムでは効果的な推薦が難しいと考える．よって，提案システムでは推薦戦略をコンテキストの観点から介入型と行動型に大別する．介入型は上述の

3

要因に基づくものであり，その行動を推薦する根拠を，心拍数や脳波といった内的要因，室温や騒音といった外的要因，時刻や曜日といった時間的要因に分類する．行動型は行動間の関連性に基づくものであり，

過去の行動パターンに基づくパターン予測，直前の行動を用いて次の行動を決定論的に選択する順展開計画，次の行動を予測しそれに必要な行動を決定論的に選択する逆展開計画に分類する．推薦モジュールとして，介入型はルールベース，パターン予測型は

APPM (App for Prediction by Partial Matching)

，展開計画型はスケジューリングアルゴリズムを採用する．各推薦モジュールから同時に推薦が行われた場合，推薦された行動を全て提示してしまうのは心理学における決断疲れの観点から不適であることから，睡眠型バンディットを採用し，推薦する行動を選択する．バンディットの学習は，推薦行動に対するユーザの受理もしくは拒否といった

2

値のフィードバックに基づき行い，行動選択にはロジスティック回帰モデル上の睡眠型トンプソン抽出を用いる．シミュレータを用いた評価実験や

VUI (Voice User Interface)

を用いた実地実験により，提案システムの有効性を検証する．

本論文は

5

章から構成される．

1

章では，本論文における研究背景および研究目的につ

(3)

いて記述する．

2

章では，

QOL (Quality Of Life)

や

wellbeing

などの幸福に関する概念や，生活行動推薦システムといった関連研究について記す．

3

章では，

wellbeing

向上を目的とした，居住空間におけるユーザコンテキストを用いた行動推薦システムを提案する．

4

章では，提案システムの評価実験結果を示す．シミュレーション実験では，シミュレータ内で

2

週間，指定したペルソナに従って仮想的な生活を送ってもらった結果に基づき，推薦した行動がどの程度受け入れられたかを示す受入率や，

wellbeing

向上したかを評価する累積

wellbeing

によって提案システムの有用性を評価する．実地実験では，著者の居住環境に

Google Home

を設置し，実際に利用した場合の問題点や改善点などについて考察する．

5

章では，本論文で提案したシステムの概要についてまとめるとともに，

今後の展望について述べる．

(4)

Abstract

This thesis proposes a user context-aware action recommendation system in living space to improve wellbeing. Recently the time spent at home increases by various fac- tors such as aging and in-house wellbeing has gained attention. Health is not defined as the absence of disease, but as the concept related with wellbeing, which relates with physical, mental, and social state. Therefore, to improve in-house wellbeing, people should take appropriate actions considering those states.

When recommending daily actions that will contribute to the improvement of in- house wellbeing, it is diﬃcult that a single algorithm provides various kinds of actions on the basis of diﬀerent factors and knowledge. Furthermore, when multiple actions can be recommended, letting users select appropriated one from those candidates would put a burden on them. Considering these problems, this thesis proposes a hybrid recommendation system, which consists of 3 recommendation modules and a contextual multi-armed bandit.

The eﬀectiveness of the proposed system is evaluated in terms of acceptance rate

of recommended actions and cumulative wellbeing.

(5)

1

はじめに

6

2

^関連研究

9

2.1

健康・幸福

. . . . 9

2.1.1 Wellbeing . . . . 9

2.1.2 QOL (Quality Of Life) . . . . 10

2.1.3 Wellness . . . . 11

2.2

日常生活行動

. . . . 11

2.2.1

行動の分析に関する研究

. . . . 11

2.3

推薦手法

. . . . 12

2.3.1

一般的な推薦手法

. . . . 13

2.3.2

バンディット

. . . . 13

2.3.3

^行動推薦

. . . . 14

3

提案手法

16 3.1

推薦戦略の分類

. . . . 16

3.1.1

^介入型

. . . . 16

3.1.2

行動型

. . . . 17

3.2

提案システム

. . . . 17

3.3

^{行為者率の更新}

. . . . 20

3.3.1

初期化

. . . . 20

3.3.2 MAP (Maximum A Posteriori)

推定

. . . . 20

3.3.3

多項分布

. . . . 20

3.3.4

ディリクレ分布

. . . . 21

3.3.5 MAP

推定値の導出

. . . . 21

3.4

推薦モジュールによる行動抽出

. . . . 22

3.4.1

行動パターン

. . . . 22

3.4.2

ルールベース

. . . . 24

3.4.3

スケジューリング

. . . . 24

3.5

バンディットによる行動選択

. . . . 26

3.5.1

事前分布の設定

. . . . 27

(6)

3.5.4

行動の選択・報酬の観測

. . . . 28

3.6

推薦説明文の生成

. . . . 30

3.6.1

テンプレートベース

. . . . 30

3.6.2

ルールベース

. . . . 30

4

評価実験

32 4.1

シミュレータによる評価実験

. . . . 32

4.2

実験内容

. . . . 32

4.3

実験結果

. . . . 39

4.4

実地による評価実験

. . . . 58

4.5

実験内容

. . . . 58

4.6

^実験結果

. . . . 58

5

おわりに

63

(7)

1

^はじめに

本論文では，

wellbeing

向上を目的とした，居住空間におけるユーザコンテキストを用いた行動推薦システムを提案する．近年，高齢化などの影響を受け，図

1.1

のように起床中の在宅率が年々増加

[1]

しており，自宅での過ごし方に注目が集まっている．特に居住空間の健康に関連した概念である

QOL (Quality Of Life)

の向上に対する関心も高まってきている．関連する製品・サービスとして，コニカミノルタでは

QOL

を支えるサービスブランド

HitomeQ (

ひとめく

) [2]

が展開され，富士ソフトでは日常会話の話相手や健康体操のインストラクタの役割を勤めることが可能なロボット

PALRO [3]

^{が開発されて} いる．また，近年健康の定義が見直され，単に病気・病弱でない状態とするのではなく，

身体的，精神的，社会的状態などといった要素からなる多面的な概念である

wellbeing

の向上に注目が集まっている．このような背景から，居住空間の

wellbeing

^{を向上させるこ} とが重要であると考える．

居住空間における

wellbeing

を向上させるために，その定義を行い，

wellbeing

を向上させる要因を考える必要がある．多くの研究者によって様々な

wellbeing

が定義されて

いる．

Adams

らは

wellness

を身体的，精神的，感情的，知的，心理的，社会的側面から

なる概念として

[4]

，

Rath

らは

wellbeing

を職業的，社会的，財的，身体的，地域的側面からなる概念として定義している

[5]

．数ある定義の中でもより代表的かつ多面的な尺度は

Diener

らが提案したものであり

[6]

，既存の尺度を元に形成されており，

wellbeing

の

(8)

構成要素を網羅していると主張されている．しかし，各要素に関する具体的な定義は示されていない．包括的視点から

wellbeing

の構成要素を明確にすることを目的とした文献

[7]

では，文献

[6]

を含む複数の尺度を構成要素の観点から分類しており，これらの構成要素についての定義も記している．そのため，本論文では文献

[7]

の定義を採用する．

その中で，多くの尺度で共通して扱われている身体的状態と精神的状態に加え，居住空間との密接な関係がある環境的状態の

3

状態を本研究で扱う

wellbeing

の要因とする．文献

[7]

では，身体的状態は，筋肉の緊張，コレステロール値，血圧などの物理的指標や，

食習慣，運動レベルなどの行動に関連し，精神的状態は感情やストレスの対処に関連するものとして定義している．環境的状態は居住環境や職場環境，コミュニティ，そして自然環境に関連するものとして定義している．この定義を参考に本論文では，身体的状態を身体運動に影響されるとする乳酸の蓄積度，精神的状態をストレスに影響されるとする認知能力の程度，環境的状態を居住環境の快適度として定義する．

本論文では，身体的，精神的，環境的状態と日常生活行動が相互に作用するとの考えに基づき，日常生活行動を推薦するシステムを提案する．推薦する行動の決定には，上述の

3

状態を要因として考慮する他，ある行為（生活行動）を行う時間帯には個人に依存しない共通性があるとの想定から，国民生活時間調査に基づく行為者率

[1]

を考慮する．行為者率とはある時間帯に当該行動を行った人の全体に占める割合であり，時間帯ごとの行動の生起確率として利用できると考える．本論文では，これら

3

要因と行為者率をユーザコンテキストと定義する．また，日常生活行動の定義を，日々の生活で行われている万人に共通する動作とする．具体的な行動としては睡眠や，朝食，入浴，掃除などが挙げられる

[1]

^．

日常生活行動を推薦する場合，行動ごとに特徴が異なるため，単一のアルゴリズムでは効果的な推薦が難しいと考える．例えば，ある時刻を過ぎたら就寝を推薦する場合であればルールベースが適するが，過去の行動パターンから行動を推薦する場合には適さない．よって，本論文では推薦対象となる行動の特徴に基づき複数の推薦アルゴリズムを採用する．具体的には，推薦戦略をコンテキストの観点から介入型と行動型に大別する．介入型は上述の

3

要因に基づき，現在の行動が完了しているかどうかといった状態に関わらず，条件を満たしている行動を推薦する．その行動を推薦する根拠を，心拍数や脳波といった内的要因，室温や騒音といった外的要因，時刻や曜日といった時間的要因に分類する．

行動型は行動間の関連性に基づくものであり，過去の行動パターンに基づくパターン予測，直前の行動を用いて次の行動を決定論的に選択する順展開計画，次の行動を予測しそれに必要な行動を決定論的に選択する逆展開計画に分類する．推薦モジュールとして，介入型はルールベース，パターン予測型は

APPM (App for Prediction by Partial

Matching) [8]

，展開計画型はスケジューリングアルゴリズムを採用する．ルールベース

(9)

では，身体的に疲れている状態を検知した場合に入浴や就寝を推薦する．スケジューリングでは，食事後に食器の片付け，

APPM

では行動パターンからテレビ視聴といった行動を推薦する．

各推薦モジュールから同時に抽出が行われた場合，推薦された行動を全て提示してしまうのは心理学における決断疲れ

[9]

の観点から好ましくないため，多腕バンディット手法によって推薦する行動を選択する．具体的には，各日常生活行動をアームとみなし，

各推薦モジュールに推薦された行動以外を選択不能とする睡眠型バンディット

[10]

を採用する．バンディットの学習は，推薦行動に対するユーザの受理もしくは拒否といった

2

値のフィードバックに基づき行い，行動選択にはロジスティック回帰モデル上の睡眠型トンプソン抽出を用いる．

シミュレーション実験や

VUI (Voice User Interface)

を用いた実地実験により，提案システムの有効性を検証する．シミュレーション実験では，工学系大学生・大学院生

16

名に提案システムを組み込んだライフシミュレータを用いてあるペルソナになりきり，仮想的な生活を送って貰い，その中で生活行動の推薦を受け容れるかどうかを選択してもらう．この実験では，提案システムを推薦の受入率や

wellbeing

の観点から評価する．

VUI

を用いた実地実験では，

Google Home

を介して居住者に生活行動を推薦した場合の主観的な評価を定性的に行う．

(10)

2

^関連研究

2.1

^{健康・幸福}

一般に知られている健康の定義は心身ともに健やかな状態であることである

[11]

が，

近年，「身体的，精神的，社会的に良好な状態であること

[12]

」，「心身の健康，人間関係，仕事に対するやりがい，居住環境，余暇活動などの状態

[13]

^{」としてより広義に再} 定義されている．前者は

wellbeing,

後者は

QOL (Quality Of Life)

の定義の

1

つである．本論文では，健常者を対象にしている点，構成要素の定義をする文献が多く存在する点から

wellbeing

の概念を採用する．本節では，

wellbeing, QOL

に関する研究に加え，

wellbeing

に関連した概念である

wellness

に関する研究を取り上げる．

2.1.1 Wellbeing

Wellbeing

とは

well (

良い

) being (

であること

)

の造語であり，良い状態であることを意味する．研究によって

wellbeing, well being, well-being

のように表記が統一されていないが，本論文では

wellbeing

を用いる．この単語は世界保健機関

(WHO: World

Health Organization)

憲章において，健康を定義する文章の中で以下のように使われて

いる

[12]

．

Health is a state of complete physical, mental and social well-being and not merely the absence of disease or infirmity.

この「良い」の定義については多く議論されているが，主に以下の

3

つが挙げられる

[14]

．

医学的アプローチ機能障害がない状態快楽的アプローチ気分が良い状態

持続的幸福的アプローチ人生に意義を見出し，自分の潜在能力を最大限に発揮している状態

医学的アプローチでは，病気ではない状態を良い状態であるとしている．一般的な健康の定義に似た定義であり，医学的アプローチにおける

wellbeing

^{は予防や治療による改} 善が行われる．快楽的アプローチでは，多くの快楽を感じ，気分が良い状態を「良い」状態としている．この快楽は，目標の達成や人生における様々な結果に対する快，不快を意味する．持続的幸福的アプローチでは，

wellbeing

^{を構成する要素}

(

^{人間関係など}

)

^において，良い結果を出している状態を「良い」状態としている．

(11)

医学的アプローチでは疾患に対して予防や治療が施されるのに対して，快楽的，持続的幸福的アプローチでは疾患の有無に関わらず，現状をより良くするような促進に関する方策がとられる．本論文においては疾患の予防や治療ではなく，万人を対象した

wellbeing

の向上

(

促進

)

を目的としているため，後者の

2

つの定義が対象となる．

wellbeing

の構成要素の定義や，その尺度を提案している研究は数多く存在する．

Timothy

らは

wellbeing

の構成要素を有能感，情緒不安定，没頭，意義，楽観性，ポ

ジティブ感情，良好な人間関係，心理的回復力，自尊心，回復力の

10

要素と定義している

[15]

^．また，

Seligman

^{はポジティブ感情}

(Positive emotion)

^{，物事への積極性}

(Engagement)

，他人との良好な関係

(Relationship)

，人生に対する意義

(Meaning)

，達

成感

(Accomplishment)

の

5

要素からなると考え，これを

PERMA

モデルと呼んでいる

[16]

^．

いずれの定義も，特定の状況や状態に対する心理状態にフォーカスしている特徴がある．

2.1.2 QOL (Quality Of Life)

QOL

の定義は様々であり，国内においては以下のような障害者の

QOL (

生活の質

)

が定義されている

[17]

．

障害者によっての生活の質とは、日常生活や社会生活のあり方を自らの意思で決定し、生活の目標や生活様式を選択できることであり、本人が身体的、社会的、文化的に満足できる豊かな生活を営めることを意味します。

一般的な定義としては，

Spilker

は

QOL

を身体的状態

(physical status and functional abilities)

，精神的状態

(psychological status and well-being

），社会的交流

(social inter- action)

^{，経済的・職業的状態}

(economic and / or vocational status)

^{，宗教的・霊的状} 態

(religious and / or spiritual status)

の

5

領域からなるとしている

[18]

．

QOL

の尺度は主に特定の病気に特化しない汎用評価法と特定の疾患や部位に注目した疾患特異的評価法に分けられる．汎用評価法としては，

SIP (Sickness Impact Profile)[19]

や

NHP (Nottingham Health Profile)[20]

などが挙げられる．

SIP

は動作や行動から

HRQOL (Health Related Quality Of LIfe)

と呼ばれる健康に関連した

QOL

を捉える評価法であり，栄養摂取や睡眠，家事，感情などの

14

カテゴリの項目からなる．

NHP

は主観的健康を測定するための患者報告アウトカムであり，主に健康と生活に関する項目から構成される．前者は痛みや情動反応，後者は家事や趣味に関する項目から構成される．

(12)

アに対する満足度などの

19

要素からなる肝臓病に特化した尺度，

GOHAI

は機能面，心理社会面，不快感の

3

要素からなる口腔に特化した尺度である．

これらの

QOL

の尺度は，疾患に関連した尺度が多く，主に医学，看護学分野で用いられる．また，健常者向けの尺度の確立は不十分と言われている

[21]

．

2.1.3 Wellness

Dunn

は

High level wellness

を

a condition of change in which the individual moves forward, climbing toward a higher potential of functioning[22]

^{と定義している．}

Well-

ness

は

wellbeing

と同様に状態を表しているが，定義がより具体的である点において

wellbeing

と異なる．

Dunn

^は

wellness

の構成要素として，個人のウエルネス

(Individual Wellness)

^，家族のウエルネス

(Family Wellness)

，地域のウエルネス

(Community Wellness)

，環境のウエルネス

(Environmental Wellness)

，社会のウエルネス

(Social Wellness)

の

5

要素を挙げている

[22]

．

National Wellness Institute

^*1 は

wellness

の構成要素として，感情的

(emotional)

，職業的

(occupational)

，身体的

(physical)

，社会的

(social)

，知的

(intellectual)

，魂的

(spiritiual) wellness

の

6

つを挙げている

[23]

．

しかし，これらに関する評価尺度については調べた限りでは存在しない．

2.2

日常生活行動

日常生活行動は人が日常生活において繰り返す基本的かつ具体的な活動と定義されている

[24]

．例えば，食事，更衣，入浴などが挙げられる．また，

NHK

は日常生活行動を上述の様な必需行動の他，拘束行動，自由行動の

3

つに分類している文献

[1]

．拘束行動は買い物や仕事などの家庭や社会生活の維持向上のために行う義務性の高い行動，自由行動はテレビの視聴や友人との付き合いといった人間性を維持向上させるために行う自由裁量性の高い行動として定義されている．以降，日常生活行動を行動と呼ぶ．

2.2.1

行動の分析に関する研究

行動の分析に関する研究は，対象ユーザの情報をアンケートやデバイスなどを用いて直接取得する方法をとる侵襲的

(intrusive)

アプローチと，すでに生活環境に組み込まれているデバイスなどを用いて間接的に情報を取得する非侵襲的

(non-intrusive)

アプローチに大別される．前者はユーザの行動および行動に関する情報を直接取得するため，分析をしやすい利点があり，既存研究の多くが該当する．しかし，情報を直接取得するためにデバイスを設置，装着する必要があり，プライバシーやユーザの負担などが懸念され

*1https://www.nationalwellness.org

(13)

る．後者は間接的に情報を取得するため，分析結果で知見が得られにくい問題点が挙げられ，既存研究は数少ない．しかし，プライバシーは保護され，金銭的コストが抑えられる利点がある．本論文はコンテキストをデバイスを用いて直接的に取得するため，侵襲的アプローチに位置づけられる．

前ら

[25]

，野間らは

[26]

アンケートを用いた行動に関する分析を行なっている．前らは居住空間におけるエネルギー消費構造の解明を目的とした生活行動の分析をしている

[25]

．アンケートでは起床，外出，帰宅，就寝，自宅での朝昼晩の食事と入浴の時刻に関する設問を設定している．外出，起床在宅，就寝在宅をそれぞれ

0, 1, 2

^{に割り当て}

15

分ごとの状態を表し，

1

日を表現した

96

次元ベクトルを用いて男性勤め人，女性勤め人，

専業主婦別にクラスタ分析をしている．その結果，勤め人におけるクラスタごとの外出時刻に大きな差異はないが，帰宅時刻に差異が見られること，専業主婦におけるクラスタごとの就寝時刻に差異が見られることなどの知見が得られたとしている．

野間らは省エネを目的としたライフスタイルの分析を行なっている

[26]

．アンケートでは家族構成や部屋の間取り，夏冬別の家電の使用状況や起床就寝，外出帰宅時刻などに関する設問を設定している．夏に関するアンケート回答結果を元に各家庭の

3

時間ごとのエアコン，照明，テレビの使用の有無を

1

と

0

に対応づけ，

24

次元のベクトルに表現する．

800

世帯分の

24

次元ベクトルをデータ点として主成分分析をし，第一主成分，第二主成分をそれぞれ

1

日の家電機器使用量，家電機器使用ピーク時期を表すものとして可視化している．エアコン，テレビ，照明のそれぞれの消費電力と使用時間の積の和を節約志向指数として，この値を用いてヒートマップとして可視化した結果に基づき，時間帯別のエアコン，照明，テレビの利用率についてそれぞれ異なる特徴を持つ

10

^{個のクラス} タがあることを示した．

Shirai

らは電力データからユーザの行動に関する分析を行なっている

[27, 28]

．

QOL

向上のための行動推薦への活用を想定した，ライフパターンの理解を目的として分析を行っている．独居高齢者

13

世帯の

1

年分の電力データから各日の起床，朝食，昼食，夕食，就寝時刻を推定し，これらの推定時刻を特徴量として

k-means

を用いてクラスタリングした結果，全国平均に近い時刻に起床した日は

3

食を自宅で摂る傾向があるなどの知見が得られている．

2.3

推薦手法

日常生活において我々は気づかないところで，推薦システムを利用している．

Web

^広告や動画サイトで表示されるおすすめの動画，

Amazon

^*2や価格

.com

^*3でのオススメの商

(14)

品など．これらは全て推薦システムにより推薦されている．以降では，一般的な推薦手法を取り上げたあとに，バンディットアルゴリズムについて説明する．

2.3.1

一般的な推薦手法

協調フィルタリングは評価値を元に類似するユーザ・アイテムを推薦する手法である

[29]

．類似度の計算には

cos

類似度や

Jaccard

係数，相関係数などが使われる．シンプルな方法だが，データセットの評価値がスパースな場合や新規ユーザ・アイテムに対して推薦できなかったり，精度低下することが知られている．

協調フィルタリングではユーザ・アイテムに関する特徴が考慮されていなかったが，

コンテンツベースフィルタリングではアイテムの内容

(

コンテンツ

)

に関する特徴を考慮する

[30]

．例えば，アイテムを記事とすると内容は文章になる．単語の重要度を測る

TF-IDF

を用いて記事ごとのベクトルを求め，記事間の類似度を算出する．特徴を適切

に設定しないと，十分な推薦精度が得られない可能性がある．

知識ベース型推薦ではユーザが明示的に指定する要求を元に推薦を行う．この手法には制約ベース型

[31]

と事例ベース型

[32]

の

2

種類があり，前者では推薦ルールを充足するアイテムの集合を抽出し，後者ではユーザの要求に類似したアイテムの集合を抽出し，

ユーザにより評価された結果を元にアイテムの集合を更新していく．事前に記述された知識を活用するため，新規ユーザに対しても精度の高い推薦が行える利点がある．

2.3.2

バンディット

バンディット問題は腕と呼ばれる選択肢の集合から

1

つの腕を選び，この選択に対する報酬を獲得するという手続きを繰り返す中で報酬の最大化を目指す問題である．この目的を達成するには腕の集合の中から高い報酬が得られる腕を探す必要がある．この手続きを探索と呼び，探索結果を元に腕を選択する手続きを活用と呼ぶ．探索や活用をどう行うかといった戦略は方策と呼ばれる．本節では代表的な

3

つの方策を紹介する．

ϵ

貪欲法は，全試行回数，腕の数を

T, K,

ハイパパラメータ

ϵ ( ∈ [0, 1])

とすると，

T ϵ/K

回ずつすべての腕を選択し，得られた報酬が最大となる腕を残りの回数

T − T ϵ

回選択する戦略をとる

[33]

．アルゴリズムがシンプルで実装コストが低く解釈がしやすい利点があるが，

ϵ

が大きいと，最適な腕を見つけるための探索回数が多くなることで，十分な活用ができなくなり，

ϵ

が小さいと探索が不十分になり，活用の段階で不適切な腕を選び続けてしまう恐れがある．このように，

ϵ

により，結果が大きく変化するため，この値の調整が重要になる．

腕ごとに報酬の分布がある場合，選択回数が少ない腕の標本平均は母平均に収束していない可能性が高く，

ϵ

貪欲法ではこの問題に対応できない．この問題に対し，

UCB

(Upper Confidence Bound)

方策

[34]

では各腕

k (k = 1, 2, ..., K )

を

1

回ずつ選択した

(15)

後に腕ごとの期待値を元に腕を選択する．時刻

t (t = 1, 2, ..., T )

における腕

k

の期待値

µ

_k

(t)

を式

(1)

のように表す．

µ ˆ

_k

(t), N

_k

(t)

はそれぞれ時刻

t

における行動

k

に関する報酬の標本平均，

t

までの

k

の選択回数を示す．

µ

k

(t) = ˆ µ

k

(t) +

√ log t

2N

k

(t) (2.1)

UCB

方策では，選択回数が少ないほど第

2

項の値が大きくなるため，選択回数が少ない腕も選ばれる可能性がある．この補正項により

ϵ

貪欲法に比べ探索と活用のバランスをとりながら腕の選択ができる．

Thompson Sampling

はベイズ推定した期待値を用いる確率一致法である

[35]

．確率

一致法とは腕の期待値の分布に従って確率的に行動を選択する手法であり，上述した

ϵ

貪欲法と

UCB

方策のように得られた期待値をもとに決定論的に腕を選択する手法とは異なる．期待値の分布は任意の事前分布と尤度関数の積によって表現できる．この期待値の分布に従い腕を選択し，観測された報酬をもとに事後分布を更新する．この手法における利点は，問題設定に応じて事前分布を自由に設定できる点，腕の期待値に従い行動を選択できるため，

ϵ

貪欲法のように不適な腕を選択し続ける問題に対応している点などが挙げられる．

2.3.3

行動推薦

行動を推薦する研究は対象としている行動が単一か複数かで分類できる．前者の研究では，起床

[36]

や薬の服用

[37]

などの行動を対象としており，詳細な推薦を行っている研究が多い．

沖らは起きたい時刻と，起きたい度合いを設定することで，ユーザの好みや状況を考慮した，起床支援インタフェースを提案している

[36]

．例えば，起きたい度を低く設定する場合，光だけを用いるが，高く設定すると，光に加え音楽や

Twitter

のリプライなどを利用する．

Lee

らは高齢者を対象とした服用推薦システムを提案している

[37]

．薬ケースにスイッチセンサを付与した自作デバイスと専用のディスプレイを用いて，薬の服用状況をユーザに通知する．服用すべき薬が入っていない蓋を開けた場合や，未服用の場合は，その旨をユーザに知らせる．直感的でわかりやすいシステムであり，ユーザ実験により定量的に有効性が示されたが，システムの利用後に規則正しい薬の服用が習慣化されなかった課題がある．

複数の行動を対象としている研究

[38, 39]

では，食事や，掃除，運動などを対象として

(16)

活の質は，電力コスト，健康，快適度，家族団らんの

5

要素からなるものとして，これらの値が最大となるような一日の行動スケジュールを作成している．この研究では，睡眠，

食事，入浴，調理，身支度などの

20

種類の行動を推薦対象としている．

Gao

らは，身体的，認知的，感情的，社会的側面からなるウェルネスの向上を目的とした日常生活行動プランの推薦手法を提案している

[39]

．ユーザプロファイル，過去の行動パターン，ウェルネスを定量的に表現するウェルネススコアを元に，より健康的な日常生活行動のパターンを作成している．この研究では，起床や昼寝，テレビの視聴，読書などの

30

種類の行動を推薦対象としている．

複数の行動を対象とした研究は少ない．

(17)

3

^提案手法

3.1

^{推薦戦略の分類}

本章では，

wellbeing

と日常生活行動の間に相互作用があるとの考えに基づき，日常生活行動推薦システムを提案する．現在，複数の日常生活行動を対象とする推薦システムの研究は少ないが，単一の日常生活行動を対象としている研究は多い

[36, 40, 41, 42, 43, 44]

^．しかし，複数の日常生活行動を対象とする場合，単一の推薦アルゴリズムでは効果的な推薦が難しいと考える．例えば，ある時刻を過ぎたら就寝を推薦する場合であればルールベースが適するが，過去の行動パターンから行動を推薦する場合には適さない．よって，

本論文では推薦対象となる行動の特徴に基づき複数の推薦アルゴリズムを採用する．具体的には，推薦戦略をコンテキストの観点から介入型と行動型に大別し，それらを複数のアルゴリズムを用いてカバーする．それぞれの戦略についての説明を以下に示す．

3.1.1

介入型

介入型は現在の行動が完了しているかどうかによらず，条件を満たす行動を推薦する．

行動を推薦する根拠を，内的要因，外的要因，時間的要因に分類する．図

3.1

^{は介入型推} 薦戦略の概要を示したものである．図

3.1

において橙色の実線は，考慮する要因の変化を示す．閾値を表す黒色破線を超えた場合に特定の行動を推薦する．各要因の概要は以下のとおりである．

図

3.1:

介入型推薦戦略の概要

(18)

(a)

行動パターン

(b)

順展開計画

(c)

逆展開計画図

3.2:

行動型推薦戦略の概要

内的要因脳波や心拍数，歩数といった生理学的・解剖学的情報を示す生体情報外的要因室温や湿度，騒音といった部屋の状況に関する情報

時間的要因日時や曜日といった時間に関する情報

3.1.2

行動型

行動型は行動間の関連性に基づき推薦を行うものであり，現在の行動が完了したタイミングで推薦を行う．順展開計画，逆展開計画，行動パターンの

3

種類に分類する．以下の説明において図中の橙色，水色，太線は，それぞれ推薦において考慮する行動，推薦される行動，現在の行動を示す．

・行動パターン

(

図

3.2(a))

過去の行動パターンから次の行動を予測し，起こりそうな行動を推薦する．例えば，行動パターンが勉強，ゲーム，勉強の場合に，次の行動としてゲームを推薦する．

・順展開計画

(

図

3.2(b))

現在の行動と紐付く行動を推薦する．行動パターンに似た戦略だが，現在の行動以外は考慮せずに，決定論的に次の行動を推薦する点に違いがある．例えば，現在の行動が食事の場合，次の行動として食器の片付けを推薦する．

・逆展開計画図

3.2(c))

将来実行すべき行動

(

ゴール

)

を設定し，その達成に必要な行動を逆算して推薦する．

例えば，ゴールが食事の場合，次の行動として食事を行うための準備である調理を推薦する．

3.2

^{提案システム}

提案システムは図

3.3

に示すように，行為者率の更新

,

推薦モジュールによる行動の推薦

,

睡眠型バンディットによる行動の選択・推薦

,

フィードバックによる学習の

4

つの要

(19)

素技術で構成される．提案システムは複数のアルゴリズムを組み合わせたハイブリッド型推薦システムとして位置づけられる．特に，状況に応じて推薦手法を切り替える特徴から，切り替え型ハイブリッド推薦システム

[14]

に分類される．本システム構成の利点は拡張性・網羅性・逐次性の

3

点である．拡張性は推薦モジュール間の相互関係を考慮せずに推薦モジュールの追加・変更が可能であることを意味する．網羅性は異なる推薦モジュールを組み合わせることで，多様な日常生活行動を網羅できることを意味する．逐次性はユーザのフィードバックを元に逐次的に学習を行うことを意味する．これにより，

短期的，長期的問わずユーザのライフスタイルの変化に対応が可能である．提案システムにおける処理の流れは，以下のようになる．

1.

現在の行動を観測，行為者率分布を更新

2.

現在の行動，コンテキストを元に，各推薦モジュールが行動を推薦

3. 2

で推薦された行動の中から，コンテキストを元にユーザに推薦する行動を睡眠型バンデットを用いて

1

つ選択

4. 3

で選択した行動，コンテキストを元に推薦説明を生成してユーザに提示

5.

ユーザのフィードバックに基づき学習

図

3.3:

提案システムの構成

以降で扱う記号は以下の通りとする．

(20)

表

3.1:

記号の一覧

記号定義

t

start

∈ R

⁺ ^{実験開始時刻}

t

end

∈ R

⁺ ^{実験終了時刻}

ω ∈ R

⁺ ^影響度

K

行動の数

D

実験日数

L

時間間隔数

S = { s

_l

| l = 1, 2, ..., L }

^{時間間隔の集合}

A = { a

k

| k = 1, 2, ..., K }

^{行動の集合}

A

PAT

⊆ A

行動パターンにより生成された行動の集合

A

RB

⊆ A

ルールベースにより生成された行動の集合

A

_SCH

⊆ A

スケジューリングにより生成された行動の集合

c

p

(t) ∈ [0, 1]

時刻

t

における身体的状態

c

_m

(t) ∈ [0, 1]

時刻

t

における精神的状態

c

_e

(t) ∈ [0, 1]

時刻

t

における環境的状態

c

d

(t)

時刻

t

における

0:00

からの経過時間

C(t) = { c

_p

(t), c

_m

(t), c

_e

(t), c

_d

(t) }

^時刻

t

におけるコンテキストの集合

µ

_s

= (µ

_as

∈ [0, 1] |∀ a ∈ A, ∑

a∈A

µ

_as

= 1), s ∈ S

時間間隔

s ∈ S

の行動

a ∈ A

を選択する多次元確率分布

β

as

∈ R , ∀ s ∈ S, ∑

a∈A

β

as

= 1

^文献

[1]

^{に基づく時間間隔}

s ∈ S

^における行動

a ∈ A

の行為者率

α

s

= (α

as

∈ R

⁺

| a ∈ A), s ∈ S

時間間隔

s ∈ S

における行動

a ∈ A

の疑似観測回数を表す多変量

γ

_s

(t) = (γ

_as

(t) ∈ N

0

| a ∈ A), s ∈ S t

_startから

t

の間のスロット

∀ s ∈ S

における総実観測回数

以下にそれぞれの手続きについて詳細に説明する．

(21)

3.3

^{行為者率の更新}

NHK

国民生活調査の行為者率にバイアス

Dω

を乗じた値を超パラメータとしたディリクレ分布を事前分布として扱う．この事前分布に基づき，ある時刻

t

の該当する時間間隔

s

における各行動の対応する生起確率

µ

sを点推定するまでの導出過程を説明する．

3.3.1

初期化

実験開始時刻を

t

startとし，

α

as

, γ

as

(t

start

) ( ∀ s ∈ S, a ∈ A)

をそれぞれ式

(3.1), (3.2)

と定める．ここで，時間間隔

s ( ∈ S)

を

1

日を一定間隔

(4

章の実験では

15

分

)

で分割した時間帯として定義する．影響度

ω

は超パラメータであり、実観測回数に対する擬似観測回数の比重の大きさを意味する．文献

[1]

に基づく時間間隔

s ∈ S

における行動

a ∈ A

の行為者率を

β

_asとする．

α

as

= Dωβ

as

, s ∈ S, a ∈ A (3.1)

γ

as

(t

start

) = 0, s ∈ S, a ∈ A (3.2)

3.3.2 MAP (Maximum A Posteriori)

^推定

本章では，各行動の観測回数

(γ

_s

(t))

に基づいて，時間間隔

s ( ∈ S)

における

a ( ∈ A)

の生起確率

µ

as を推定したい．最尤推定によって

µ

sを推定した場合，

t

の値が小さい時は観測が十分ではないため，推定値は信用ならない．前述のとおり，

NHK

^{国民生活調査} の行為者率に基づく事前分布を採用することで，

γ

_s

(t)

の観測が十分で無い場合の推定値の信頼問題は解消される．事前分布が与えられた場合の点推定は

MAP

推定により行う．

3.3.3

多項分布

時間間隔

s

において，時刻

t

までに，

∑

a∈A

γ

_as

(t)

回の独立した試行を行った結果，行動

a

を

γ

as

(t)

回観測したものとする．さらに，

s

における

a

の生起確率

µ

asより，

γ

sの分布は以下のように表現できる．

p(γ

_s

= γ

_s

(t) | µ

_s

) = Γ( ∑

a∈A

γ

as

(t) + 1)

Π

_a_∈_A

Γ(γ

_as

(t) + 1) Π

_a∈A

µ

^γ_as^as^(t)

, s ∈ S (3.3)

(22)

3.3.4

ディリクレ分布

次に，

µ

_sの分布について考える．擬似観測回数

α

_sが与えられた時の

µ

_sの分布はディリクレ分布に従うものとする．

p(µ

s

| α

s

) = Γ( ∑

a∈A

α

as

)

Π

_a_∈_A

Γ(α

_as

) Π

a∈A

µ

^α_as^as⁻¹

, s ∈ S (3.4)

3.3.5 MAP

^{推定値の導出}

式

(3.3, 3.4)

を用いて，

γ

_s

(t)

が得られた後の

µ

_s の事後分布を最大化する

µ

_s

(t)

は下式のように表される．

µ

s

(t) = arg max

µs

p(µ

s

| γ

s

= γ

s

(t), α

s

)

= arg max

µs

{ p(γ

s

= γ

s

(t) | µ

s

)p(µ

s

| α

s

) } , s ∈ S (3.5)

時刻

t

^{における式}

(3.3), (3.4)

^{の対数尤度をそれぞれ}

L

^Multi

, L

^Dir ^とする．

L

^Multi

(t) = ln p(γ

s

= γ

s

(t) | µ

s

)

= ln Γ( ∑

a∈A

γ

as

(t) + 1)

Π

_a∈A

Γ(γ

_as

(t) + 1) + ∑

a∈A

γ

as

(t) ln µ

as

, s ∈ S (3.6)

L

^Dir

(t) = ln p(µ

s

| α

s

)

= ln Γ( ∑

a∈A

α

as

)

Π

a∈A

Γ(α

as

) + ∑

a∈A

(α

_as

− 1) ln µ

_as

, s ∈ S (3.7)

式

(3.5)

の最大値を求めるために，式

(3.6,3.7)

の

µ

as

(t)

についての偏微分から，極値を求めることを考える．ただし，

µ

_as

(t)

には行動に関して総和が

1

となる制約があり，これを同時に満たす解を求める必要があるため，ラグランジュの未定乗数法を用いて，式

(3.8)

を最大化する問題とする．

L(t) = ln { p(γ

_s

= γ

_s

(t) | µ

_s

)p(µ

_s

| α

_s

) } + λ ( ∑

a∈A

µ

_as

− 1 )

, s ∈ S (3.8)

(23)

∂L(t)

∂µ

_as

= ∂L

^Multi

(t)

∂µ

_as

+ ∂L

^Dir

(t)

∂µ

_as

+ λ

= γ

_as

(t) µ

as

+ α

_as

− 1 µ

as

+ λ, s ∈ S (3.9)

∂L(t)

∂µas

= 0

^となる

µ

as

(t)

^は式

(10)

^となる．

µ

as

(t) = − γ

as

(t) + α

as

− 1

λ , s ∈ S (3.10)

∑

a∈A

µ

as

(t) = 1, ∀ s ∈ S

，式

(3.10)

より，

λ

は式

(11)

となる．

λ = − { ∑

a∈A

γ

as

(t) + ∑

a∈A

(α

as

− 1) }

, s ∈ S (3.11)

式

(3.10)

，

(3.11)

より，推定値は式

(12)

となる．

µ

as

(t) = γ

as

(t) + α

as

− 1

∑

a^′∈A

γ

_a′s

(t) + ∑

a^′∈A

(α

_a′s

− 1) , a ∈ A, s ∈ S (3.12)

3.4

推薦モジュールによる行動抽出

本節では，

3.1

節で述べた

6

種類の戦略に対して，行動パターン，ルールベース，スケジューリングのアルゴリズムを適用し，それぞれから得られた行動の集合

A

_PAT

, A

_RM

, A

_SCHを生成するまでの過程を説明する．

3.4.1

^{行動パターン}

行動パターンに基づく推薦には，

Application Prediction by Partial Matching

(APPM) [8]

採用する．

APPM

はアプリ起動ログを元に次に起動するアプリを予測する

ために提案された手法であり，短期的・長期的パターンの両方を考慮したマッチングを行う点が特徴である．本論文では，

APPM

におけるアプリを行動と置き換えることで，

行動パターンの予測に適用する．これにより，短期的，長期的行動パターンを考慮した予測が可能となる．

APPM

はパターンの更新と予測処理から構成される．それぞれの説明を以下に記す．

・パターンの更新

(24)

図

3.4:

^{パターン更新の例}

ンをゲーム，勉強，ゲーム，勉強とすると，文字列は，

abab

と表現できる．ここで，現在の行動としてゲームを観測した場合，文字列は

ababa

^{と更新される．}

・予測

予測の流れは以下の通りである．生成された予測行動

a

とすると，行動パターンにより生成される行動の集合は

A

PAT

= { a }

^{と記述できる．}

1.

文字列

strings

の末尾から

n ( ≤ len(strings))

字の文字列を部分文字列

prefix

として定める．例として

strings = abcababcababbbab

，

n = 2

とすると，

prefix

は

ab

となる．

2. strings

の先頭から順に，

prefix

と一致する箇所を探し，その直後の文字を取り出

す．表

3.2

に示す例では，正解欄に取り出された文字を示している．この例では

6

回マッチしている．次に，

prefix

直後の文字の予測を行う．それまでに取り出された直後の文字の，出現回数上位

2

文字を予測結果とする．表

3.2

の

3

回目について予測を行う場合，それ以前に

a, c

が

1

回ずつ直後の文字として抽出されているため，予測結果は

{ a, c }

^{となる．出現回数上位}

2

^文字が

3

文字以上存在する場合，

最後に出現したのが直近のものを優先して採用する．正解が予測結果のどちらかと一致していれば◯，そうでなければ×を判定結果として格納する．ただし，最初に一致した箇所については判定を行わない．

3

回目の処理では予測結果に正解の文字

c

が含まれるため，○と判定される．表の出現回数は，各文字がそれまでに直後の文字として取り出された回数である．

3. strings

の終端直前まで

2

を実行する．

4. prefix

の予測精度を，判定結果が〇となった割合として求める．表

3.2

の例では

2/4

となる．

5. prefix

の先頭の

1

文字ずつ削除しながら，繰り返し，

2-4

を実行する．例の場合，

ab

の次に

b

，次に空文字列について計算を行い，その予測精度はそれぞれ

居住空間におけるユーザコンテキストを用いた 行動推薦に関する研究

2020(

31)

Study on Context-aware Action Recommendation in Living Space

2020(

2)

2

21

18860609

wellbeing

wellbeing

wellbeing

wellbeing

wellbeing

wellbeing

Diener

wellbeing

3

3

3

3

APPM (App for Prediction by Partial Matching)

2

VUI (Voice User Interface)

5

1

2

QOL (Quality Of Life)

wellbeing

3

wellbeing

4

2

wellbeing

wellbeing

Google Home

5

Abstract

The eﬀectiveness of the proposed system is evaluated in terms of acceptance rate

of recommended actions and cumulative wellbeing.

1

6

2

9

2.1

. . . . 9

2.1.1 Wellbeing . . . . 9

2.1.2 QOL (Quality Of Life) . . . . 10

2.1.3 Wellness . . . . 11

2.2

. . . . 11

2.2.1

. . . . 11

2.3

. . . . 12

2.3.1

. . . . 13

2.3.2

. . . . 13

2.3.3

. . . . 14

3

16 3.1

. . . . 16

3.1.1

. . . . 16

3.1.2

. . . . 17

3.2

. . . . 17

3.3

. . . . 20

3.3.1

. . . . 20

3.3.2 MAP (Maximum A Posteriori)

. . . . 20

3.3.3

. . . . 20

3.3.4

. . . . 21

居住空間におけるユーザコンテキストを用いた行動推薦に関する研究