問題箇所の明確化

第 8 章本研究によるユーザビリティ評価

8.1 問題箇所の明確化

まず、操作時間の情報、アクション情報を統計学的に分析することで、設定した各ステップの中でどの箇所に問題が存在する可能性があるかを評価していく。評価項目として定義する5項目を以下に示す。

 操作時間

 スクロール時間

 シングルタップ数

 画面遷移に無関係のダブルタップ数

 戻るボタンの利用回数

8.1.1 各評価項目の回数の計測方法

操作履歴の各評価項目における計測方法は大きく分けて 3 つの方法があるため以下に示す。また、計測方法が異なるのは評価項目において求めるべき対象が時間、回数の違いが主な要因である。

 操作時間

各タスク、ステップにおいてユーザがどのくらいの時間操作を行ったかを計測する。計測方法は各ステップを区切るときに用いるGUIオブジェクトのリソースID を認識させることで求める（ステップが終了する GUI オブジェクトのリソースID が認識されたときの時間‐ステップが開始する GUIオブジェクトのリソース ID が認識された時の時間）。具体的な操作履歴を例として図 8.2 に示す。

図 8.2 操作時間の計測方法の例

183[ms] = 10955[μs] = ⋯ 20894844 − ⋯ 20883889

 スクロールの利用時間

スクロールの利用時間は操作履歴にScroll、Drag、Flickが含まれている行が存在した場合に認識される。しかし、スクロールは行数の認識ではどの程度画面にタッチし続けて操作が行われているのかが明確ではない。よって経験的にスクロールと認識されるアクションのメソッドが呼び出される速度から定めた手法 (スクロールが認識された行・20[𝑚𝑠]) によって回数を時間に置き換えられるようにしている。

 シングルタップの回数、ダブルタップの回数、戻るボタンの利用回数シングルタップは操作履歴にSingletap、Resource_idが含まれている行が存在した場合に認識される。ダブルタップは Doubletap が含まれている行が存在した場合に認識され、戻るボタンはBack buttonが含まれている行が存在した場合に認識される。各評価項目において指定された文字列が操作履歴に含まれたときの対応を表8.1に示す。

表 8.1 評価項目を認識するための文字列対応

アクション情報操作履歴に表示された文字列シングルタップ Singletap，Resource_id

ダブルタップ Doubletap

バック Back button

スクロール Scroll，Drag，Flick

8.1.2 取得データにおける統計的分析

問題箇所を明確化するために実施する手順を図8.3に示す。そしてこの手順は主に3種類の検定によって構成され、統計的に分析するようになっている。

(1) 操作の種類、操作時間の取得データに正規性があるかどうかを分析

(2) (1)によって熟練者ユーザ、初心者ユーザ両方の取得データにおいて正規性

がある場合、2種のデータの関係が等分散かどうかを分析 (3) 2種類の取得データにおいて有意な差があるかどうかを分析

図 8.3 統計的分析の流れ

まず手順 1 として熟練者ユーザ、初心者ユーザの取得データ（各ステップの操作の種類、操作時間）に正規性があるかどうかを分析する。利用する検定と

してはShapiro-Wilk test [9]を用いることで正規分布 [10]かどうかを判定する。

もしデータが正規分布ならば、例外処理を行わなければならない。正規分布内に外れ値が存在すると 1 つのデータによって結果が大きく影響することがあるため必要な操作である。外れ値[10]かどうかを判定するために平均 (=μ)と標準偏差(=σ)を利用する。そしてデータが μ-2σ より低い値か、もしくは μ+2σ より高い値の場合は外れ値と判定される。信頼区間は一般的な 95%に設定し、これに含まれないデータを外れ値としている。

手順2で熟練者ユーザと初心者ユーザの取得データが両方正規分布だった場

合、F test [11]を行うことで2種類のデータが等分散かどうかを判定する。その

結果に対してT test [13]を行う。判定結果が等分散だった場合、手順3として Student’s t test [13]を利用し、不等分散だった場合、Welch’s t test [13]を利用する。それぞれのT testによって熟練者ユーザと初心者ユーザのデータ（平均）

に有意な差があるかどうかを判定することができる。

一方、手順1で熟練者ユーザと初心者ユーザのデータのいずれかが非正規分布であった場合、Non-Parametric test [15][16] を行わなければならない。本手法はNon-Parametric test としてWilcoxon rank sum test [17][18]を利用する。

Wilcoxon rank sum test はデータを数値としてではなく、ランクとして置き換

えてから行う検定であるため、F test、T testの流れと同様なデータの平均の有意差を求めることができる。評価者はステップごとに平均値の有意差があるかどうかを判定することで、ユーザビリティ上の問題箇所を明確に認識することができる。

ドキュメント内操作履歴を基にした (ページ 33-36)

第 8 章 本研究によるユーザビリティ評価

8.1 問題箇所の明確化

8.1.1 各評価項目の回数の計測方法

8.1.2 取得データにおける統計的分析

第 8 章本研究によるユーザビリティ評価