情報管理学科で学ぶ

(1)

情報管理学科で学ぶ

熊澤吉起`<[email protected]> http://www.biwako.shiga-u.ac.jp/sensei/kumazawa/

1 数理科学講座について. . . 1 1.1基礎数学I、II、III··· 1／1.2確率・統計、多変量解析_{··· 2}／1.3数理科学特殊講義_{··· 2} 2 統計学について. . . 2 3 データの種類. . . 3 3.1質的データ_{··· 4}／3.2量的データ_{··· 4} 4 標本抽出. . . 4 5 解析方法. . . 4 6 相関係数. . . 5 7 変数変換. . . 7 8 標本. . . 9 9 統計的品質管理. . . 10 9.1グラフ・管理図_{··· 10} グラフ. . . 10 管理図. . . 12 ／9.2パレート図_{··· 12}／9.3ヒストグラム_{··· 13}／9.4 特性要因図_{··· 13}／9.5散布図_{··· 13}／9.6層別_{··· 13} ／9.7チェックシート_{··· 13} 10解析例. . . 13 11検索について. . . 16

1 数理科学講座について

数理科学講座は、統計学とオペレーションズ・リサーチ（OR）という二つのテーマを柱として構成されています。統計学は、自然科学、社会科学、人文科学において広く用いられており、小量のデータから全体についての客観的な判断をする際に必要になります。特に、品質管理、実験計画、需要予測等の分野においては、不可欠な考え方となっています。このようなことを学ぶのが、確率・統計、多変量解析の講義で、ここでは、統計解析ソフトRを用いて、シミュレーションやデータ解析を行ったりもします。オペレーションズ・リサーチ（OR）は、企業における意志決定、生産・販売活動、投資決定、在庫管理等の事柄を数学的に模型化し、評価・検討するものです。具体的には、線形計画法、動的計画法、決定分析とゲーム理論、スケジュールの問題等を現実の応用の面から考えます。他の講座や他学科との関連も大きく、実社会においても広く用いられています。経営システムの数理及びオペレーションズ・リサーチにおいてこれらの事柄を学びます。どちらのテーマも、漠然としたある情報を第三者が効率よく活用できるようにするための手法を学ぶことを目的としています。

情報管理学科（数理科学講座）

数理科学講座基礎数学I 微分基礎数学II 積分基礎数学III 線形代数多変量解析多変量データの統計解析確率・統計確率論、統計学入門 □ 経営システムの数理I 経営システムの数理II オペレーションズリサーチ数理科学特殊講義外部講師による先端の話題（品質管理、実験計画等） 1.1 基礎数学I、II、III 高等学校までに学習してきた数学の復習とさらなる数学的展開に必要となる基礎概念の習得を目的としています。 “基礎数学I”では、数の概念について触れ、数列の定義、極限について考察し、微分について考えていきます。

(2)

“基礎数学II”においては、多変数関数について微分の概念について考えます。また、確率論・統計学等の学習において必要になるであろう積分について考察します。“基礎数学III”では、ベクトル・行列の概念を導入し、これらに関する性質、演算について学びます。 1.2 確率・統計、多変量解析 “確率・統計”では確率論の基礎概念を習得し、そののち統計学の代表的な手法について考察します。この際、統計解析ソフトRを用いて、データ解析を行います。“多変量解析”においては、基礎数学IIIにおいて学習した線形代数を基礎として、多変量間に内在すると思われる関係をいろいろな数学モデルを用いて構築することを考えます。これらの手法は統計的品質管理、実験計画法などの基礎となるものです。 1.3 数理科学特殊講義 “数理科学特殊講義”では、過去、企業の方（薬品会社統計解析部）、他大学の先生をお招きし、統計的品質管理、実験計画法等の最近の話題について講義をして頂きました。現在は統計解析ソフトRを用いて、データ解析の演習のための講義を行っています。

2 統計学について

統計学は ⋄記述統計（descriptive statistics） ⋄推測統計（inferential statistics）と、二つに分類され、記述統計は収集したデータをグラフ表示、平均等の代表値を計算したりします。推測統計は、調査対象（母集団）が膨大な場合や、時間・費用の関係で全数調査が出来ない場合に、一部のデータを取り出し、このデータ（標本）についての試験・測定を行うことで母集団の性質について推論を行うものです。統計学の講義では推測統計を主として考え、確率論の基礎概念に基づき、統計推測理論を展開します。母集団標本抽出標本 X1, X2,··· ,Xn: 大きさ n (身長、体重、順位、時間に伴うデータ等) 標本に基づき母集団への推測を行う。 ⋄推定（estimation） ⋄検定（testing） ⋄予測（prediction）または 信頼区間（significance interval）例 ⋄国勢調査（ほぼ全数調査、記述統計） ⋄ A工場とB工場の製品の差が有るか無いか？（各々の工場から標本を抽出し、差に基づき検定） ⋄新しい薬を作った。前の薬より効くか？（二つの群を作り、一方には以前からの薬、他方の群には新薬を投与し、群間の差に基づく検定）

(3)

⋄偏差値 (自分の点数₋平均値)/標準偏差_{× 10 + 50} ここで平均値=∑ n i=1xi n = ¯x, 標準偏差= √ ∑n i=1(xi− ¯x)2 n nはデータ数、xiは各個人の点数である。 ⋄順に生産される製品から無作為に標本を抜き取り、これについて観測を行う（製品の水準の上昇が5つ連続してい

たら、生産を止める等：統計的品質管理（Statistical Quality Control）、品質管理の7つ道具）

⋄数種類の肥料がある。どの割合で配合すると収穫量が大きくなるか?（均一となる種子、日照条件、土壌等の環境

を作成し、調査したい肥料の組合せを与えたときの収穫量に基づき、最適な組合せを決定する：実験計画法）

⋄動物が発病するまでの時間を知りたい（発病した時間の平均を求める：信頼性検定）

⋄マウナロア山（ハワイ島の火山）の二酸化炭素濃度（1959年から1997年まで）：時系列解析

Mauna Loa is the largest volcano on Earth with an estimated volume of 9,600 cubic miles (40,000 cubic kilometers). It makes half of the area of the Island of Hawaii. Mauna Loa began to form nearly a million years ago. There is a caldera, Mokuaweoweo, at the summit and rift zones extend to the northeast and southwest. Mauna Loa is in the shield-building stage and is one of the most active volcanoes on Earth, erupting 15 times since 1900. The last eruption was in 1984 and sent lavas within 4 miles (6.5 km) of Hilo. (http://volcano.oregonstate.edu/より。)

上のグラフは、FreeWareのRという統計解析ソフトを利用して、コマンド

plot(co2)

で作成しています。Rは、MacOS、Windows、Unix、Linux等のほとんどのOS上で動作するソフトで、Australia、New Zealand の研究者が主となり開発されています（http://cran.r-project.org/参照）。

3 データの種類

データ（data）は標本（sample）、資料とも呼ばれ、個体に対する観測や繰り返し実験を行うことで収集されるものである。コンビニエンスストアで買い物をしたとき、レジでは品名、単価、数量の他に性別・年齢が入力されています。これに当日の曜日、天候、該当店舗の広告等のデータが追加され、商品の売れ残りを減少させるための発注量の決定に

(4)

利用されています。商品がなく、顧客が他のお店に行き、損失を被るという期待損失などの考え方も発生します。データ質的データ名義尺度：性別、職業、製品の等級など。順序尺度：貿易相手国の順位、取り扱い製品量の順位など。量的データ間隔尺度：偏差値、知能指数など。比例尺度：身長、体重、座高など。 3.1 質的データ 質的データ（qualitative data）は、定性的データとも呼ばれ、個体の属性や内容を表すもので文字や記号を用いて記述される。 •名義尺度（nominal scale）：分類ために名称を用いて表されるデータ。性別、職業、血液型など。 •順序尺度（ordinal scale）：適当な基準・標準により順序づけられた一連のデータ。成績順位、CD売り上げ順位など。アンケート調査の「好き」「どちらでもない」「嫌い」等も順序尺度となる。 3.2 量的データ 量的データ（quantitative data）は、定量的データとも呼ばれ、測定・観測により大きさ、長さ、重さ等の単位を伴 い記述されるものであるものである。連続な値をとる連続型データ（continuous data）と離散な値をとる離散データ（discrete data）に分けられる。身長や体重などのデータは小数点以下1桁で記入されるが、統計学では連続データとして考える。 •間隔尺度（interval scale）：数値の間隔に意味があり、原点が指定されていない尺度。偏差値、体温など。 •比例尺度（ratio scale）：尺度の原点が定まっており、四則演算が出来るデータ。体重、身長など。観測値について測定時間が変化するという状況も考えることが出来、上記のデータは経時データとして取り扱われることもある。

4 標本抽出

1. 無作為抽出（simple random sampling）母集団のどの要素も同じ確率で抽出される。

2. 系統抽出（systematic sampling）系統的（等間隔、周期）に抽出される。

3. 層別抽出（stratified sampling）母集団がいくつかの層に分かれていると想定され

る場合に各層から無作為抽出を行う。

4. 二段抽出（two stage sampling）母集団を小集団単位に分け、最初に小集団を抽出

（第1段抽出）し、抽出された小集団から標本を

抽出（第2段抽出）する。

5. 層別2段抽出（stratified tow stage sampling）層別を行った後、各層において2段抽出を行う。

5 解析方法

母集団から抽出された標本から推論を行う推測統計には次の手法がある。

1. パラメトリックな手法 母集団を模型化する際の分布について母数（parameter）を仮定し、

(5)

2. ノンパラメトリックな手法例えば、母集団分布はある点に関して対称である、二つの母集団は中央値について異なっている、審査委員達の順位の付け方に一致性がない、等のモデルを模型化する際、母数を仮定しなく、分布についての仮定のみを設定する。 3. ベイズ手法 T.Bayes（1710-1761）が提案した「ベイズの定理」とよばれる逆確率計算法を基礎にした統計学の体系で、主観確率を導入することにより展開される理論。最近では、購買行動の分析、スパムメールフィルター機能などへの応用がみられる。

6 相関係数

1つの個体に対して測定された2つの変量x、yの間の関連性を数値化したいとき、相関係数 r =_√sxy sxxsyy があるここで(x1, y1), (x2, y2),··· ,(xn, yn)は2つの変量のn組のデータで sxy=∑ n i=1(xi− x)(yi− y) n− 1 , sxx= ∑n i=1(xi− x)2 n− 1 , syy=∑ n i=1(yi− y)2 n− 1 , x = 1 n n

∑

i=1 xi, y = 1 n n

∑

i=1 yi である。sxy, sxx, syy, x, yはそれぞれ、xとyの標本共分散、標本分散、標本平均で、rxyは詳しくはPearsonの積率相関係数と呼ばれます。これはxとyの間に直線的な関係があるか否かを表すもので • 相関係数は-1と+1の間の値をとる。 • +1に近いとき“正の相関がある”、-1に近いとき“負の相関がある”という。0に近いとき“相関が弱い”という。という性質を持っている。次のデータを考える。これは、20人について、50m走のタイム、年収、年齢を測定したもので、ソフトRを用いて作図した右の図はヒストグラム、散布図（近似曲線を伴う）、相関係数をまとめたものである。 50m 走年収年齢

（running）（income）（age）

7.7 342 23 8.2 923 43 8.5 985 50 7.8 581 35 8.0 627 33 7.8 388 25 7.7 290 20 8.2 860 44 8.5 787 48 8.1 654 37 8.4 788 39 7.7 334 22 7.9 412 29 8.3 915 46 8.2 648 43 7.9 761 33 7.8 589 30 8.4 946 47 7.8 477 28 7.7 412 25 右図に記した数値から、

(6)

• 50m走と年収の間の相関係数は0.86。 • 50m走と年齢の間の相関係数は0.93。 • 年収と年齢の間の相関係数は0.94。であることが分かり、3つの変量の間には強い相関があることが分かる。これはRのコマンドから cor(d) として簡単に求まります。ここで、dは上のデータを表す変数である。しかし、50m走と年収の間に強い相関があるとは一般的に考えにくい。これは年齢を考慮せずに相関係数を計算したために起こるもので疑似相関と呼ばれる。第3の変量の年齢を考慮にいれた相関係数は偏相関係数 rxy− rzxrzy √ (1− r2 zx)(1− r2zy) と呼ばれ3つの相関係数の値から-0.05382888となり年齢の影響は排除した50mと年収の間には相関は無いということが分かります。データが階層のある状況から取られたときの相関係数を考える。次の散布図は横軸を生産性指標、縦軸をほ乳類の種の数をとったものである。 0 5 10 15 20 25 30 0 5 10 15 20 25 Productivity Mammal species aa a a a aaa b b bb b bb b c c cc c c c c d d d d d dd d e ee e e e e e f f f f f f f f これは6つの地域（a∼f）から測定されたもので、全体の相関係数は0.7056966となり、かなり強い正の相関を持っていると判断される。しかし、各地域地域ごとに散布図を描き、回帰直線を書き込むと下記のようになり、各地域（層）で負の相関になっていることがわかる。

(7)

Productivity Mammal species 0 5 10 15 20 25 0 5 10 15 20 25 30 a b 0 5 10 15 20 25 30 c d 0 5 10 15 20 25 30 e 0 5 10 15 20 25 f 層別に分けることは9節で考える統計的品質管理においても現れる重要な概念となります。

7 変数変換

次の表にある二つの系列データを考える。tを横軸に取り、縦軸にXとYの値をプロットし、直線で各点を結んだものが右の図になります。 t X Y 1 100 10 2 200 20 3 100 10 4 200 20 5 100 10 6 200 20 7 100 10 8 200 20 9 100 10 10 200 20 2 4 6 8 10 0 50 150 250 Index Numbers Xは100と200という値が交互に出現し、10と20が交互にあるYより変動が大きくなっています。縦軸の目盛り単位の対数をとり、データを計算し直し、同じように図を描くと下記のようになります。

(8)

t X Y 1 100 10 2 200 20 3 100 10 4 200 20 5 100 10 6 200 20 7 100 10 8 200 20 9 100 10 10 200 20 2 4 6 8 10 1 2 3 4 5 6 Index Numbers XとYの変動が同じようになっていることが分かります。ただし、縦軸の目盛りが全く異なっています。上のデータは偶然変動を伴わない、統計データではありませんが、対数などを考えてデータが変換されている場合には目盛りなどに注意を払う必要があります。これについては、ダレル・ハフ（著）,高木秀玄（翻訳）『統計でウソをつく法―数式を使わない統計学入門（ブルーバックス120）』に書かれています。別の例として、以下のようなデータを考える。右の図は横軸にX、縦軸にYを取った散布図で、 X Y 0.241 0.387 0.615 0.723 1 1 1.88 1.52 11.9 5.20 29.5 9.55 84.0 19.2 165 30.1 248 39.5 0 50 150 250 0 10 20 30 40 X Y 散布図内に描かれている直線はXに基づくYに対する回帰直線です。この回帰直線は各点を(xi, yi)としたとき n

∑

i=1 { yi− (β0+β1xi) }2 の値を最小にすることで求まる最小自乗法によるものです。この回帰直線の上の方にも下の方に幾つかの点があることが分かります。 XとYの値の対数をとり、回帰直線を引くと

(9)

X Y -1.422958 -0.94933 -0.486133 -0.32434 0.0000000 0.000000 0.6312718 0.418710 2.4765384 1.648658 3.3843903 2.256541 4.4308168 2.954910 5.1059455 3.404525 5.5134287 3.676300 −1 1 2 3 4 5 −1 0 1 2 3 logx logy すべての点が回帰直線の上にのっていることが分かります。これは元々のデータが惑星英名公転周期（年）軌道半長軸（天文単位）水星 mercury 0.241 0.387 金星 venus 0.615 0.723 地球 earth 1 1 火星 mars 1.88 1.52 木星 jupiter 11.9 5.20 土星 saturn 29.5 9.55 天王星 Uranus 84.0 19.2 海王星 Neptune 165 30.1 冥王星 Pluto 248 39.5 公転周期と軌道半長軸の長さ（1天文単位= 1.50× 1011m）というもので、ケプラーの第三法則 “惑星の公転周期の2乗は、軌道の半長径の3乗に比例する” により、散布図の点が直線上になることが保証されている状況です。ケプラーの法則は、1619 年にヨハネス・ケプラーによって解明された惑星の運動に関する法則である。ケプラーは、ティコ・ブラーエの観測記録から、太陽に対する火星の運動を推定し、以下のように定式化した。第 1 法則 : 惑星は、太陽をひとつの焦点とする楕円軌道上を動く。第 2 法則 : 惑星と太陽とを結ぶ線分が単位時間に描く面積は、一定である（面積速度一定）。第 3 法則 : 惑星の公転周期の 2 乗は、軌道の半長径の 3 乗に比例する。

8 標本

母集団から抽出された標本に対して、通常、どのような集まりであるかを見るために、データを視覚的にとらえることがあります。簡単なものとして、次の4つの図（探索的データ分析）を描くことがあります。

(10)

Histogram of x Density of x

Boxplot of x Q−Q Plot of x EXPLORATORY DATA ANALYSIS

左上がヒストグラム、時計回りで、密度関数の推定、正規確率紙、箱ひげ図となっています。ヒストグラムはデータの集まりがどのようになっているかを見るものですが、区間幅や区間数の取り方により、形状が変わるので、描く際には注意が必要です。上の場合は、スタージェス（Sturges）の公式によって描いています。密度関数の推定はヒストグラムをより詳しく描写しようというもので、7つほどの代表的な手法があります。ここでは、 Gaussianという手法が用いられています。右下の正規確率紙は、データが正規分布に従っているかを見るためのもので、データが直線に並ぶと、標本は正規分布に従っているとして見なしても差し支えないと言われています。詳しい検定には、適合度検定、Shapiro-Wilk検定を用います。左下の箱ひげ図は、データの集中度と、外れ値を見つけるものです。外れ値は、データ入力の間違い、異なる層のデータの混入等により発生します。

これらは、統計的品質管理（SQC：Statistical Quality Control）の7つ道具と呼ばれるものの中に入っています。

9 統計的品質管理

品質管理は、もの作りやサービスを提供する際、商品・サービスにおいて質の良いものを与えるために必要となるも

のである。この品質の水準を保つために、品質管理の7つ道具（QC7つ道具）と呼ばれるものが利用されています。

(i) グラフ・管理図（Graph, Control Chart） (ii) パレート図（Pareto Diagram）

(iii) ヒストグラム（Histogram）

(iv) 特性要因図（Cause and Effect Diagram）

(v) 散布図（Scatter Diagram） (vi) 層別（Stratification） (vii) チェックシート（CheckSheet） 7つ道具の内、最初の5つに関しては、Rのパッケージqccを読み込むことで実行することが出来ます。層別とチェックシートはデータの分類についての概念と実際の検査で利用されるものであるからソフトウェアのパッケージとしては与えられていません。 9.1 グラフ・管理図 9.1.1 グラフ グラフには、度数分布図、積み上げ棒グラフ、円グラフ、箱ひげ図、正規確率プロット等がある。 (i) 度数分布図とは、異なる属性ごとに観測されたデータを棒グラフの形で与えたものである。

(11)

(ii) 積み上げ棒グラフとは、異なる属性ごとに観測され、表の形で与えられたデータを積み重ね棒グラフの形で与えたものである。 (iii) 円グラフとは、円全体を100%として，各属性の割合に従って順に区切り線を引き，塗り分けた図を円グラフと呼ぶ。 (iv) 箱ひげ図 データを小さい方から順番に並べて、真中の値を中央値（median）といい、小さい方から25%の位置にある値を

第1四分位点（first quartile）、大きいほうから25%の位置にある値を第3四分位点（third quartile）という。

縦軸に変数値をとって、第1四分位点を下に、第3四分位点を上にした箱を書き、中央値の位置にも線を引いく。さらに第1四分位点と第3四分位点の差（四分位範囲）を1.5倍した線分をヒゲとして第1四分位点の下と第3 四分位点の上に伸ばし、ヒゲの先より外れた値を外れ値として○を描いた図を箱ひげ図（boxplot）という。 (v) 正規確率プロットとは、データが正規分布に従っているかを見るための図である。関数qqnormにより、データの正規確率プロットが描かれ、関数qqlineにより正規確率プロット上に第1四分位点と第3四分位点を結んだ直線が引かれる。

(12)

9.1.2 管理図

製品の工程管理を行っていく際、製品の品質・精度が一定でなく、ばらつくことがある。このばらつきを偶然原因によるものか異常原因によるものかに区別し、異常原因を取り除くことが重要となる。このとき利用される図がシュハート（Shewhart）により提案された管理図（control chart）であり、中心線（CL：Center Line）、上部管理限界線（UCL： Upper Control Limit）と下部管理限界線（LCL：Lower Control Limit）の三本を配した図にデータを打点したもの。製品を全部調査することは出来ないので、数個のものを無作為に取り出し、この標本（群とかロットと呼ぶ）について検査することになります。 (i) x管理図（平均xに基づく） (ii) R管理図（範囲Rに基づく） (iii) x管理図（データxに基づく） (iv) p管理図（不適合率pに基づく） (v) pn管理図（不適合数pnに基づく） (vi) c管理図（群の大きさが一定のとき不適合数に基づく） (vii) u管理図（群の大きさが一定でないのとき不適合数に基づく）いずれも中心線から3倍の標準偏差を超えるものを異常なものとして視覚しようとするものである。 9.2 パレート図 パレート（Pareto）の法則は、「重要なものは僅かしかない」ということを図式化したものです。パレート図（Pareto chart）は、分類項目の度数の高いものを高い順に並べ、縦軸の左軸に度数、右軸に累積百分率の目盛りを配したもの。

(13)

9.3 ヒストグラム データの範囲をいくつかの区間に分け、各階級区間に入るデータの分布を棒グラフで表したもの。 9.4 特性要因図 特性と要因の関係を図式するものであり、結果と原因や目的と手段等の関係を図示するために用いられ、魚の骨グラフ（Fishbone Diagram）とも呼ばれる。 Cause−and−Effect diagram Incorrect Deliver Communication Procedures SKills Transport ambiguity lack of knowledge Knowledge Literacy Manual automated carriers Information 9.5 散布図 一つの個体に対して測定された2つの量的データの値を描いたもの。 9.6 層別データや結果をグループ別に分類し、全体でなく層ごとに原因を考察する。 9.7 チェックシート 調査項目を一覧にし、検査を簡略化する用紙。

10 解析例

統計解析ソフトウェアRには多くの観測例が含まれており、ここでは、airqualityというものを考える。これは、1973年の5月から9月までの観測された153個のニューヨークのOzone（オゾン濃度）、Solar.R（日射量）、

(14)

と入力すると詳しい説明が得られます。オゾン濃度が他の変数によってどのように表されるかをみるために、とりあえず、6つの変数についての相関を見るために散布図を描いてみます。

Ozone

0 100 250 60 80 0 10 20 30 0 50 150 0 150 300

Solar.R

Wind

5 15 60 80

_Temp

Month

5 6 7 8 9 0 50 100 0 10 25 5 10 15 20 5 6 7 8 9

Day

30個の散布図が描かれていますが、対角線上にあるものに関して対称なものとなっており、実際には15個の散布図について考えることになります。散布図の中に描かれている曲線は平滑化関数を用いた一般化加法モデルです。一番右の 2列と一番下2行は月と日についてのもので“時系列データ”として考える際には重要となりますが、今のところは処理から外しておきます。以下、月と日にちのデータを除いたものを“airq”とします。データセット“airq”に対して、散布図を描くと下のようになります。 Ozone 0 50 150 250 0.35

_0.60

60 70 80 90 0 50 100

0.70

0 100 200 300 Solar.R 0.057 0.28 Wind 5 10 15 20 0.46 0 50 100 150 60 70 80 90 5 10 15 20 Temp

(15)

対角線上にはヒストグラム、右三角の部分には相関係数を入れています。変数間の関連、交互作用をみるために、樹木モデルを当てはめてみる。 | Temp < 82.5 Wind < 7.15 Solar.R < 79.5 Temp < 77.5 Wind < 10.6 Temp < 88.5 Solar.R < 205 61.00 12.22 20.97 34.56 74.54 83.43 102.40 48.71 木の枝の端にあるのが平均オゾン濃度で、木の“根”の所に気温があるので、気温はオゾン濃度に対して重要な要因であることが分かる。気温が低い（Temp<82.5（摂氏28.1度））とき、風速が強い（Wind>=7.15）状況では、日射量が影響している。気温が高いとき、風速が弱い状況でも日射量が影響している。散布図からオゾン濃度に対して、線形関係のある要因、曲線関係のある要因がありそうなので、モデルとしてを考えてみる。このモデルの解析結果は、 Call:

lm(formula = Ozone ˜ Temp * Wind * Solar.R + I(Solar.Rˆ2) + I(Tempˆ2) + I(Windˆ2)) Residuals:

Min 1Q Median 3Q Max

-38.879 -11.231 -2.706 8.824 70.546

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 5.670e+02 2.077e+02 2.730 0.00748 **

Temp -1.073e+01 4.308e+00 -2.491 0.01439 *

Wind -3.232e+01 1.176e+01 -2.749 0.00709 **

Solar.R -3.140e-01 5.593e-01 -0.561 0.57581

I(Solar.Rˆ2) -3.610e-04 2.576e-04 -1.401 0.16421

I(Tempˆ2) 5.815e-02 2.399e-02 2.424 0.01715 *

I(Windˆ2) 6.095e-01 1.473e-01 4.138 7.32e-05 ***

Temp:Wind 2.373e-01 1.370e-01 1.733 0.08624 .

Temp:Solar.R 8.433e-03 7.523e-03 1.121 0.26499

Wind:Solar.R 2.063e-02 4.899e-02 0.421 0.67450

Temp:Wind:Solar.R -4.340e-04 6.605e-04 -0.657 0.51264

---Signif. codes: 0 ‘_***’ 0.001 ‘_**’ 0.01 ‘_*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(16)

(42 observations deleted due to missingness)

Multiple R-squared: 0.7387, Adjusted R-squared: 0.7126

F-statistic: 28.27 on 10 and 100 DF, p-value: < 2.2e-16

となり、気温・風速・日射量という3次の交互作用が有意でないことが分かり、モデルから除くことになる。順に、有

意でない要因の削除、対数による変数変換、分散の均一性、誤差の正規性などのチェックを行うことで、

Call:

lm(formula = log(Ozone) ˜ Temp + Wind + Solar.R + I(Windˆ2), subset = (1:length(Ozone) != 17))

Residuals:

Min 1Q Median 3Q Max

-2.01817 -0.27787 -0.01111 0.31407 1.29569

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.6741274 0.6466060 1.043 0.299545 Temp 0.0474201 0.0060421 7.848 3.76e-12 *** Wind -0.2232387 0.0598210 -3.732 0.000309 *** Solar.R 0.0024195 0.0005477 4.418 2.43e-05 *** I(Windˆ2) 0.0073580 0.0026307 2.797 0.006137 ** ---Signif. codes: 0 ‘_***’ 0.001 ‘_**’ 0.01 ‘_*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.4928 on 105 degrees of freedom (42 observations deleted due to missingness)

Multiple R-squared: 0.6907, Adjusted R-squared: 0.679

F-statistic: 58.63 on 4 and 105 DF, p-value: < 2.2e-16

というものが得られる。

11 検索について

(i) 利用している者によって、項目が加筆・修正されていくWeb百科辞典ウィキペディア（Wikipedia）:（http://ja.wikipedia.org/wiki/メインページ） (ii) 検索エンジン google http://www.google.co.jp/ goo http://www.goo.ne.jp/ yahoo http://www.yahoo.co.jp/ • 用語の定義を調べる。用語欄に調べたい用語の後に“とは”を付けて検索する。 例「統計学とは」。「大学とは」。 • AND検索。

用語欄に「用語1 AND 用語2…」の形で“ AND ”を用語間に入れて検索する。“ AND ”は半角空白で

よい。ここで、記号を用いて半角空白を表しています。

例「彦根食べ放題」。「彦根」と「食べ放題」という用語を含むウェブページが抽出される。

• OR検索。

(17)

ジが抽出される。 • NOT検索。 −（マイナス記号）を用いて、除外したい用語のあるウェブページを抽出しない。 例「いとしのエリー ₋サザン」。「いとしのエリー」を含むが、「サザン」を含まないウェブページが抽出される。 • フレーズ検索（””を用いて検索する）。

例「“black and white”」と入力し、black and whiteというフレーズがこの順序で含まれるウェブページを抽出する。 • サイトを指定して検索する。 例「奨学金 site:www.shiga-u.ac.jp」。滋賀大学経済学部（http://www.shiga-u.ac.jp）のサイトから“奨学金” を含むページを抽出する。 • ファイルの拡張子を指定。 例「発表 filetype:ppt」。“発表”を含み、filetypeでアプリケーションの形式（拡張子）を指定し、文書をを

抽出する。PowerPointの拡張子（Webサイト：IT用語辞典http://e-words.jp/参照）がpptであるからこれを

付けて検索。

代表的な拡張子は以下のものである。

アプリケーション Word Excel PowerPoint Acrobat（Reader）

拡張子 doc xls ppt pdf (iii) Windowsを操作する際のキー割り当てコピー Ctrl +C 貼り付け Ctrl +V すべてを選択 Ctrl +A やり直し Ctrl +Z 上書き保存 Ctrl +S 名前を付けて保存 Ctrl +Shift+S 検索 Ctrl +F “Ctrl +”はCtrlキーを押しながら、を意味します。C、V、A、Z、S、F等は大文字、小文字関係なく利用できます。Windowsの一部のソフトでは、このキー割り当てを採用していないものがあります。

WebBrowser（InternetExplorer、FoxFireなど）ではCtrl+Lを用いるとURL入力が簡単になります。

情報管理学科で学ぶ