• 検索結果がありません。

農作業時間の最頻値としてのコア中央値の考案

N/A
N/A
Protected

Academic year: 2021

シェア "農作業時間の最頻値としてのコア中央値の考案"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

農作業研究(Japanese Journal of Farm Work Research)55(2):79∼86, 2020

農作業時間の最頻値としてのコア中央値の考案

平泉光一

新潟大学農学部

Contrivance of Core Median as Mode of Farm Work Time Koichi HIRAIZUMI

Faculty of Agriculture, Niigata University

 作業時間の代表値として平均値が用いられることが多い.しかしながら,異常値に近い時間値 が何個か含まれた場合,平均値が,本来の値より大きくなったり,小さくなったりするという問 題点が指摘されている.農作業では,生産過程が自然環境の影響から人為的に統制しがたい条件 に規定され,作業時間に異常値が出現しやすく,しかも片側に裾が厚い分布になりやすいとみな される.農業では,本来の時間値と呼べる典型値となる作業時間を把握することが望ましいケー スが少なくない.そこで,本稿では,農作業時間の代表値の一つとして最頻値を用いる選択肢を 考えた.とはいえ,既往の最頻値計算法には問題点も多い.通例,最頻値はヒストグラムを作成 したうえで最大度数の階級の階級値として求められる.しかし,通例の方法で求めた最頻値は, 階級幅を一定にしても「端点」の決め方次第で不定になって一意性が保証されないという問題点 が既存研究で指摘されている.ヒストグラムを使わない最頻値計算法として,ミーンシフト法や 近似 L0 ノルム推定法があるが,問題点もある.そこでコア中央値という最頻値の一種となる代 表値を新たに考案した.コア中央値は表計算ソフトウェアのワークシートを利用して計算ができ, その計算手順を示した.そのうえで,実際の農作業のデータを使ってその適用を試み,適用にあ たって考慮すべき条件について考察した. キーワード:最頻値,作業時間,コア中央値,農作業,表計算ソフトウェア

研究報文

2019年 9 月 30 日受付 2020年 4 月 6 日受理 Corresponding author 平泉光一 Koichi HIRAIZUMI 〒 950-2181 新潟県新潟市西区五十嵐 2 の町 8050 番地 8050, Ikarashi 2-no-cho, Niigata, 950-2181, Japan E-mail : [email protected]

1.緒言

作業時間の代表値を求める方法では,算術平均 法(平均値)がこれまで最も多く用いられてきた. 時間研究において,算術平均法を用いる場合,ど んな考慮をすべきかについて,実験を試みて,そ の適用条件を提案した成果もある(大杉 1993). しかし,算術平均法については,各要素作業の時 間値のバラツキを意識せずに,機械的に代表値を 決定しがちである.これから生ずる欠点は,異常 値に近い時間値が何個か含まれた場合,平均値が, 本来のものより大きくなったり,小さくなったり することであると問題点が指摘されている(永井 1980).とはいえ,「本来」の時間値を求めるため の算術平均法以外の代替的方法については,あま り研究が進んでいない. 「本来」の時間値を求めるうえで,ロバスト推定 量がまずは候補になりうる.ロバスト推定量につ いては,M推定量をはじめ,各種の推定量が知ら れている(Huber 2004).ロバスト推定量は,異常 値を除去するデータ処理を行わなくても異常値の 影響を排除した代表値になるので,作業時間の代 表値としては相応しくないことはない.ただ,ロバ スト推定量は代表値としての性格が明確ではない.

(2)

− 80 − 永井は,算術平均法以外に,最大頻度法,指定選 択法をあげており,指定選択法は,前記二者の欠 点を補い,代表値決定には,適した方法であると 述べている.指定選択法について,永井は,時間 研究においては,50%選択が通常であるとしてい るが,これは計算としては中央値に等しいことに なる.確かに中央値も「本来」の時間値に近いが, 典型性を考えると最頻値のほうが適当であろう. 最頻値は,異常値の影響を受けにくいだけでな く,以前から統計学において,「典型」値あるい は「正常」値(ジィジェーク 1926)として位置 づけられてきて,代表値としての性格が明確であ る.そもそも農作業では,自然環境の影響から人 為的に統制しがたい生産条件に規定され,作業時 間に異常値が出現しやすく,しかも片側に(特に, 作業時間が長くなるほうに)裾が厚い分布になり やすい.農作業時間の分布の特性を踏まえると, 農業では,平均値や中央値と共に,「本来」の時 間値と呼べる典型値となる作業時間を把握するこ とが望ましいケースが少なくない.そこで,本稿 では,農作業時間の代表値の一つとして最頻値を 用いる選択肢を考えた. だが,既往の最頻値計算法には問題点も多い. 最頻値は,通例,ヒストグラム(柱状グラフ,度 数分布図)を作成したうえで最大度数のビン(柱, 階級)の階級値として求められる.しかしなが ら,ヒストグラム作成においてヒストグラムを どこから描き始めるかという,「端点」(Anchor Position)を決める問題があって,ビン幅(階級幅) を一定にしても「端点」を動かすと最頻値の位置 が大きく変化するため,この問題は重要な問題で あるものの,未解決のままである(寒河江・山本 2010).ヒストグラムを任意に決める通常の方法 で求めた最頻値は,ビン幅を何らかの基準での一 定の最適幅を採用しても「端点」の決め方次第で まちまちになって一意性がない.実用上,最頻値 計算には一意性が求められるから,ヒストグラム を任意に決める通常の方法で求めた最頻値を用い るのは本来望ましくない. ヒストグラムを使わない代表的な最頻値計算法 の一つとして,ミーンシフト法(mean shift)が 知られており,背景音のスペクトログラム推定に 適用された例(田口・横田 2013)がある.しか しながら,ミーンシフト法に対しては,最頻値探 索問題の効率的でロバストな解法であるものの, データ解析結果がカーネル幅 h に大きく影響され ることや,大局的最大値は常に求まらない等の欠 点が指摘されている(岡田 2008).また,ヒスト グラムを使わない最頻値計算法として,次数が零 に近い正数のときの Lp ノルム推定という方法(こ こでは,近似 L0 ノルム推定法と呼ぶ)によって 最頻値を求めようとする試み(平泉 2019)もあ るが,対称分布に近い偶数標本で標本の中央部の 一対の観測値の中間に最頻値がこないなどの問題 点が指摘できる. そこで,本研究では,農作業時間の最頻値を計 算するために,実用性を考慮して特別なソフトウェ アを使わずに表計算ソフトウェアを利用すること を前提にして,ヒストグラムによらない一意性を もった新たな最頻値計算法を開発することを課題 とした.最頻値となる新たな代表値としてコア中 央値を考案し,その代表値を求めるための表計算 ソフトウェアによる計算手順を示したうえで,実 際の農作業のデータを使ってその適用を試みた.

2.方法

日本工業規格(JIS Z 8101-1)では,最頻値(モー ド)について「離散分布の場合は確率関数が,連 続分布の場合は密度関数が,最大となる確率変数 の値」という定義が採用されている(日本規格協 会 1999).本稿でも,原則的には,この定義に準 じる.さらに,日本工業規格では,「分布が多峰 性の場合は,それぞれの極大値を与える確率変数 の値」と規定されているが,本稿では,分布が多 峰性の場合は最大の極大値をもたらす確率変数の 値のみを最頻値として扱うことにする.ここでは, 確率変数は位置パラメータを指すものとする. ヒストグラムを使う通例の最頻値計算では,最 大度数のビンの階級値を最頻値とみなす.ヒスト グラムを使わない最頻値計算の場合でも,最大度 数のビンに相当するものとして,昇順に並べた標 本において一定個数の連続した観測値からなる最 も密集した群を考えたい.最も密集した群を構成 する観測値の個数として一律に標本サイズの一定 割合を占める昇順の連続した観測値の個数を考え ることもできるが,その方法では問題が起きる. 例えば,仮に一定割合を一律に 5 分の 1 とすれば, 標本サイズが 10 のとき最も密集した群に含まれ る観測値の個数は 2 となり,代表性を考えると群 に含まれる個数が少なすぎるし,また,標本サイ

(3)

平泉:農作業時間の最頻値としてのコア中央値の考案 ズが 1000 のとき最も密集した群に含まれる観測 値の個数は 200 となり,群に含まれる個数が多す ぎる.最も密集した群に含まれる観測値の個数の 標本サイズに対する適正な割合は標本サイズで変 わるはずである.そこで,最も密集した群に含ま れる観測値の個数を標本の一定割合の個数とする のではなくて,標本サイズに対する可変的で適正 な割合を計算して,最も密集した群に含まれる観 測値の個数を決めることにする.この可変的で適 正な割合をどう求めるかという問題は,最頻値計 算においては要点となる.その割合が過大となっ ても過小となっても,計算される最頻値は本来の 値からずれた値となる.そこで,本稿では,最適 ビン幅を決める既往の研究成果を利用してこの問 題に接近することにする. 最適ビン幅を決める既往の研究成果としては, Scottの選択(Scott1979)を取り上げたい.周知 のように Scott は,ヒストグラム作成において最 適ビン幅 b を次式のように考えた. b = 3.49n1/3σ (1) ここで,σは標本の標準偏差であり,n は標本 サイズである.正規分布を仮定したときの Scott の選択による最適ビン幅の区間に対応した中心部 分の比率(確率)を計算しておいて,その比率に 相当する標本のなかの一定個数(整数)の最も密 集した連続した昇順の観測値の群を最密集コア, または,たんにコアと呼ぶことにする.コアに 含まれる観測値の個数(要素数)を c とすれば, cは基準値 k をもとに導かれる整数である.基準 値 k は,正規分布において Scott の選択のビン幅 で最も確率が大きくなるときの中心部分の確率の 値(標本サイズに対する可変的で適正な割合)を 標本サイズに乗じた数値(非整数)とする.k は, 表計算ソフトウェアの Excel の関数を用いると次 式で示される. k =(NORMDIST(φ/2,0,1,TRUE)–0.5)*2*n (2) ここで,φは Scott の選択の最適ビン幅の式に 含まれる標準偏差σにかかる係数である 3.49/n^ (1/3)を意味しており,NORMDIST(φ/2,0,1,TRUE) は N(0,1)の規準型正規分布における確率変数が 負の無限大からφ/2までの確率の値を表し,n は 標本サイズである.(NORMDIST(φ/2,0,1,TRUE– 0.5)*2 は規準型正規分布における確率変数が –φ/2からφ/2までの区間の確率の値に等しい.c は,奇数標本では k 以上の最小の奇数の整数とし, 偶数標本では k 以上の最小の偶数の整数とする. 標本サイズが奇数か偶数かで分ける理由は,奇数 と偶数を別にしないでたんに k 以上の最小の整数 にすると,奇数標本で c が偶数になったり,偶数 標本で c が奇数になったりすることが起こり,近 似 L0 ノルム推定法でみられるような対称分布に 近い分布で位置パラメータが中心にこない不都合 が生じるからである.k は標本サイズ n のみによっ て決定され,それゆえに,c も標本サイズのみで 一意的に決まる.標本サイズに応じた c の個数を 表 1 に示す.表 1 から分かるように,標本サイズ が 5 以下の場合は,c の個数は標本サイズと等し くなってコアは標本それ自体となっている. 標本から抽出される c の個数で昇順に並べた連 続した観測値の複数の群はコアの候補であり,そ れらの群は(n–c+1)個ある.候補のなかで連 続した観測値の群の幅が最小になる場合,つまり 観測値の群の密集性が最も大きい場合の観測値の 27 5 B ) 通 し 表 1 標本サイズに対応したコアの要素数

(4)

− 82 − 群の中央値が求める位置パラメータであり,これ をコア中央値と呼ぶことにする.観測値の群の幅 が最小になるコアの選択は Excel の MIN 関数を 用いる.MIN 関数を用いるとミーンシフト法と は違って大域的最適解が得られる.コアの代表値 としては中央値以外に平均値や中間値も候補とし て相応しくない訳ではないが,ここでは,2 つの 理由で中央値を選んだ.第一の理由は,コアを構 成する観測値の群が対称分布になる保証がないの で,コアの代表値として平均値や中間値ではなく 中央値を選択したほうが望ましいと考えられるか らである.第二の理由は,コアが標本の最大値か 最小値かのどちらかを含む場合において,コアの 平均値や中間値と違ってコアの中央値であれば両 端の観測値の大きさに影響をうけないからであ る.なお,候補となる複数の群の最小幅が等しく なってコアが複数ある場合は,複数のコア中央値 の中央値をとることにする. 厳密ではないが,奇数標本のコア中央値は観測 値同士が最も密集した位置にある 1 つの観測値と なる.偶数標本のコア中央値は観測値同士が最も 密集した位置にある 2 つの連続した観測値の中間 値となる. ただし,c の決定にあたって正規分布を仮定し ているので,一様分布に近い分布など正規分布か ら著しく外れた分布ではコア中央値の計算は可能 であっても不適である.不適になるか否かの判断 の 1 つの基準は次に定義する密集比λの値による. λ= c/nw/r (3) ここで,w はコアとなる観測値の群の幅であり, rは標本の範囲である.λは 1 以上になるが,一 様分布に近いとλは 1 に接近するので,少なくと もλが 1 に非常に近くないことがコア中央値の 計算が不適とならない最低限の条件である.λが 1に近すぎると明らかに不適であるが,1 から離 れていても分布の形状が単峰分布にならないケー スもありうるので,不適かどうかは分布について の総合的な判断が求められる. なお,Excel の最頻値の関数である MODE 関 数との差異についても言及しておく.MODE 関 数は重複したセルの値のうちで最も重複数が多い セルの値を返すようになっていて,データの重複 がない場合には最頻値は計算されない.本稿にお けるコア中央値はデータの重複がない場合でも計 算可能な最頻値であり,データの重複を前提とし た Excel の MODE 関数による最頻値とは異なる. ちなみに,永井がいう「最大頻度法」による代表 値は,Excel の MODE 関数の出力結果と一致する.

3.結果

1)表計算ソフトウェアを用いたコア中央値の計 算手順 表計算ソフトウェアの Excel のワークシートを 用いたコア中央値の計算手順を示す. 計算手順を示すためのデータは仮想のものであ り,それを昇順に整理したものが,図における B2から B19 の 18 個のセルである.各観測値に 重複は無い. コアに含まれる観測値の個数は,表 1 より標本 サイズが 18 の場合は 10 となる.10 個の連続した 観測値からなる群は,B2 から B11 に始まって B10 から B19 まで 全 部で 9 個ある(n–c+1=18–10 +1=9).9 個の群のそれぞれの幅(群の最大値– 群の最小値)は,図の C2 から C10 に示されてい る.C2 のセルの式は(B11–B2)であり,C10 の セルの式は(B19–B10)である.観測値の群の幅 の最小値は C13 に示されており,C13 のセルの式 は MIN(C2:C10)で あ る.C13 の 値 は 6.5 で あ る.D2 から D10 のセルでは,もし C2 から C10 の各セルの値が最小値である C13 と一致した場 31 図 コ ア 中 央 値 の 計 算 手 順 ・ 図 は 写 真 ( 画 像 ) 扱 い で お 願 い し ま す 5 図 コア中央値の計算手順

(5)

平泉:農作業時間の最頻値としてのコア中央値の考案 生産労働の 10 a 当たり作業種類別合計時間であ る.作業の種類は 11 あって,標本のサイズはい ずれも 18 である.有機栽培のデータは,JAS 法 に基づく有機 JAS 生産行程管理者の認定を受けた 者であって,有機 JAS 格付主位部門が水稲である 農家 71 戸を対象として,全国を 9 つの地域(北 海道,東北,北陸,関東東山,東海,近畿,中国, 四国,九州)に分けて集計されている.無農薬・ 無化学肥料栽培のデータは,2000 年世界農業セ ンサスにおいて,環境保全型農業に取組んでいる 販売農家であって環境保全型農業を行った作物の うち稲の販売金額が最も多い農家のうち,無農薬・ 無化学肥料栽培による作付面積面積が最も大きい 農家 73 戸を対象として全国を同様に 9 つの地域 に分けて集計されている.両者を合わせたのは, 有機 JAS 生産行程管理者の認定の有無に差異があ るものの,栽培技術的には両者はほぼ同等と判断 されるからである.いわば実質的な有機栽培の稲 作における単位面積当たりの作業種類別労働時間 のデータである.なお,このデータは小数点以下 2桁まで表示されている. 表 2 に作業種類別の労働時間の分布の特徴(平 均値,中央値,トリム平均,最小値,最大値,範 囲,歪度,外れ値の有無)を示した.概ね範囲が 広くばらつきが大きいことと,殆どの作業種類で 歪度が正の値をとっていて,より作業時間が大き いほうに裾が厚くなっていることがわかる.歪度 の例外は屋内の機械作業を主とする「乾燥」であっ て,歪度が負の値でその絶対値が一番小さく,ほ ぼ対称分布とみなせる.トリム平均(この場合は 最大値と最小値を除いた平均値)をみると,平均 合は観測値の群の中央値を表示させ,そうでな い場合は "–" を表示させている.D2 のセルの式 は IF(C2=C$13, MEDIAN(B2:B11),"–") で あ り,D10 の セ ル の 式 は IF(C10=C$13, MEDIAN (B10:B19),"–")である.コア中央値は B8 から B17の観測値の群における中央値であり,D8 のセ ルに表示されている.コア中央値は 23.2 であった. Excelの関数を用いてこの標本の平均値を計 算すると,21.406 になり,中央値を計算すると, 22.25になった.中央値は平均値より大きく,コ ア中央値は中央値よりも大きくなる結果となっ た.なお,データの最小値をより小さくしても, また,最大値をより大きくしてもコア中央値の値 は変わらない. 密集比については, λ=(10/18)/(6.5/25.6)=2.188 となる.また,図のデータは単峰分布であり, この場合のコア中央値の計算は不適でない. なお,Excel の最頻値の関数である MODE 関 数で B2 から B19 について MODE(B2:B19)の 数値を求めようとすると,"# N/A" が表示され て計算結果は出力されなかった. 2)実際のデータに対するコア中央値計算の適用例 計算手順を示すだけであればデータは仮想でも よいが,農作業時間のコア中央値の計算の適用例 を示すために実際のデータを用いることにする. データは,農林水産省統計部が 2004 年に刊行し た『環境保全型農業(稲作)推進農家の経営分析 調査報告』における稲作の有機栽培および無農薬・ 無化学肥料栽培を対象とした地域別の 2002 年の

5

1 0

1 5

B ) 通 し

表 2 作業種類別労働時間の分布の特徴

(6)

− 84 − 値からやや外れた値もあるが,トリム平均はすべ て平均値と中央値の間にあった.今回のデータで はスミルノフ・グラブス検定によって 5%水準で 最大値に外れ値が見られたのは 4 例であった.外 れ値をもつ例は過半数に及ばなかったが,これは, データのとり方として 1 地域につき数戸のデータ が含まれており,地域内で平均値を算出している ために個別の農家の異常値が表れにくくなってい るからだとみなせる.なお,原データを概観する と,U 字分布や一様分布のような単峰分布から大 きく外れたケースは観察されなかった. 表 3 にコア中央値の計算結果を示した.コア中 央値は,10 a 当たりで,種子予措・育苗で 2.78 時間, 耕起整地で 3.14 時間,基肥で 1.53 時間,田植え・ 直まきで 2.46 時間,追肥で 0.40 時間,除草で 7.12 時間,管理で 5.02 時間,防除で 0.26 時間,刈取・ 脱穀で 4.14 時間,乾燥で 1.78 時間,生産管理で 0.83時間であった.平均値に対するコア中央値の 比は,最大で 1.184 であり,最小で 0.572,平均 で 0.784 であった.中央値に対するコア中央値の 比は,最大で 1.165 であり,最小で 0.616,平均 で 0.847 であった.基肥と追肥ではコア中央値は 中央値と一致していたが,平均値および中央値に 対してコア中央値が大きく異なる例もあることが わかる.トリム平均に対するコア中央値の比は, 最大で 1.205 であり,最小で 0.583,平均で 0.806 であった.なお.10 a 当たりの各作業の平均値の 合計である 39.58 時間よりも,中央値の合計であ る 35.97 時間は小さく,コア中央値の合計である 29.44時間はさらに小さくなった. 表 4 に密集比λの値を示した.種子予措・育苗, 田植え・直まきおよび追肥においてλは 2.0 を超 えていた.耕起整地,防除および生産管理では 1.5 を下回っていて密集性があまり高くないが,1.0 に非常に近い例はなかった.密集比の値と併せて, U字型分布等の単峰分布でない分布がないことも 踏まえて判断すると,最頻値計算が不適となる例 はないと考えられる.

4.考察

1)最頻値としてのコア中央値の特徴 本稿では,片側に裾の長い分布の典型値を反映 しうる代表値として,新規に,ヒストグラムによ らない一意的な最頻値の一種であるコア中央値を 考案した.コア中央値の計算手順はそれほど複雑 なものではなく,実際の農作業時間データにコア 中央値計算を適用すると,多くの場合,平均値や 中央値とは明らかに異なる相対的に小さな時間値 として把握された.コア中央値は,屋外での農作 表 3  作業種類別労働時間のコア中央値と他の代表値との比較 29 5 1 0 1 5 B ) 1 段 表 4  作業種類別労働時間の密集比 30 5 1 0 1 5 A ) 一 段

(7)

平泉:農作業時間の最頻値としてのコア中央値の考案 分布を仮定する以外にコアに含まれる観測値の個 数を標本サイズだけから導くのは困難である.正 規分布から極端に異なる分布では計算の信頼性が 不確定になる恐れがあるとしても,正規分布以外 の分布も含めてコアに含まれる観測値の個数の計 算基準を一律にすることで,ケースバイケースで なく統一的に最頻値が計算できるメリットは小さ くないといえよう.とはいえ,コア中央値が信頼 性をもつ分布は正規分布からの差異が極端に大き くない分布に限定されるはずである.特に問題と なるのは,正規分布からの歪度のずれよりも尖度 のずれであり,具体的には観測値が相互に密集し ていなくて尖度が著しく低く一様分布に近い分布 のケースである.このケースでは.コアの候補の 群の間でごく僅かな幅の差しかなくてもコア中央 値は計算できてしまう.すなわち,データにほと んど密集性がなくてもコア中央値は計算可能であ る.このような不都合を避けるために密集比の確 認が必要であり,密集比が非常に 1 に近い標本の コア中央値を採用しないようにする必要がある. コア中央値の計算が明らかに不適となる密集比の 水準は,様々な仮想データで試行錯誤を重ねた限 りでは,実用上,暫定的には概ね 1.1 未満であろ う. 3)コア中央値の利点 ともあれ,コア中央値の適用で,片側に裾の厚 い分布であっても典型値となる最頻値が再現性と 一意性を有する形で実用的に計算可能となる.コ ア中央値の算出は,ヒストグラムによらない既往 の最頻値計算法であるミーンシフト法や近似 L0 ノルム推定法の弱点をカバーした最頻値計算法の 採用であるといえる. 実用上の応用としては,特に,統計学的データ 処理をベースに標準時間を設定する場合におい て,平均値や中央値よりも最頻値が向いており, コア中央値はそういう標準時間の設定に役立つと 考えられる.また,コア中央値は,作業時間以外 の一般の最頻値計算にも適用可能であり,あらゆ るデータに適用可能ではないが,汎用性が見込め る.ただし,コア中央値のみを単独で算出して利 用するのではなく,平均値や中央値も算出してお いて,それらの代表値との異同に留意しつつコア 中央値を併用するような使い方が望ましいと考え られる. 業のような統制されていない環境で平均値や中央 値等の中心的傾向よりも大きな値が頻発しやすい 作業に対して典型的な時間値を営農現場や圃場試 験で得られる経験的データから割り出すには向い ていると考えられる. コア中央値は,ヒストグラムによる最頻値計算 と違って,端点を決める必要がない.ヒストグラ ムによる最頻値計算では任意に端点が選ばれるの で計算結果に再現性が乏しいが,コア中央値は, 誰が計算しても同一の計算結果が得られる.また, Excel等の表計算ソフトウェアの MIN 関数を用 いてコアを選択するので,最頻値となる位置パラ メータは局所最適に陥らない.さらに,コア中央 値は,表計算ソフトウェアを利用して計算できる ので,特別なソフトウェアを用意する必要がない. コア中央値は最頻値の一種であって,片側に裾 の厚い歪んだ分布の最も密集した中心部分を代表 する位置パラメータである.平均値や中央値とい う代表値も通例は典型値であるが,適用例の供試 データのように歪度がある程度大きい場合には, 既往の平均値や中央値とは別の典型的な値として 利用できると考えられる.併せて,最も密集した 中心部分のみを取り出しているので,外延部の異 常値(外れ値)の影響を受けない.適用例では異 常値の影響が大きい例は多くなかったが,コア中 央値は,その計算手続きから頑健な統計量の一種 としても位置付けられよう.頑健な統計量の一種 としてしばしば用いられるトリム平均は,異常値 の影響を除外できるが,適用例でも分かる通り, 歪んだ分布の最も密集した中心部分を代表するよ うな統計量ではない. 2)コア中央値の計算上の留意点 しかしながら,コアに含まれる観測値の個数の 決定にあたって正規分布の仮定が置かれているこ とから生じる留意点がある.最頻値を計算したい 標本が正規分布から異なるほど,コアに含まれる 観測値の個数の根拠は弱くなる.ところが,代表 値として平均値でなく最頻値を選択するほうが望 ましい標本の分布は歪度が正規分布とは異なる. そのことは問題ではあるが,歪みがあっても観測 値が相互に密集している部分があれば,最頻値計 算にあたって正規分布と同等の中心部の密集性を もつという仮定を与えたとしても,計算結果はそ れなりに妥当性をもつであろう.そもそも,正規

(8)

− 86 − 4)残された課題 残された課題として二点を指摘しておきたい. コア中央値の計算が不適とならない密集比の水準 が,本来はどの程度が限界であるかを本稿では明 確に示せなかった.今後,不適となる密集比の根 拠ある明確な水準を提示する必要があろう.また, 標本サイズが概ね 10 未満の極小標本では,c が n と等しくなって通常の中央値とは別の値でコア中 央値が計算できないか,できてもコアの候補が少 なくて限られたわずかな選択肢からコアを選ぶこ とになって最頻値の計算精度に疑問符がつくとい う問題がある.例えば,営農現場で過去 5 年の時 間データから標準値の参考値となる最頻値を求め ざるをえないケース等に対応できるようにするた めに,極小標本での信頼できる妥当な最頻値計算 法を工夫することも今後求められよう.

引用文献

平泉光一(2019):Lp ノルム推定による農業生産 指標の最頻値計算法, 農作業研究, 54(1); 25-32.

Huber P J(2004):Robust Statistics, John Wiley & Sons, Hoboken, pp.1-308. ジィジェーク F(1926):統計的中数値論, 岡崎文 規訳, 有斐閣, 東京, pp.1-501. 永井 明(1980):ストップウオッチによる時間 研究, 日本能率協会編, 作業測定の技術, 日本 能率協会, 東京, pp.117-144. 日本規格協会(1999):JIS Z 8101-1:1999(統計−用 語と記号−, 第 1 部:確率及び一般統計用語), http://kikakurui.com/z8/Z8101-1-1999-01.html (2019 年 9 月 30 日閲覧). 農林水産省統計部(2004):環境保全型農業(稲作) 推進農家の経営分析調査報告, 農林統計協会, 東京, pp.1-88. 岡田和典(2008):ミーンシフトの原理と応用, 電 子情報通信学会技術研究報告(IE, 画像工学), 107(538);401-414. 大杉直幹(1993):時間研究における代表値に関 する一考察, 愛知工業大学研究報告(B, 専門 関係論文集), 28;39-42. 寒河江雅彦・山本敏寛(2010):ヒストグラムに おけるAnchor Position の選択法, 金沢大学経 済論集, 30(2);267-288.

Scott D W(1979);On optimal and data-based

histograms, Biometrika, 66(3);605-610. 田口智一・横田康成(2013):ガウス性を仮定し た可変窓幅平均変位学習による最頻値推定 法と背景音スペクトログラム, 電子情報通信 学会技術研究報告(NC, ニューロコンピュー ティング), 113(374);11-16.

Abstract

Average is often used as a representative value of work time. However, when some time values close to the abnormal value are included, the average value becomes larger or smaller than the original value. In farm work, the production process depends on conditions that are difficult to control artificially due to the influence of the natural environment. As a result, abnormal values are likely to appear in the working time, and the distribution tends to be thick on one side. In agriculture, there are several cases where it is desirable to grasp the working time, which is a typical value that can be called the original time value. Therefore, in this study, we selected a kind of mode value as a representative value of farm work time. There are many problems with the existing mode calculation methods. Usually, the mode value is obtained as a class value of the maximum frequency class after making a histogram. However, the mode value thus obtained becomes indefinite depending on how the “anchor position” is determined, even if the class width is fixed; therefore, uniqueness is not guaranteed, making it undesirable. The mean shift method and the approximate L0 norm estimation method are methods that do not use a histogram, although they also have problems. Therefore, we devised a new representative value that is a kind of mode value called the core median. The core median can be calculated using the calculation procedure at spreadsheet software worksheet in this study. In addition, we applied the method on actual farming data for its validation, and we discuss the conditions that should be taken into account while using the method.

Key Words

core median, farm work, mode, spreadsheet software, work time

参照

関連したドキュメント

Several equivalent conditions are given showing their particular role influence on the connection between the sub-Gaussian estimates, parabolic and elliptic Harnack

In this, the first ever in-depth study of the econometric practice of nonaca- demic economists, I analyse the way economists in business and government currently approach

The main purpose of this paper is to extend the characterizations of the second eigenvalue to the case treated in [29] by an abstract approach, based on techniques of metric

In this paper, we study the generalized Keldys- Fichera boundary value problem which is a kind of new boundary conditions for a class of higher-order equations with

Keywords: continuous time random walk, Brownian motion, collision time, skew Young tableaux, tandem queue.. AMS 2000 Subject Classification: Primary:

Then it follows immediately from a suitable version of “Hensel’s Lemma” [cf., e.g., the argument of [4], Lemma 2.1] that S may be obtained, as the notation suggests, as the m A

By virtue of the Avery-Henderson fixed point theorem and the five functionals fixed point theorem, we analytically establish several sufficient criteria for the existence of at least

Key words and phrases: Monotonicity, Strong inequalities, Extended mean values, Gini’s mean, Seiffert’s mean, Relative metrics.. 2000 Mathematics