農作業時間の最頻値としてのコア中央値の考案

(1)

農作業研究（Japanese Journal of Farm Work Research）55（2）：79∼86, 2020

農作業時間の最頻値としてのコア中央値の考案

平泉光一

新潟大学農学部

Contrivance of Core Median as Mode of Farm Work Time Koichi HIRAIZUMI

Faculty of Agriculture, Niigata University

作業時間の代表値として平均値が用いられることが多い．しかしながら，異常値に近い時間値が何個か含まれた場合，平均値が，本来の値より大きくなったり，小さくなったりするという問題点が指摘されている．農作業では，生産過程が自然環境の影響から人為的に統制しがたい条件に規定され，作業時間に異常値が出現しやすく，しかも片側に裾が厚い分布になりやすいとみなされる．農業では，本来の時間値と呼べる典型値となる作業時間を把握することが望ましいケースが少なくない．そこで，本稿では，農作業時間の代表値の一つとして最頻値を用いる選択肢を考えた．とはいえ，既往の最頻値計算法には問題点も多い．通例，最頻値はヒストグラムを作成したうえで最大度数の階級の階級値として求められる．しかし，通例の方法で求めた最頻値は，階級幅を一定にしても「端点」の決め方次第で不定になって一意性が保証されないという問題点が既存研究で指摘されている．ヒストグラムを使わない最頻値計算法として，ミーンシフト法や近似 L0 ノルム推定法があるが，問題点もある．そこでコア中央値という最頻値の一種となる代表値を新たに考案した．コア中央値は表計算ソフトウェアのワークシートを利用して計算ができ，その計算手順を示した．そのうえで，実際の農作業のデータを使ってその適用を試み，適用にあたって考慮すべき条件について考察した．キーワード：最頻値，作業時間，コア中央値，農作業，表計算ソフトウェア

研究報文

2019年 9 月 30 日受付 2020年 4 月 6 日受理 Corresponding author 平泉光一 Koichi HIRAIZUMI 〒 950-2181 新潟県新潟市西区五十嵐 2 の町 8050 番地 8050, Ikarashi 2-no-cho, Niigata, 950-2181, Japan E-mail : [email protected]

1．緒言

作業時間の代表値を求める方法では，算術平均法（平均値）がこれまで最も多く用いられてきた．時間研究において，算術平均法を用いる場合，どんな考慮をすべきかについて，実験を試みて，その適用条件を提案した成果もある（大杉 1993）．しかし，算術平均法については，各要素作業の時間値のバラツキを意識せずに，機械的に代表値を決定しがちである．これから生ずる欠点は，異常値に近い時間値が何個か含まれた場合，平均値が，本来のものより大きくなったり，小さくなったりすることであると問題点が指摘されている（永井 1980）．とはいえ，「本来」の時間値を求めるための算術平均法以外の代替的方法については，あまり研究が進んでいない．「本来」の時間値を求めるうえで，ロバスト推定量がまずは候補になりうる．ロバスト推定量については，Ｍ推定量をはじめ，各種の推定量が知られている（Huber 2004）．ロバスト推定量は，異常値を除去するデータ処理を行わなくても異常値の影響を排除した代表値になるので，作業時間の代表値としては相応しくないことはない．ただ，ロバスト推定量は代表値としての性格が明確ではない．

(2)

− 80 − 永井は，算術平均法以外に，最大頻度法，指定選択法をあげており，指定選択法は，前記二者の欠点を補い，代表値決定には，適した方法であると述べている．指定選択法について，永井は，時間研究においては，50％選択が通常であるとしているが，これは計算としては中央値に等しいことになる．確かに中央値も「本来」の時間値に近いが，典型性を考えると最頻値のほうが適当であろう．最頻値は，異常値の影響を受けにくいだけでなく，以前から統計学において，「典型」値あるいは「正常」値（ジィジェーク 1926）として位置づけられてきて，代表値としての性格が明確である．そもそも農作業では，自然環境の影響から人為的に統制しがたい生産条件に規定され，作業時間に異常値が出現しやすく，しかも片側に（特に，作業時間が長くなるほうに）裾が厚い分布になりやすい．農作業時間の分布の特性を踏まえると，農業では，平均値や中央値と共に，「本来」の時間値と呼べる典型値となる作業時間を把握することが望ましいケースが少なくない．そこで，本稿では，農作業時間の代表値の一つとして最頻値を用いる選択肢を考えた．だが，既往の最頻値計算法には問題点も多い．最頻値は，通例，ヒストグラム（柱状グラフ，度数分布図）を作成したうえで最大度数のビン（柱，階級）の階級値として求められる．しかしながら，ヒストグラム作成においてヒストグラムをどこから描き始めるかという，「端点」（Anchor Position）を決める問題があって，ビン幅（階級幅）を一定にしても「端点」を動かすと最頻値の位置が大きく変化するため，この問題は重要な問題であるものの，未解決のままである（寒河江・山本 2010）．ヒストグラムを任意に決める通常の方法で求めた最頻値は，ビン幅を何らかの基準での一定の最適幅を採用しても「端点」の決め方次第でまちまちになって一意性がない．実用上，最頻値計算には一意性が求められるから，ヒストグラムを任意に決める通常の方法で求めた最頻値を用いるのは本来望ましくない．ヒストグラムを使わない代表的な最頻値計算法の一つとして，ミーンシフト法（mean shift）が知られており，背景音のスペクトログラム推定に適用された例（田口・横田 2013）がある．しかしながら，ミーンシフト法に対しては，最頻値探索問題の効率的でロバストな解法であるものの， データ解析結果がカーネル幅 h に大きく影響され ることや，大局的最大値は常に求まらない等の欠点が指摘されている（岡田 2008）．また，ヒストグラムを使わない最頻値計算法として，次数が零に近い正数のときの Lp ノルム推定という方法（ここでは，近似 L0 ノルム推定法と呼ぶ）によって最頻値を求めようとする試み（平泉 2019）もあるが，対称分布に近い偶数標本で標本の中央部の一対の観測値の中間に最頻値がこないなどの問題点が指摘できる．そこで，本研究では，農作業時間の最頻値を計算するために，実用性を考慮して特別なソフトウェアを使わずに表計算ソフトウェアを利用することを前提にして，ヒストグラムによらない一意性をもった新たな最頻値計算法を開発することを課題とした．最頻値となる新たな代表値としてコア中央値を考案し，その代表値を求めるための表計算ソフトウェアによる計算手順を示したうえで，実際の農作業のデータを使ってその適用を試みた．

2．方法

日本工業規格（JIS Z 8101-1）では，最頻値（モード）について「離散分布の場合は確率関数が，連続分布の場合は密度関数が，最大となる確率変数の値」という定義が採用されている（日本規格協会 1999）．本稿でも，原則的には，この定義に準じる．さらに，日本工業規格では，「分布が多峰性の場合は，それぞれの極大値を与える確率変数の値」と規定されているが，本稿では，分布が多峰性の場合は最大の極大値をもたらす確率変数の値のみを最頻値として扱うことにする．ここでは，確率変数は位置パラメータを指すものとする．ヒストグラムを使う通例の最頻値計算では，最大度数のビンの階級値を最頻値とみなす．ヒストグラムを使わない最頻値計算の場合でも，最大度数のビンに相当するものとして，昇順に並べた標本において一定個数の連続した観測値からなる最も密集した群を考えたい．最も密集した群を構成する観測値の個数として一律に標本サイズの一定割合を占める昇順の連続した観測値の個数を考えることもできるが，その方法では問題が起きる．例えば，仮に一定割合を一律に 5 分の 1 とすれば，標本サイズが 10 のとき最も密集した群に含まれる観測値の個数は 2 となり，代表性を考えると群に含まれる個数が少なすぎるし，また，標本サイ

(3)

平泉：農作業時間の最頻値としてのコア中央値の考案ズが 1000 のとき最も密集した群に含まれる観測値の個数は 200 となり，群に含まれる個数が多すぎる．最も密集した群に含まれる観測値の個数の標本サイズに対する適正な割合は標本サイズで変わるはずである．そこで，最も密集した群に含まれる観測値の個数を標本の一定割合の個数とするのではなくて，標本サイズに対する可変的で適正な割合を計算して，最も密集した群に含まれる観測値の個数を決めることにする．この可変的で適正な割合をどう求めるかという問題は，最頻値計算においては要点となる．その割合が過大となっても過小となっても，計算される最頻値は本来の値からずれた値となる．そこで，本稿では，最適ビン幅を決める既往の研究成果を利用してこの問題に接近することにする．最適ビン幅を決める既往の研究成果としては， Scottの選択（Scott1979）を取り上げたい．周知のように Scott は，ヒストグラム作成において最 適ビン幅 b を次式のように考えた． b = 3.49_n1/3σ （1）ここで，σは標本の標準偏差であり，n は標本 サイズである．正規分布を仮定したときの Scott の選択による最適ビン幅の区間に対応した中心部分の比率（確率）を計算しておいて，その比率に相当する標本のなかの一定個数（整数）の最も密集した連続した昇順の観測値の群を最密集コア，または，たんにコアと呼ぶことにする．コアに 含まれる観測値の個数（要素数）を c とすれば， cは基準値 k をもとに導かれる整数である．基準 値 k は，正規分布において Scott の選択のビン幅 で最も確率が大きくなるときの中心部分の確率の値（標本サイズに対する可変的で適正な割合）を 標本サイズに乗じた数値（非整数）とする．k は， 表計算ソフトウェアの Excel の関数を用いると次式で示される． k =（NORMDIST（φ/2,0,1,TRUE）–0.5）*2*n （2） ここで，φは Scott の選択の最適ビン幅の式に含まれる標準偏差σにかかる係数である 3.49/n^ （1/3）を意味しており，NORMDIST（φ/2,0,1,TRUE）は N（0,1）の規準型正規分布における確率変数が負の無限大からφ/2までの確率の値を表し，n は標本サイズである．（NORMDIST（φ/2,0,1,TRUE） – 0.5）*2 は規準型正規分布における確率変数が –φ/2からφ/2までの区間の確率の値に等しい．c は，奇数標本では k 以上の最小の奇数の整数とし， 偶数標本では k 以上の最小の偶数の整数とする． 標本サイズが奇数か偶数かで分ける理由は，奇数 と偶数を別にしないでたんに k 以上の最小の整数 にすると，奇数標本で c が偶数になったり，偶数 標本で c が奇数になったりすることが起こり，近 似 L0 ノルム推定法でみられるような対称分布に近い分布で位置パラメータが中心にこない不都合 が生じるからである．k は標本サイズ n のみによっ て決定され，それゆえに，c も標本サイズのみで 一意的に決まる．標本サイズに応じた c の個数を 表 1 に示す．表 1 から分かるように，標本サイズ が 5 以下の場合は，c の個数は標本サイズと等し くなってコアは標本それ自体となっている． 標本から抽出される c の個数で昇順に並べた連 続した観測値の複数の群はコアの候補であり，そ れらの群は（n–c＋1）個ある．候補のなかで連 続した観測値の群の幅が最小になる場合，つまり観測値の群の密集性が最も大きい場合の観測値の 27 5 B ）通し表 1 標本サイズに対応したコアの要素数

(4)

− 82 − 群の中央値が求める位置パラメータであり，これをコア中央値と呼ぶことにする．観測値の群の幅が最小になるコアの選択は Excel の MIN 関数を用いる．MIN 関数を用いるとミーンシフト法とは違って大域的最適解が得られる．コアの代表値としては中央値以外に平均値や中間値も候補として相応しくない訳ではないが，ここでは，2 つの理由で中央値を選んだ．第一の理由は，コアを構成する観測値の群が対称分布になる保証がないので，コアの代表値として平均値や中間値ではなく中央値を選択したほうが望ましいと考えられるからである．第二の理由は，コアが標本の最大値か最小値かのどちらかを含む場合において，コアの平均値や中間値と違ってコアの中央値であれば両端の観測値の大きさに影響をうけないからである．なお，候補となる複数の群の最小幅が等しくなってコアが複数ある場合は，複数のコア中央値の中央値をとることにする．厳密ではないが，奇数標本のコア中央値は観測値同士が最も密集した位置にある 1 つの観測値となる．偶数標本のコア中央値は観測値同士が最も密集した位置にある 2 つの連続した観測値の中間値となる． ただし，c の決定にあたって正規分布を仮定し ているので，一様分布に近い分布など正規分布から著しく外れた分布ではコア中央値の計算は可能であっても不適である．不適になるか否かの判断の 1 つの基準は次に定義する密集比λの値による． λ= c/n_w/r _（3） ここで，w はコアとなる観測値の群の幅であり， rは標本の範囲である．λは 1 以上になるが，一様分布に近いとλは 1 に接近するので，少なくともλが 1 に非常に近くないことがコア中央値の計算が不適とならない最低限の条件である．λが 1に近すぎると明らかに不適であるが，1 から離れていても分布の形状が単峰分布にならないケースもありうるので，不適かどうかは分布についての総合的な判断が求められる．なお，Excel の最頻値の関数である MODE 関数との差異についても言及しておく．MODE 関数は重複したセルの値のうちで最も重複数が多いセルの値を返すようになっていて，データの重複がない場合には最頻値は計算されない．本稿におけるコア中央値はデータの重複がない場合でも計算可能な最頻値であり，データの重複を前提とした Excel の MODE 関数による最頻値とは異なる．ちなみに，永井がいう「最大頻度法」による代表値は，Excel の MODE 関数の出力結果と一致する．

3．結果

1）表計算ソフトウェアを用いたコア中央値の計算手順表計算ソフトウェアの Excel のワークシートを用いたコア中央値の計算手順を示す．計算手順を示すためのデータは仮想のものであり，それを昇順に整理したものが，図における B2から B19 の 18 個のセルである．各観測値に重複は無い．コアに含まれる観測値の個数は，表 1 より標本サイズが 18 の場合は 10 となる．10 個の連続した観測値からなる群は，B2 から B11 に始まって B10 から B19 まで全部で 9 個ある（n–c＋1=18–10 ＋1=9）．9 個の群のそれぞれの幅（群の最大値– 群の最小値）は，図の C2 から C10 に示されてい る．C2 のセルの式は（B11–B2）であり，C10 の セルの式は（B19–B10）である．観測値の群の幅 の最小値は C13 に示されており，C13 のセルの式 は MIN（C2:C10）である．C13 の値は 6.5 であ る．D2 から D10 のセルでは，もし C2 から C10 の各セルの値が最小値である C13 と一致した場 31 図コア中央値の計算手順・図は写真（画像）扱いでお願いします 5 図コア中央値の計算手順

(5)

平泉：農作業時間の最頻値としてのコア中央値の考案生産労働の 10 a 当たり作業種類別合計時間である．作業の種類は 11 あって，標本のサイズはいずれも 18 である．有機栽培のデータは，JAS 法に基づく有機 JAS 生産行程管理者の認定を受けた者であって，有機 JAS 格付主位部門が水稲である農家 71 戸を対象として，全国を 9 つの地域（北海道，東北，北陸，関東東山，東海，近畿，中国，四国，九州）に分けて集計されている．無農薬・無化学肥料栽培のデータは，2000 年世界農業センサスにおいて，環境保全型農業に取組んでいる販売農家であって環境保全型農業を行った作物のうち稲の販売金額が最も多い農家のうち，無農薬・無化学肥料栽培による作付面積面積が最も大きい農家 73 戸を対象として全国を同様に 9 つの地域に分けて集計されている．両者を合わせたのは，有機 JAS 生産行程管理者の認定の有無に差異があるものの，栽培技術的には両者はほぼ同等と判断されるからである．いわば実質的な有機栽培の稲作における単位面積当たりの作業種類別労働時間のデータである．なお，このデータは小数点以下 2桁まで表示されている．表 2 に作業種類別の労働時間の分布の特徴（平均値，中央値，トリム平均，最小値，最大値，範囲，歪度，外れ値の有無）を示した．概ね範囲が広くばらつきが大きいことと，殆どの作業種類で歪度が正の値をとっていて，より作業時間が大きいほうに裾が厚くなっていることがわかる．歪度の例外は屋内の機械作業を主とする「乾燥」であって，歪度が負の値でその絶対値が一番小さく，ほぼ対称分布とみなせる．トリム平均（この場合は最大値と最小値を除いた平均値）をみると，平均合は観測値の群の中央値を表示させ，そうでない場合は "–" を表示させている．D2 のセルの式 は IF（C2=C$13, MEDIAN（B2:B11）,"–"）であ り，D10 のセルの式は IF（C10=C$13, MEDIAN （B10:B19）,"–"）である．コア中央値は B8 から B17の観測値の群における中央値であり，D8 のセルに表示されている．コア中央値は 23.2 であった． Excelの関数を用いてこの標本の平均値を計算すると，21.406 になり，中央値を計算すると， 22.25になった．中央値は平均値より大きく，コア中央値は中央値よりも大きくなる結果となった．なお，データの最小値をより小さくしても，また，最大値をより大きくしてもコア中央値の値は変わらない．密集比については， λ=（10／18）／（6.5／25.6）=2.188 となる．また，図のデータは単峰分布であり，この場合のコア中央値の計算は不適でない．なお，Excel の最頻値の関数である MODE 関 数で B2 から B19 について MODE（B2:B19）の 数値を求めようとすると，"＃ N/A" が表示されて計算結果は出力されなかった． 2）実際のデータに対するコア中央値計算の適用例計算手順を示すだけであればデータは仮想でもよいが，農作業時間のコア中央値の計算の適用例を示すために実際のデータを用いることにする．データは，農林水産省統計部が 2004 年に刊行した『環境保全型農業（稲作）推進農家の経営分析調査報告』における稲作の有機栽培および無農薬・無化学肥料栽培を対象とした地域別の 2002 年の

5 1 0

1 5

B ）通し

表 2 作業種類別労働時間の分布の特徴

(6)

− 84 − 値からやや外れた値もあるが，トリム平均はすべて平均値と中央値の間にあった．今回のデータではスミルノフ・グラブス検定によって 5％水準で最大値に外れ値が見られたのは 4 例であった．外れ値をもつ例は過半数に及ばなかったが，これは，データのとり方として 1 地域につき数戸のデータが含まれており，地域内で平均値を算出しているために個別の農家の異常値が表れにくくなっているからだとみなせる．なお，原データを概観すると，U 字分布や一様分布のような単峰分布から大きく外れたケースは観察されなかった．表 3 にコア中央値の計算結果を示した．コア中央値は，10 a 当たりで，種子予措・育苗で 2.78 時間，耕起整地で 3.14 時間，基肥で 1.53 時間，田植え・直まきで 2.46 時間，追肥で 0.40 時間，除草で 7.12 時間，管理で 5.02 時間，防除で 0.26 時間，刈取・脱穀で 4.14 時間，乾燥で 1.78 時間，生産管理で 0.83時間であった．平均値に対するコア中央値の比は，最大で 1.184 であり，最小で 0.572，平均で 0.784 であった．中央値に対するコア中央値の比は，最大で 1.165 であり，最小で 0.616，平均で 0.847 であった．基肥と追肥ではコア中央値は中央値と一致していたが，平均値および中央値に対してコア中央値が大きく異なる例もあることがわかる．トリム平均に対するコア中央値の比は，最大で 1.205 であり，最小で 0.583，平均で 0.806 であった．なお．10 a 当たりの各作業の平均値の合計である 39.58 時間よりも，中央値の合計である 35.97 時間は小さく，コア中央値の合計である 29.44時間はさらに小さくなった．表 4 に密集比λの値を示した．種子予措・育苗，田植え・直まきおよび追肥においてλは 2.0 を超えていた．耕起整地，防除および生産管理では 1.5 を下回っていて密集性があまり高くないが，1.0 に非常に近い例はなかった．密集比の値と併せて， U字型分布等の単峰分布でない分布がないことも踏まえて判断すると，最頻値計算が不適となる例はないと考えられる．

4．考察

1）最頻値としてのコア中央値の特徴本稿では，片側に裾の長い分布の典型値を反映しうる代表値として，新規に，ヒストグラムによらない一意的な最頻値の一種であるコア中央値を考案した．コア中央値の計算手順はそれほど複雑なものではなく，実際の農作業時間データにコア中央値計算を適用すると，多くの場合，平均値や中央値とは明らかに異なる相対的に小さな時間値として把握された．コア中央値は，屋外での農作表 3 作業種類別労働時間のコア中央値と他の代表値との比較 29 5 1 0 1 5 B ） 1 段表 4 作業種類別労働時間の密集比 30 5 1 0 1 5 A ）一段

(7)

平泉：農作業時間の最頻値としてのコア中央値の考案分布を仮定する以外にコアに含まれる観測値の個数を標本サイズだけから導くのは困難である．正規分布から極端に異なる分布では計算の信頼性が不確定になる恐れがあるとしても，正規分布以外の分布も含めてコアに含まれる観測値の個数の計算基準を一律にすることで，ケースバイケースでなく統一的に最頻値が計算できるメリットは小さくないといえよう．とはいえ，コア中央値が信頼性をもつ分布は正規分布からの差異が極端に大きくない分布に限定されるはずである．特に問題となるのは，正規分布からの歪度のずれよりも尖度のずれであり，具体的には観測値が相互に密集していなくて尖度が著しく低く一様分布に近い分布のケースである．このケースでは．コアの候補の群の間でごく僅かな幅の差しかなくてもコア中央値は計算できてしまう．すなわち，データにほとんど密集性がなくてもコア中央値は計算可能である．このような不都合を避けるために密集比の確認が必要であり，密集比が非常に 1 に近い標本のコア中央値を採用しないようにする必要がある．コア中央値の計算が明らかに不適となる密集比の水準は，様々な仮想データで試行錯誤を重ねた限りでは，実用上，暫定的には概ね 1.1 未満であろう． 3）コア中央値の利点ともあれ，コア中央値の適用で，片側に裾の厚い分布であっても典型値となる最頻値が再現性と一意性を有する形で実用的に計算可能となる．コア中央値の算出は，ヒストグラムによらない既往の最頻値計算法であるミーンシフト法や近似 L0 ノルム推定法の弱点をカバーした最頻値計算法の採用であるといえる．実用上の応用としては，特に，統計学的データ処理をベースに標準時間を設定する場合において，平均値や中央値よりも最頻値が向いており，コア中央値はそういう標準時間の設定に役立つと考えられる．また，コア中央値は，作業時間以外の一般の最頻値計算にも適用可能であり，あらゆるデータに適用可能ではないが，汎用性が見込める．ただし，コア中央値のみを単独で算出して利用するのではなく，平均値や中央値も算出しておいて，それらの代表値との異同に留意しつつコア中央値を併用するような使い方が望ましいと考えられる．業のような統制されていない環境で平均値や中央値等の中心的傾向よりも大きな値が頻発しやすい作業に対して典型的な時間値を営農現場や圃場試験で得られる経験的データから割り出すには向いていると考えられる．コア中央値は，ヒストグラムによる最頻値計算と違って，端点を決める必要がない．ヒストグラムによる最頻値計算では任意に端点が選ばれるので計算結果に再現性が乏しいが，コア中央値は，誰が計算しても同一の計算結果が得られる．また， Excel等の表計算ソフトウェアの MIN 関数を用いてコアを選択するので，最頻値となる位置パラメータは局所最適に陥らない．さらに，コア中央値は，表計算ソフトウェアを利用して計算できるので，特別なソフトウェアを用意する必要がない．コア中央値は最頻値の一種であって，片側に裾の厚い歪んだ分布の最も密集した中心部分を代表する位置パラメータである．平均値や中央値という代表値も通例は典型値であるが，適用例の供試データのように歪度がある程度大きい場合には，既往の平均値や中央値とは別の典型的な値として利用できると考えられる．併せて，最も密集した中心部分のみを取り出しているので，外延部の異常値（外れ値）の影響を受けない．適用例では異常値の影響が大きい例は多くなかったが，コア中央値は，その計算手続きから頑健な統計量の一種としても位置付けられよう．頑健な統計量の一種としてしばしば用いられるトリム平均は，異常値の影響を除外できるが，適用例でも分かる通り，歪んだ分布の最も密集した中心部分を代表するような統計量ではない． 2）コア中央値の計算上の留意点しかしながら，コアに含まれる観測値の個数の決定にあたって正規分布の仮定が置かれていることから生じる留意点がある．最頻値を計算したい標本が正規分布から異なるほど，コアに含まれる観測値の個数の根拠は弱くなる．ところが，代表値として平均値でなく最頻値を選択するほうが望ましい標本の分布は歪度が正規分布とは異なる．そのことは問題ではあるが，歪みがあっても観測値が相互に密集している部分があれば，最頻値計算にあたって正規分布と同等の中心部の密集性をもつという仮定を与えたとしても，計算結果はそれなりに妥当性をもつであろう．そもそも，正規

(8)

− 86 − 4）残された課題残された課題として二点を指摘しておきたい．コア中央値の計算が不適とならない密集比の水準が，本来はどの程度が限界であるかを本稿では明確に示せなかった．今後，不適となる密集比の根拠ある明確な水準を提示する必要があろう．また， 標本サイズが概ね 10 未満の極小標本では，c が n と等しくなって通常の中央値とは別の値でコア中央値が計算できないか，できてもコアの候補が少なくて限られたわずかな選択肢からコアを選ぶことになって最頻値の計算精度に疑問符がつくという問題がある．例えば，営農現場で過去 5 年の時間データから標準値の参考値となる最頻値を求めざるをえないケース等に対応できるようにするために，極小標本での信頼できる妥当な最頻値計算法を工夫することも今後求められよう．

引用文献

平泉光一（2019）：Lp ノルム推定による農業生産指標の最頻値計算法, 農作業研究, 54（1）； 25-32.

Huber P J（2004）：Robust Statistics, John Wiley ＆ Sons, Hoboken, pp.1-308. ジィジェーク F（1926）：統計的中数値論, 岡崎文規訳, 有斐閣, 東京, pp.1-501. 永井明（1980）：ストップウオッチによる時間研究, 日本能率協会編, 作業測定の技術, 日本能率協会, 東京, pp.117-144. 日本規格協会（1999）：JIS Z 8101-1:1999（統計−用語と記号−, 第 1 部：確率及び一般統計用語）, http://kikakurui.com/z8/Z8101-1-1999-01.html （2019 年 9 月 30 日閲覧）. 農林水産省統計部（2004）：環境保全型農業（稲作）推進農家の経営分析調査報告, 農林統計協会, 東京, pp.1-88. 岡田和典（2008）：ミーンシフトの原理と応用, 電子情報通信学会技術研究報告（IE, 画像工学）, 107（538）；401-414. 大杉直幹（1993）：時間研究における代表値に関する一考察, 愛知工業大学研究報告（B, 専門関係論文集）, 28；39-42. 寒河江雅彦・山本敏寛（2010）：ヒストグラムにおけるAnchor Position の選択法, 金沢大学経済論集, 30（2）；267-288.

Scott D W（1979）；On optimal and data-based

histograms, Biometrika, 66（3）；605-610. 田口智一・横田康成（2013）：ガウス性を仮定した可変窓幅平均変位学習による最頻値推定法と背景音スペクトログラム, 電子情報通信学会技術研究報告（NC, ニューロコンピューティング）, 113（374）；11-16.

Abstract

Average is often used as a representative value of work time. However, when some time values close to the abnormal value are included, the average value becomes larger or smaller than the original value. In farm work, the production process depends on conditions that are difficult to control artificially due to the influence of the natural environment. As a result, abnormal values are likely to appear in the working time, and the distribution tends to be thick on one side. In agriculture, there are several cases where it is desirable to grasp the working time, which is a typical value that can be called the original time value. Therefore, in this study, we selected a kind of mode value as a representative value of farm work time. There are many problems with the existing mode calculation methods. Usually, the mode value is obtained as a class value of the maximum frequency class after making a histogram. However, the mode value thus obtained becomes indefinite depending on how the “anchor position” is determined, even if the class width is fixed; therefore, uniqueness is not guaranteed, making it undesirable. The mean shift method and the approximate L0 norm estimation method are methods that do not use a histogram, although they also have problems. Therefore, we devised a new representative value that is a kind of mode value called the core median. The core median can be calculated using the calculation procedure at spreadsheet software worksheet in this study. In addition, we applied the method on actual farming data for its validation, and we discuss the conditions that should be taken into account while using the method.

Key Words

core median, farm work, mode, spreadsheet software, work time

農作業時間の最頻値としてのコア中央値の考案