ベンチマークドース手法の適用の現状と課題 ─動物実験データへの適用を中心に─

(1)

キーワード：リスクアセスメント、用量反応評価、ベンチマークドース、許容値 Ⅰ．はじめに

　リスクアセスメントにおける用量反応評価において、許容一日摂取量等の許容値を求める際 の参照値あるいは出発点（point of departure, POD）として動物実験による結果を適用する場 合は、無毒性量（no observed adverse effect level, NOAEL）あるいは最小毒性量（lowest observed adverse effect level, LOAEL）を用いるのが通常の手順であるが、NOAELもLOAEL も動物実験を計画した際に実験責任者が予備試験場などの情報を基に設定した用量に依存する 値であり、必ずしも実験結果として得られるエンドポイントの用量反応性を代表した値となら ないという欠点がある。そこで、用量反応の数理モデル化により参照値を設定する手法として 広瀬　明彦:国立医薬品食品衛生研究所安全性生物試験研究センター安全性予測評価部部長西浦　　博 : 京都大学大学院医学研究科環境衛生学分野教授

広　瀬　明　彦

西　浦　　　博

ベンチマークドース手法の適用の現状と課題

─動物実験データへの適用を中心に─

Application and current issues of the benchmark dose approach to the date of animal studies < 要　約 > 　近年、許容値などを設定するための参照値あるいは POD として、NOAEL を用いる手法 に変わって、ベンチマークドース法が適用される事例が増えてきている。特に食品関連の 化学物質の許容値設定において、欧州食品庁や WHO・FAO の合同専門家会議での用量反 応評価ガイドラインでは、ベンチマークドース法の適用がデフォルトとなることが示されて いる。ベンチマークドース法により BMDL を算定する手法については、従来は実験データ に最も適合する統計モデルを各評価機関が設定したモデル選択規準に従って選定して BMDL を算出していたが、近年は二値データおよび連続値データをモデル化するのに適し た標準的な数種の数理モデルを平均化して BMDL を算出することが主流になってきてい る。さらに実験データに数理モデルを適合させる手法は、従来の頻度論的手法からベイズ 推定を用いた手法に代わりつつある。

(2)

ベンチマークドース（benchmark dose, BMD）法が開発され、特に LOAEL しか得られない実 験データから NOAEL に相当する BMDL（benchmark dose lower confidence limit: ベンチマー ク用量信頼下限値）を算出する手法として主に使用されてきている。近年は、遺伝毒性発がん 性物質の曝露による発がん性の用量反評価における POD の設定方法としても一般的な手法と なっていることに加え、欧州のリスク評価機関や WHO/FAO 合同専門家会議では NOAEL が 設定できるような実験結果であっても、データを数理モデル化することが可能な場合は、 NOAEL/LOAEL 法よりベンチマークドース法を優先的に適用する方向になってきている。 　本稿では、ベンチマークドース法の統計学的理論や詳細な解説ではなく、特に食品や飲料水 中に含まれる環境汚染物質の定量的リスク評価法として、特に動物実験のデータへの適用に関 して発展してきたベンチマークドース法について現在の適用状況や課題を整理し、許容値の設 定手法の一つとしてのベンチマークドースを適用する際の注意点を示す。 Ⅱ．ベンチマードース法の経緯 　ベンチマークドース法は1980年代に、利用可能なすべての用量 - 反応データを総合的なデー タ分析としてまとめて考慮し、実験した用量域で内挿して BMD を推定する手法として導入さ れた1）_{。このBMDとは、特定の健康影響のリスク発生率または特定の生物学的反応の変化（ベ} ンチマーク反応:benchmark response, BMR）に関連する用量として定義される。ベンチマーク ドース法は、この BMR の用量に対する95% 信頼限界の用量下限値を BMDL として算出し（図 1）、耐容一日摂取量（tolerable daily intake, TDI）などの健康影響に基づく許容値などを設定 するための POD を統計学的に求めることを主な目的として使用されている。BMDL はこのよ うに統計学的推計から求められるため、NOAEL による POD 設定法に比べていくつかの利点 がある。

◦ LOAEL しか得られていない実験でも NOAEL に相当する BMDL を求めて POD の設定を行

(3)

う事が可能となるため評価のための時間の節約 , 動物愛護の精神を踏破できる。 ◦ BMDLは用量依存性に基づいて計算されているため、同じNOAELが得られた実験結果を比 較する場合でも , 毒性強度を比較できる。 ◦ 信頼限界の下限値の算出には、データの質（動物数やデータのバラツキ等）を含んだ統計学 的考え方が含まれるため、信頼性の低い場合には安全側の値となる。 ◦ BMD は実験投与量付近での計算値であるため , 適合性が良好ないずれのモデル式を用いても BMDL 値に違いが少ない。 　なお、最後の利点は、発がん性の評価において線形マルチステージ法などを用いて数理モデ ル式から直接低用量曝露に対するリスク（10-5_{あるいは10}-6_{リスク）の計算を行う手法に比べ}

て、原点への直性外挿あるいは暴露マージン（margin of exposure, MOE）手法の POD として ベンチマークドース法のほうが計算結果が安定している点を強調したものである。ベンチマー ドース法を米国環境保護庁（Environmental Protection Agency, EPA）が2005年に発がん性の

評価のガイダンス2，3）_{にデフォルトの手法として正式に取り入れて以降は、動物実験による発} がん性試験結果からのリスク評価として、数理モデルから直接低用量リスクを計算する手法は 国際的にもほとんど用いられていない。 　一方、ベンチマークドース法は実験データへのカーブフィッティングによるため , 最高用量 （単一用量）でのみしか反応が得られていないデータや、複数の用量で反応が認められていたと しても用量反応性が単調でないデータには適用できない。また、発症率に加えて組織所見とし てグレード化した値を含む場合や、病理学的変化の進行状況により所見名が変わることがある 場合など、病理組織所見データをそのままベンチマークドース法に適用することはできない。 このような場合には、組織学的影響を特殊な染色や画像解析などの手法で別の指標に置き換え るか、有害性の判断基準となる閾値等を設定して、有害性の有無に基づく発症率のデータとし て二値化することによりベンチマークドース法を適用して POD の選定根拠となりえるか等を 検討することで対応可能な場合もある。 　実験データに数理モデルを適用して用量反応性を解析するための理想的なモデルとしては、 生物学的なメカニズムや妥当性の高い経験則に基づいて作成あるいは設定された数理モデルを 実験結果に適合させ、その数理モデルの関数パラメータをコンピュータに計算させて求めるこ とにより、BMR に基づく BMDL を算出することが理想ではあるが、環境汚染物質のような化 学物質の許容値根拠となるエンドポイントに対して生物学的知見に基づく数理モデルを設定で きることは希であり、現実的には生物統計学的にこれまでに適用されてきた代表的な統計モデ ルの中から最も適合度の高いモデルを選択してBMDLの算出を行うことなる。このような目的 のために一通りの標準的な統計モデル（Gamma、Logistic、Probit、Weibull、Hill 等）を利用 できるソフトウェアとしては、EPA が開発している BMDS（Windows 上で実行可能）と、オ ランダ公衆環境衛生研究所（National Institute for Public Health and the Environment in the Netherlands, RIVM）が開発してきた PROAST〔PC 上で実行するためには統計ソフトウェア

(4)

S-PlusまたはRが必要。現在は、欧州食品安全機関（European Food Safety Authority, EFSA） から Web 上でも BMD を計算できるサイト（https://shiny-efsa.openanalytics.eu/app/bmd）が 公開されている〕が知られており、現時点で国際的にもこれら2つのソフトウェアのどちらか が標準的ソフトウェアとして使用されているのが実状である。EPA からは BMDS の使用を前

提としたテクニカルガイダンス4，5）_{が公表されており、EFSA からは PROAST の使用を前提}

としたガイダンス6，7）_{が、国際化学物質安全性計画（International Program on Chemical Safety.}

IPCS）からは用量反応性評価ガイダンス8）_{の一部としてベンチマークドース法の解説が記さ} れている。 Ⅲ．ベンチマークドースソフトウェアの適用方法の検討 　BMDS と PROAST の両ソフトウェアは、パラメータ推定の手法は多少異なるが、二値デー タを各数理モデルに適合することにより計算される BMDL 値にほとんど違いはない。しかし、 POD として最適な BMDL を求めるためのモデル選択規準や各モデルのパラメータ制限の取扱 いについては、評価機関ごとにそのポリシーが異なり基準は統一されていない4-8）_{。そのため、} 同じ動物実験の結果を用いても、データによっては選定される POD としての BMDL が大きく 異なる場合がある。両ソフトウェアの使用を前提とした各々のガイダンスには、デフォルトで 求めた BMDL が妥当でない場合は、モデル選択規準や各モデルのパラメータ制限について、 ケースバイケースで統計の専門家やリスク評価の専門家に相談することになっているが、統計 学的に高度な知識が必要であるほか、生物学的モデルに対する知見が不足している状況のため ベンチマークドース法を適用することになった経緯を考慮すると、生物学的知見に基づく統計 学的な解釈の妥当性を説明することはかなり困難であるように思える。さらに、我が国のリス ク評価において独自のソフトウェアを持っていない状況で、標準的なベンチマークドース法の 適用法を確立することは困難となっていた。そこで、我々は平成23～24年度の食品健康影響評 価技術研究において、モデル選択規準や各モデルのパラメータ制限に関しての標準的な考え方 を確立するための検証を行った9，10）_{。さらに、後述するモデル平均化手法に対応するべく我が} 国独自のソフトウェア開発の確立に向けた研究を平成30年度より開始した11）_。 Ⅳ．ベンチマークレスポンスの設定 　最初のステップは、データがモデリングに適しているかどうかを検討することになるが、最 近アップデートされた IPCS ガイダンスの「第五章 - 用量反応性評価」におけるベンチマーク ドースに関する解説8）_{では以下の4点を検討し、このうちいずれかに適合しない場合はベンチ} マークドース法の適用ができないとし、NOAEL 法を検討するか、もしくは POD を設定する ための用量反応性評価もできないことになるとしている。 ◦ 十分な用量群（例えば、1つの用量群と対照群のみであってもよい）があるか ? ◦ エンドポイントに生物学的または統計学的に有意な傾向があるか ?

(5)

◦ 明確な用量反応関係があるか ?

◦ 最初にゼロ以外の反応を示す用量での反応が BMR の範囲内にあるか ?

　IPCS ガイダンスのフロー図（図2）によれば、POD を設定するためのエンドポイントが設

図2　用量反応性評価のフローチャート

(6)

定されれば、まずベンチマークドース法の適用を検討し、適切でない場合に NOAEL 等の他の 方法を検討することになっており、ベンチマークドース法の適用のほうがデフォルトの手法と いう扱いになっている。用量群としては、少なくとも3つまたは4つの異なる用量（対照群を 含む）および異なる用量で異なるレベルの反応を示すことが推奨されている。データがモデリ ングに適していることになれば、次にBMDLを算出するためのBMRを設定することになるが、 動物実験に対する過去のデータ解析から一般毒性では10%13，14）_{、発生毒性では5%}15）_{の BMR の} BMDL が NOAEL とほぼ同等であることが示されており、EFSA のガイダンス6）_{で二値デー} タは10%、連続値データは5% がデフォルトとして示されている。我々の平成23～24年度の研 究班9）_{でも、二値データに関しては BMR を10% にした時のほうが5% よりも NOAEL 値に近} いことが示され（図3）、連続値データについては、EFSA のガイダンスと同様に10% の BMR より5% のほうがより NOAEL に近いことが示されたが、BMR を対照群の標準偏差（SD）に 設定したほうがより NOAEL に近い傾向となった（図4）。一方で、二値データについては動 図3　BMDS を用いて算出した BMDL10および BMDL05と NOAEL の比較 参照文献9）の図3より引用 図4　BMDS を用いて算出した連続値データの各 BMDL 値と NOAEL の比較 参照文献9）の図10より引用 BMR ＝10% の場合 BMR ＝10% の場合 BMR ＝5% の場合 BMR ＝5% の場合 BMR ＝1SD の場合

(7)

物実験のように一群の動物数が多くても50例以下と少ない場合は、統計上の理論的な考察によ っても BMDL10が NOAEL となる条件を満たすことが示される10）。しかし、連続値データにつ いて、理想的に BMR がヒトに関連する有害作用の開始点を反映するように設定されるべきこ とを考慮すると、生物学的に意味のあるBMRはエンドポイントの種類に依存することになる。 そのため、一定のコンセンサスのもとに既に確立された BMR が存在しない場合は、影響の種 類や重篤度、背景値の変動性、作用メカニズム等を考慮して、有害性の定量的定義を決定する ための専門家（リスク評価者、統計学者、毒物学者、臨床専門家を含む）の判断が必要となる。 一方で、基本的に NOAEL または BMD のどちらのアプローチを用いるかにかかわらず、また、 二値データであるか連続値データであるかにかかわらず、PODを設定するためのエンドポイン トの選定には専門家の関与が必要であることを考慮すると、エンドポイントの選定とベンチ マークドース法の適用の可否は実態として同時進行で行うことになると考えられる。また、最 新のベンチマークドース法の各ソフトウェアは、複数のデータセットをバッチ処理により処理 できるようになってきており、場合によっては用量反応関係の存在を確定しない前段階でも、 候補となる複数のエンドポイントに対してモデルの適用を先行して試行することも可能であ る。つまり、エンドポイントの選定と BMR の設定に加えて、BMDL の算出までも含めて同時 平行的に検討対象とすることもできる。 Ⅴ．モデル適合性の判定 　モデルの適合性を評価するための基本的な基準は、選択したモデルが、特に推定が必要とさ れる BMR 付近の用量反応領域において、数理モデルによる用量反応曲線が実験データにフィ ットとしているかどうかである。適合度を判定する統計学的解析法としては尤度比検定が用い られ、帰無仮説に対して棄却されない場合の p 値の規準として p>0.1が一般的に用いられてい る。p値が小さい場合は、データへのフィッティングが良くないことを示す。さらに、p値がそ れほど小さくないがデータとモデルの乖離がある場合や、低用量域での反応を適切に説明して いない場合があるため、目視によるプロットの確認を行うことが推奨されている。BMDS も PROAST もほぼ同様の判定基準を採用している。 Ⅵ．最適なモデルの選択規準 　後述するモデル平均化手法が標準的方法として推奨される以前は、モデル適合の判定で適合 すると判定されたモデルの中から、POD となる BMDL を選定するための最適なモデルを選定 するという手順が一般的であった。その際、同じファミリーに属するモデル間の比較について は、基本的に尤度比検定を用いて評価することができるが、最近のガイダンスでは赤池情報量 規準（Akaike's Information Criterion, AIC）の小さいモデルをより最適なモデルとして選択す るようになっている。ただし、AIC の使い方は、BMDS と PROAST で異なっており、EPA

(8)

には、BMDL の設定にモデル依存性はないと判断して、AIC の最も低いモデルを選択するが、 BMDLの分布が大きい場合には、モデル不確実性が大きすぎる可能性を統計の専門家で判断し た後、BMDL 値の幅が妥当と判断された場合には、最も低い BMDL を算出するモデルを選択 するとしている（BMDS Ver.3以降には、ベイズ推定法に基づくモデル平均化機能が実装され ているが、モデル平均化は執筆時点では依然代替法で、正式には単一モデルの選択が正式なガ イダンスとなっている）。一方、EFSA（PROAST）のガイダンスでは、最新のガイダンス7） ではモデル平均化手法に使用するモデルの選択規準にAICが採用されているが、以前のガイダ ンス6）_{では尤度比検定で適合したモデルの中で最小の BMDL を示すモデルを選択する仕様に} なっていた。 Ⅶ．パラメータ制限の利用とモデル除外規準 　用量反応データのモデル化に際しては、生物学的な用量反応性に適合するようにモデル式に 使われる各パラメータに制限を設定している（表1）。例えば、生物学的測定値が正の値になる ように制限したり、反応が単調増加となるように制限を加えたりするが、BMDS と PROAST には低用量域で反応曲線の傾きが急峻にならないようにする制限（BMDS では restriction、 PROAST では constrain と表現される）をソフトウェアのオプションとして選択できるように なっている。しかも、EPAのガイダンスではデフォルトとしてパラメータに制限をかけられる モデルは制限をかけるが、EFSA のガイダンスでは制限をかけないほうがデフォルトとなって いる。この違いは、特に対照群以外の用量の反応がすべてBMRを超えるレベルである場合や、 表1　BMDS 収載されている二値データに適用する用量反応モデルのパラメータ制限 食品安全委員会第7回評価技術企画ワーキンググループ（2017年8月31日開催）、“ 資料2: ベンチマークドース （BMD）法の最近の動向について ” より一部抜粋して引用

(9)

用量反応曲線が平坦な傾向をもつデータセットにおいて問題となり、制限をかけないモデルで

は一般的に低い BMDL を算出する傾向があること（図5）9）_{から、このモデルが最適なモデル}

として判定された場合に、用いるソフトウェアの違いにより選定されるBMDLの値が大きく異

図5　PROAST を用いて Restriction No と Yes で算出した BMDL10と NOAEL の比較

参照文献9) の図4および図6より引用

図6　同じ用量反応データの横軸を線形目盛（上図）と対数目盛（下図）にした場合の比較

(10)

なることになりえる。 　この問題は、低用量域における有害反応が急峻な反応パターンを示すことが生物学的にあり えるかどうかという議論とリンクしており、そのよう反応が起きえないのであればデフォルト として制限を加えるべきであるという専門家と、同じデータを対数メモリでプロットし直すと 明らかなように、一見急峻に見える反応もさらに低用量ではほとんど変化のない用量域をとり える可能性があること（図6）7）_{から、制限をかけるのは不適切であるという専門家との間で} 対立している問題でもある。この議論は、データの得られていないモデル式の外挿を議論して いるため論理的に解決できる問題ではないが、両ソフトウェアのデフォルトとしてどちらかを 選ぶというオプションとして未解決の問題となっている。EPA と EFSA の両ガイダンスでは、 この制限の適用の判断については統計学および毒性学の専門家による検討が必要となっている が、そもそも生物学的モデルが適用できない場合の代替としてベンチマークドース法を適用し ているという状況を考慮すると、この問題に論理的な説明をつけるのは困難であると思われる。 　我々の平成23～24年度の研究班9，10）_{では、制限をかけるモデルと制限をかけないモデルは別} の数理モデルとして扱うことにして、両方のモデルを使って得られたBMDL値の中で最も低い BMDL を選定することを提案し、制限の有無を考慮しないこととした。しかし、その代わり、 別のモデル適合基準として、BMD/BMDL の比および LOAEL/BMDL の比がある一定以上の 場合は適切なモデルではないとするモデル除外規準を適用することを提案した。実際にこれら の規準を適用すると NOAEL より著しく低く算出される BMDL のケースを低減することが可 能となり（図7）9）_{、生物学的な議論に基づく外挿問題をクリアしたかに見えた。現象論的には} BMD/BMDL の比が大きいモデルは、BMR 反応域における信頼限界の幅が広いことを意味し ており、全データセットを用いて算出したAICが小さくてモデル適合性が良いと判断されたと しても、低用量域では適合性の良くないモデルと判断できるとも考えられる。しかし、統計学 的な検討方法ではなく経験則として BMD/BMDL の比が大きいモデルを除外していることか 図7　“BMD/BMDL<10” となったモデルの除外の有無による BMDL10と NOAEL の比較 参照文献9）の図4および図7より引用

(11)

ら、この除外規準の論理的根拠は弱い。さらに、図8に示すように、BMD/BMDL の比と各モ デルから算出されるBMDLの分布幅は高い相関性を示しており9）_{、このことは、BMD/BMDL} の比の大きいモデルが最小のBMDLとして選択されるデータセットの場合は、各モデルから算 出されるBMDLの幅が大きいということ示している。ベンチマークドース法の各ガイダンスで は、BMDL値のモデル依存性が高い（モデル不確実性が大きい）ケースとして、ベンチマーク ドース法の適用自体を検討しなければならないとされている。 Ⅷ．モデル平均化の有用性 　以上のように、従来PODの設定に用いるBMDLを算出するために、ある基準（最低のBMDL 等）に基づいて単一のモデルを選択するという手法が一般的であった。データに対するサンプ リング誤差は、適合したモデルに対して信頼限界を算出することによって定量化することがで きるが、上述したように選択したモデルによりBMDLの推定値が異なるという事実から、単一 モデルの選択に対してさらなる不確実性が生じると考えられている。そもそも真のモデルは仮 定されていないので、適合するモデルの選定時におけるBMDL値の分散はモデル不確実性と呼 ばれている。このモデル不確実性に対処するための方法としてモデル平均化手法が適切である と考えられた。モデルの平均化では、用量反応関係の推定や BMD/BMDL、信頼区間などの導 出された統計量をすべてのモデルを用いて加重平均する16-18）_{。重み付けは、適合基準（例えば、} 頻度論的アプローチにおける AIC やベイズ推定法における事後確率）に基づいて計算できる。 また、モデル平均化法では、極端に低いBMDLを算出するモデルについては通常適合度が良く ないため平均化に寄与する重みが小さく見積もられるので、パラメータ制限の必要性がなくな る。そのため、最近のベンチマークドースのガイダンス7，8，19）_{では、モデル平均化がデフォル} 図8　BMDL10の幅と “BMD/BMDL” の比較（PROAST、Restriction No、EFSA 方式） 参照文献9）の図8より引用

(12)

トで採用する手法として提言されている。このモデル平均化のためのプログラムとしては、最 初にWheeler & Bailer（2008）により二値データに対するプログラムが公開されたが、その後 同様の頻度論的手法によるアプローチにより PROAST にも実装された。EFSA の統計モデル を公開しているWebページ（https://shiny-efsa.openanalytics.eu/）において、Web上でPROAST を使った各数理モデルの BMD 計算と平均化した BMDL の算出を行うことが可能となってい る。本稿の執筆時点では連続値データに対するモデル平均化も計算可能となっている。 　一方、我々は、食品安全委員会での標準的ツールとして使用可能なプログラムの開発を目的 として、PROAST で使用している頻度論的なアプローチによるモデル平均化手法をさらに改 良した手法を開発する研究を行った12）_{。本研究では、既存の実験データを元にしてシミュレー} ション技術を利用し1,000セットの仮想の実験データを作成し、すべてのデータセットにおいて 各種数理モデルを適合させて、算出したBMDL値の妥当性を検討した。検討にあたっては、本 来的には推定できない「真の用量反応関係」（実験データでモデル化を行って最も AIC の小さ いモデルを真のモデルと仮定）を基にすることで、モデル選択等の妥当性を評価した。モデル 選択の条件としては、適合性検討の有無や BMD/BMDL<10のモデル除外条件の有無、モデル 選択法として最小の BMDL あるいは BMD、AIC を基準に選ぶ方法、全モデルを平均化する方 法、AICの小さい3モデルだけを平均化する方法、最小AICとの差が3未満のモデルのみを平 均化する手法を検討対象とした。各除外規準とモデル選択法の組み合わせに対して、それぞれ 最適な BMDL を選定し、真の BMDL（真の用量相関を仮定したモデルから算出した BMDL） と比較することで検討を行った。その結果、妥当性と信頼性（表2の脚注参照）に関しては、 選択条件によって異なる結果が得られ、最小の BMDL あるいは BMD は過度に保守的で、妥当 性は高いが、信頼性が最も低くなる場合があった。最小のAICを選択する手法は、元の真のモ デルを再現してしまう頻度が高く、すべてを検証することはできなかったが、最小のBMDLを 選ぶ方法よりも信頼性が高いという結果にはならなかった。一方、3種類の平均化手法の中で は、AICの小さい3モデルだけを平均化する方法（表2中ではMA-3）は、信頼性が最も高く なる傾向が強く、妥当性もそれほど悪くない結果となった。これらのことから我々は、様々な モデル除外・選択基準のある中で、モデル平均化を実施することが妥当性と信頼性の点で優れ ていることを示すとともに、すべてのモデルを平均化することでモデル不確実性を増大させて しまうことがないよう、適合度の良い3つのモデルを選定して平均化を行う方法がよりパフ ォーマンスが高くなることを示した。 　現在、本手法を実装したプログラムを作成し公開するための研究を、食品安全委員会の食品 健康影響評価技術研究で行っている。 Ⅸ．ベンチマークドース法の今後 　本稿では、動物実験を用いたデータに対してベンチマークドース法を適用する際の過去の状 況と課題、最近のモデル平均化手法の動向について解説した。モデル平均化手法はこれまでの

(13)

ベンチマークドース法を適用する際に問題となってきたパラメータ制限やモデル選択の手法に 関して一定の解決策を示すものと捉えられ、各国の評価機関で統一されてきていなかったベン チマークドース法の適用方法についての普及が進むものと期待された。現にEFSAの提供する Web上のソフトウェアは、ベンチマークドース法の適用のハードルをかなり下げることができ ると思われる。 　一方、ベンチマークドース法を取り巻く状況はさらに変化してきており、最新の IPCS のガ イダンスでは、これまで BMDS（Ver. 2.X）や PROAST でモデル化のために使われてきた観 測データから固定値を推定するという頻度論的アプローチよりも、ベイズ推定法を用いた区間 推定によりBMDLを算出する手法を推奨している。頻度論では用いるサンプルが異なれば推定 表2　2-ethylhexylvinyl ether の毒性試験データを基にしたシミュレーション結果

a_{Exclusion criteria: KS, Kolmogorov-Smirnov test of goodness-of-fit; BMD/BMDL, ratio of benchmark dose}

（BMD10） to benchmark dose lower bound （BMDL10） with values > 10 excluded; BMDU/BMDL, ratio of benchmark

dose upper bound （BMDU10） to BMDL10 with values > 10 excluded. bModel selection criteria: Lowest BMDL, model

with the lowest value of BMDL10; Lowest BMD, model with the lowest value of BMD10; Lowest AIC, model with the

lowest AIC value; MA-all, model averaging of all converged models. MA-3, model averaging of three models with three smallest AIC values. MA-AIC, model averaging of all models with AIC values < 3 compared with the best model that yielded the minimum AIC. c_{Reliability （Mean distance）, measured as the mean distance between unbiased}

BMDL10 and calculated BMDL10 followed by rank. dValidity （%）, measured as the iterations that satisfied calculated

BMDL10 lower than unbiased BMD10 followed by rank. eBMDL calculability （%）, measured as the iterations that

yielded BMDL in the model selection criterion. f_{Non-exclusion and BMDL calculation （%）, measured as the}

iterations that yielded BMDL in the model selection criterion along with exclusion criteria. g_{True dose response}

（%）, measured as the default model selected by the model selection criterion. Note: Validity （%）, BMDL calculability （%）, non-exclusion and BMDL calculation （%）, and true dose response （%） were converted into rates of iterations divided by 9000, nine models in 1000 simulation data. NA, not applicable

(14)

値（標本分布）も異なるが、ベイズ論であれば観察データを利用して信念の状態（state of belief） を得ることができるとされており、頻度論のように正規性を仮定せず、信頼区間の推定をより 正確に実施でき、不適解を簡単に（数値的に）回避することができる点や、小サンプルでも十 分に不確実性を定量化しつつ実装可能である点がメリットであるとされている。実際にBMDS Ver. 3.1からは、ベイズ推定法を用いたモデル化とベイズ推定による平均化のプログラムが、こ れまでの最尤法を用いた頻度論的手法に追加されている。 　しかし、ベイズ推定を用いた手法についてはまだ手順や判断基準が確立しておらず、事後分 布が事前分布の設定に依存することになるが、事前分布のデフォルトも統一されていない。さ らに、インディアナ大学の Shao らのグループもベイズ推定を用いたベンチマークドース法の Web アプリケーション20）_{を公開しているが、BMDS とは用いる事前分布が異なるほか、ベイ} ズ推定に使う計算アルゴリズムも異なり、同じデータを用いても異なる BMDL が算出される。 また、本稿執筆時点では、EPA の BMDS に実装されているベイズ推定法によるモデル計算は 代替手段という扱いで、BMDLを算出するための正式なモデル選択規準は、現時点でも単一モ デルを選択する手法となっている。一方で、EFSA/RIVMの側からは、ベイズ推定法を使った ベンチマークドース法の開発や公開に関した情報は出ていない。 　ベンチマークドース法における今後の方向性は、コンピュータの計算能力の高性能化に伴い、 ベイズ推定法を使った手法に移っていくものとは思われるところであるが、標準的な計算手順 の統一や事前条件の設定基準などの確立にもうしばらく時間がかかると思われる。 ＜謝　辞＞ 　本稿の内容の一部は、食品健康影響評価技術研究（課題番号1007及び1804）の助成を受けたものである。 ＜参照文献＞

1） Crump K. A new method for determining allowable daily intakes. Fundament Appl Toxicol. 1984; 4（5） :854-71.

2) United States Environment Protection Agency （US EPA）. Guidelines for Carcinogen Risk Assessment. Washington DC: United States Environment Protection Agency; 2005. pp166.

3) United States Environment Protection Agency （US EPA）. Choosing number of stages of multistage model for cancer modeling: SOP for contractor and IRIS analysts. （PDF）. 2014. pp6.

4) United States Environment Protection Agency （US EPA）. Benchmark Dose Technical Guidance. Washington DC: United States Environment Protection Agency; 2012. pp99.

5) United States Environment Protection Agency （US EPA）. Benchmark Dose Software （BMDS） 3.2 - User Guide. Washington DC: United States Environment Protection Agency; 2020. pp118.

6) European Food Safety Authority （EFSA）. Guidance of the scientific committee on a request from EFSA on the use of benchmark dose approach in risk assessment. EFSA J. 2009; 1150:1-72.

(15)

assessment. EFSA J. 2017; 15（1）:4658.

8) International Programme on Chemical Safety （IPCS）. Chapter 5 “Dose-response assessment and derivation of health-based guidance values （second edition）” in Principles and methods for the risk assessment of chemicals in food （Environmental Health Criteria (EHC） 240). Geneva: World Health Organization; 2020. pp115.

9) 広瀬明彦．食品健康影響評価技術研究研究成果報告書「用量反応性評価におけるベンチマークドース 法の適用に関する研究（課題番号：1007）（研究期間：平成22年度～平成24年度）」．2013．（https:// www.fsc.go.jp/fsciis/technicalResearch/show/cho99920121007）

10) Matsumoto M, Hirata-Koizumi M, Kawamura T, Sakuratani S, Ono A, Hirose A. （2019）. Validation of the statistical parameters and model selection criteria of the benchmark dose methods for the evaluation of various endpoints in repeated-dose toxicity studies. Fundam. Toxicol. Sci 6（4）:125-136. 11) 広瀬明彦．食品健康影響評価技術研究研究成果報告書「ベンチマークドース手法の健康影響評価にお ける適用条件の検討（課題番号：1804）（研究期間平成30年度～令和元年度）」．2020.（https://www. fsc.go.jp/fsciis/technicalResearch/show/cho99920191804）

12) Yoshii K, Nishiura H, Inoue K, Yamaguchi T, Hirose A. Simulation-based assessment of model selection criteria during the application of benchmark dose method to quantal response data. Theor Biol Med Model. 2020; 17（1）:13.

13) Sand S, Falk FA, Victorin K. Evaluation of the benchmark dose method for dichotomous data: model dependence and model selection. Regul Toxicol Pharmacol. 2002; 36:184-97.

14) Sand S, PortierCJ, Krewski D. A signal-to-noise crossover dose as the point of departure for health risk assessment. Environ. Health Perspect. 2011; 119:1766-1774.

15) Allen BC, Kavlock RJ, Kimmel CA, Faustman EM. Dose-response assessment for developmental toxicity III. Statistical models. Fundament Appl Toxicol. 1994; 23:496-509.

16) Kang SH, Kodell RL, Chen JJ. Incorporating model uncertainties along with data uncertainties in microbial risk assessment. Regul Toxicol Pharmacol. 2000; 32（1）:68-72.

17) Shao K and Gift JS. Model uncertainty and Bayesian model averaged benchmark dose estimation for continuous data. Risk Anal. 2014; 34（1）:101-20.

18) Wheeler MW and Bailer AJ. Properties of model-averaged BMDLs: a study of model averaging in dichotomous response risk estimation. Risk Anal. 2007; 27（3）:659-70.

19) 食品安全委員会．食品健康影響評価におけるベンチマークドーズ法の活用に関する指針［動物試験で 得られた用量反応データへの適用］．2019．（http://www.fsc.go.jp/senmon/sonota/index.data/BMD_ shisin.pdf）

20) Shao K, Shapiro AJ （2018）. A web-based system for Bayesian benchmark dose estimation. Environ Health Perspect. 126（1）:017002-1-017002-14.

ベンチマークドース手法の適用の現状と課題 ─動物実験データへの適用を中心に─

広 瀬 明 彦

西 浦 博

ベンチマークドース手法の適用の現状と課題

─動物実験データへの適用を中心に─

広　瀬　明　彦

西　浦　　　博