英文契約書評価支援システムの開発
全文
(2) Vol.2010-NL-197 No.1 2010/7/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 2. 課題. あるいは特定の条項の中にキーワードが出現しているかどうかが重要である.しかし, 既存技術ではこれらに対応することは困難である.. 2.1 要注意箇所抽出における問題点. 本研究の目的は,契約業務を支援するシステムを開発することである.そのため, 当社の契約業務における要注意箇所抽出において,IT システムがどのように使われて いるのかを調査した. その結果,当社においてもっとも多く使われていたのは,文書閲覧ソフトのキーワ ード検索機能を用いた方法である.これは,担当者が入力したキーワードを含む文章 を抽出することで,要注意箇所の候補を提示するものである.但しこの場合,下記の 問題点があると考えられる.. (2) 数値の評価 要求仕様書中には,要求仕様が数値によって提示されている箇所がある.したがっ て,その数値が受注側の標準仕様の範囲内かどうかを評価する必要がある.しかし, 現状のキーワード検索機能では,数値をキーワードとして入力しても文字列として解 釈されるため,数値の範囲を指定して,それに合致する箇所を抽出することができな い. 例として, 「1m 以上の数値」を要求仕様書中から検索する場合を考える.この場合, 「1.5m」「2.37m」等,1m 以上のあらゆる数値を文字列に置き換えて入力する必要が ある.しかし,このような数値は無限に存在する.また,単位も「m」や「meter」等, 複数の表現が存在する.したがって,要求仕様書中に記述されている数値の記述に関 してある程度の予測ができない限り,要注意箇所の抽出作業においてこの方法は適切 ではないと考えられる. また,数値はそれ自身だけで意味を持つ場合よりも,その数値の対象となる事象が 伴って初めて意味を持つ場合が多いと考えられる.例えば,同じ「1m」という数値で あっても,高さを表す場合,幅を表す場合等がある.したがって,数値はその対象と なる語句と一緒に検索することが要注意箇所抽出に有効であると考えられる.しかし, 既存のキーワード検索機能で対応することは困難である.. (1) 多様な英語表現の評価 要求仕様書においては,同じ内容であっても顧客によって異なる表現がなされるこ とがある.表現が異なる例は2種類考えられる.一つは,同じ内容を名詞句と文章で 表現する場合,もう一つは,名詞句であっても異なる単語を用いて表現する場合であ る. まず前者の例として,「検査の立会」に関する表現を考える.これを名詞句で表現 する場合, 「witness test」 「test with witness」等の表現が考えられ,文章で記述する場合 は,「test n eeds w itness」等の表現が考えられる.しかし,これらの考えられる表現を 全て列挙するのは困難であるため,要注意箇所の抽出漏れが発生する可能性がある. これらの表現に共通して出現する「test」と「witness」をキーワードとして検索する ことも考えられる.しかし,文書閲覧ソフトのキーワード検索機能では,複数のキー ワードを同時に検索することはできない. 次に,後者の例として,「修復」に関する表現を考える.これには,「repair」「fix」 「replace」等,単一語句であっても様々な表現が存在する.しかし,これも同様の問 題点がある. これらの問題点を解決するには,複数のキーワードによる検索を可能とする技術が 必要である.その一例として,インターネットの検索エンジンが挙げられる.これは, 入力された1つ以上のキーワードに関連する文書を検索することが可能である[3].但 し,ユーザが列挙できなかったキーワードは検索できない. それに対して,連想検索を応用したシステムが存在する[4].これは,ユーザが入力 したキーワードを基に文書を検索し,検索された文書から更にキーワードを抽出し, 検索キーワードとして用いるものである.したがって,ユーザが列挙したキーワード 以外の類似キーワードでも検索が可能になる. しかし,要注意箇所をより的確に抽出するためには,入力されたキーワード同士の 関係や,キーワードの出現位置を考慮することが必要である.つまり,同じ文脈中に,. 2.2 解決方法. 前節で述べた問題点に対するアプローチを次に示す. (1) キーワード間距離を用いた評価ルールの構築 キーワードを組み合わせて要求仕様書を評価することによって,的確に要注意箇所 を抽出することを可能にする.また,キーワード間の距離を設定することで,キーワ ードが出現する範囲を限定し,キーワードを同じ文脈中で抽出できるようにする. (2) 数値とキーワードとの距離を用いた評価ルールの構築 数値を文字列として評価するのではなく,その数値の大きさを評価できるようにす る.また,数値の単位も複数の表現を可能とする.更に,数値とキーワードの組合せ も評価できるようにすることで,数値の意味を考慮して要注意箇所を抽出できるよう にする.. 2. ⓒ 2010 Information Processing Society of Japan.
(3) Vol.2010-NL-197 No.1 2010/7/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 3. 要注意箇所抽出機能の実装. ることが必要である. そこで,弊社の契約業務担当者へヒアリングを実施し,契約ナレッジを収集するこ とにした.ヒアリングの内容は,要求仕様書を読み解く上で注意すべきキーワードや 数値,それらが要注意である理由,契約時の注意事項,過去の失敗経験等である. ヒアリングは,過去の海外契約案件における回答書をベースに,その回答を返した 理由について担当者に自由に発言してもらった.この方法を用いるメリットは,下記 であると考えている. 回答書は必ず各担当者の契約ナレッジに基づいて作成されているため,この方法を 用いれば,その箇所が要注意だった理由を聞き出すことが容易となる.また,要注意 の理由を聞くことは,要注意フレーズの抽出にもつながるため,要注意箇所抽出ルー ルを作成する上でも効率がよい. 聞き漏らしが発生する可能性を考慮し,ヒアリング時の発言は録音し,この録音し た音声をテキスト化した.次に,そのテキストを読み解くことで契約ナレッジや要注 意キーワードを抽出してデータ化した.本システムで実装したルールは,表 1 に示す 4 種類である. 表 1 のルール 2 と 3 については,キーワード間またはキーワードと数値との間の語 数を指定することが可能である.また,ルール 3 については,”95% 以上”など数値に ついての条件を指定することが可能であり,更にその数値とキーワードと間の語数を 指定することが可能である.また,数値の単位を複数指定することが可能である.例 えば上記「95%」の場合,単位として「%」「percent」等を指定することによって,両 者の表現を抽出することが可能である.. 3.1 システム構成. 本システムの構成を,図 1 に示す.第2章で挙げた課題を解決するため,本システ ムでは,次の構成要素を実装した. 要注意箇所抽出ルールデータベース 要注意箇所抽出エンジン 要注意箇所抽出ルール編集 HMI 要注意箇所抽出ルールデータベースは,要注意となりうる表現を記述したものであ る.これは,要注意キーワードや数値,またはそれらの組合せによって構成されてい る.このルールをデータベースとして予め保持しておくことによって,要注意箇所を 一括で抽出することができ,結果を要求仕様書に重ねて一括表示することが可能であ る.これについては,作成の過程を含めて後述する. 要注意箇所抽出エンジンは,要求仕様書中でこれらの表現が存在する箇所を,要注 意箇所として抽出するものである. 要注意箇所抽出ルール編集 HMI は,要注意箇所抽出ルールの追加,削除,変更のた めの HMI である.. 本システム 編集HMI. 要求仕様書. 表 1. 要注意箇所 抽出エンジン. 要注意箇所 抽出ルール. 要注意箇所 表示 図 1. 1. 種類 単一フレーズ. 2. 2フレーズ間の 語数. 3. フレーズと数値 の間の語数. 4. 数値付語句. システム構成. 要注意箇所抽出ルール 指定項目 記述例と意味 フレーズ transfer date laws, reviewed, 10 フレーズ(2つ),フレーズ間の (「laws」と「reviewed」が 10 語数 語以内) purchase price, 95, %, >=, 10 フレーズ,数値,単位,演算 (「purchase p rice」と「95%以 子,フレーズと数値の距離 上の数値」が 10 語以内) RULE, 140, <> フレーズ,数値,演算子 (「RULE」の隣が「140」以外). 3.2 契約ナレッジの収集と要注意箇所抽出ルールの作成. 要注意箇所抽出ルールには,契約業務担当者が持っている契約ナレッジを反映する ことが必要である.また,回答書の作成においても,担当者の契約ナレッジを駆使す. 3. ⓒ 2010 Information Processing Society of Japan.
(4) Vol.2010-NL-197 No.1 2010/7/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 4. 要注意箇所抽出機能の評価. 3.3 要注意箇所抽出結果の表示. 要注意箇所抽出結果の表示例を図 2 に示す.右側のビューは要求仕様書の本文であ り,要注意箇所は,要求仕様書のテキストの色を変えて表示する.このように,キー ワード,数値の組合せによる要注意箇所抽出と,複数の要注意箇所の一括表示を可能 とした.これによって,要注意箇所の一覧性が増し,担当者の作業効率を向上させる ことが可能である. 図 2 では表 1 に示したルール 1~4 すべての表示例を示している.例えば, 「 purchase price」と「100%」という組合せが要注意箇所として抽出されているのがわかる.これ は,「purchase price」と「95%以上の数値」が 10 語以内に存在したら要注意,という ルールによって抽出された結果である.すなわち,「100%」という文字列が数値とし て評価されたことによって,要注意箇所として抽出された. 左側のビューは,要注意箇所の一覧を示す.このビューの要注意箇所を指定するこ とで,右側のビューにその要注意箇所を表示する.. ヒアリングで用いた案件以外の要求仕様書を用いて,要注意箇所抽出機能を評価し た.使用した要求仕様書は,海外への弊社製品の納入契約に関する案件である. 4.1 要注意箇所抽出ルールのチューニング. まず,抽出したルールに基づき,要注意箇所抽出を実行した.その結果,多数の要 注意箇所が抽出され,回答すべき要注意箇所をシステム画面上で識別しにくいことが わかった.また,回答書の作成は要注意箇所に基づいて実施することから,抽出され る要注意箇所が多くなると,回答書作成の効率が落ちる可能性がある.そこで,要注 意箇所抽出ルールのチューニングを図った. ルールのそれぞれについて,出現箇所数を調査した結果,ルール 1 で使用している キーワードの中に,要求仕様書中で大量に使用されているものが存在することがわか った.また,ごく一般的に使われるキーワードであり,重要と思われないキーワード が含まれていることがわかった.そこで,ルール 1 において閾値以上の個数が抽出さ れたキーワードや重要と思われない一般的なキーワードを,別のキーワードと組み合 わせてルール 2,数値と組み合わせてルール 3 へそれぞれ変更したり,ルールから外 したりした. これにより,要注意箇所抽出ルールを整理した結果,抽出された要注意箇所は 1 ペ ージに平均 1 箇所の要注意箇所となり,抽出箇所数としては妥当になった.. 数値と語句の組合せ 「purchase price」「100%」 ( 「purchase price」 と 90% 以上の数値が10語以内) 単一フレーズ 「transfer date」. 4.2 回答書との比較実験. 2つの語句の組合せ「laws」「reviewed」 (「laws」「reviewed」 が10語以内). 本システムで抽出した要注意箇所の妥当性を評価するため,実際に顧客に提出した 回答書と,本システムで抽出された要注意箇所と比較した.具体的には,回答書に記 載がある要注意箇所が本システムでも抽出されたかどうかを判定し,抽出に成功した 数をカウントした.それについて,図 3 を使って説明する. 図 3 において,左上のリストは,顧客に対する回答書である.回答書には,担当者 が抽出した要注意箇所とそれに対する自社の回答文が記載されている.例えば No.1 では,要注意フレーズが抽出されているので抽出成功,No.2 では要注意フレーズが抽 出されていないので抽出失敗としてそれぞれカウントする.これを,回答書に記載さ れている要注意箇所すべてについて実施した. 評価指標としては,再現率と適合率を用いた.再現率は,抽出すべき要注意箇所の うち何%が抽出できたか,適合率は,システムが要注意と指摘した箇所のうち何%が 本当に要注意だったか,という指標である. 結果を表 2 に示す.まず,前節で整理したルールを適用した.その結果,再現率は 24.0%となったため,更にヒアリングを実施してルールを追加した.これを適用して 2 回目の実験を実施した結果,再現率が 70.2%に上昇した.. 数値付語句 「RULE 144」 (「RULE」の隣に 140 以外の数) 要注意箇所一覧. 図 2. 要注意箇所の表示. 4. ⓒ 2010 Information Processing Society of Japan.
(5) Vol.2010-NL-197 No.1 2010/7/22. 情報処理学会研究報告 IPSJ SIG Technical Report. しかし,残りの約 30%は,要注意であるにもかかわらず抽出できなかったというこ とである.そこで,抽出できなかった約 30%の要注意箇所について調査した.その結 果,抽出できなかったのは,主に箇条書きや表のテキストデータであることがわかっ た.このような箇所では,前後に関連キーワードが出現することが少なく,ルール 2 や 3 による抽出が困難である.しかし,ルール 1 を用いると,ノイズが増えて適合率 が悪化する可能性があるため,ルール 1 は極力使用しないことにしていた.これが原 因で,抽出すべき箇所が抽出できなかったと考えられる.. では再現率を重視すべきであり,要注意箇所の約 70% が抽出できれば,契約業務支 援に有効であると考えている. 表 2. 要注意箇所抽出の評価結果 1回目 2回目 24.0% 70.2% 再現率 4.0% 4.5% 適合率. 回答書 No.. Section. 1. 1. Acquisition of Shares.. 2. 2. Right of Repurchase.. :. Requirements Payment in an amount equal to the Purchase Price of all Purchased Shares shall be made on the transfer date in cash or cash equivalents or by delivering to the Company Purchaser’s full-recourse 1 . The Right of Repurchase shall be exercisable only during the 60-day period next following the date when the Purchaser’s Service terminates …. :. :. 4.3 要注意箇所抽出ルールのメンテナンス. Comments. 前節では,要注意箇所の抽出結果を考慮してルールを追加したが,実運用において も同様のプロセスが必要である.システムの運用開始時に蓄積しているナレッジデー タが少なければ,その後,データを追加していく作業が必要になる.あるいは,技術 の進歩等に伴って要求仕様書の内容が変化すれば,要注意箇所も変わる.したがって, 要注意箇所抽出ルールは一度作って終わりではなく,追加・修正が必要である. 図 4 は,要注意箇所抽出ルールと要注意箇所との関係を示している.要注意箇所抽 出ルールの作成直後は,左側に示す関係であり,ノイズや取りこぼしは少ない状態で ある.しかし,そのままメンテナンスをしなければ右側に示す関係になり,ノイズや 取りこぼしが増えて,本当に抽出すべき要注意箇所のうち,抽出できる割合が小さく なる.. Please clarify what date is “transfer date”.. Repurchase shall be available during 90 days from the termination date. :. 担当者が要注意と した箇所. 要注意フレーズ「transfer date」を抽出 ⇒抽出成功. ルール作成直後. 要注意フレーズ抽出されず ⇒抽出失敗. 図 3. 要注意箇所. ルール. 一定時間の経過後 ルール. 要注意箇所. 回答書との比較. ノイズ. 取りこぼし 抽出成功. また,ルールを追加して再現率が上昇しても,適合率についてはあまり変化が見ら れなかった.つまり,ノイズの絶対数が上昇した.これは,同じ表現が複数の箇所で 使われることが多く,一つのルールで複数の箇所が要注意箇所として抽出されてしま うことが原因と考えられる. 一般的には,再現率と適合率はトレードオフの関係にあると言われており[5],どち らを優先するかはシステムの目的に依存すると考えられる.本システムは,契約業務 を支援し,要注意箇所の抽出漏れを防ぐことが目的である.したがって,本システム. 図 4. ノイズ 抽出成功. 取りこぼし. 要注意箇所抽出ルールと要注意箇所との関係. 要注意箇所抽出ルールのメンテナンス方法は,いくつか考えられる.例えば,ヒア リングを継続してルールを追加していく方法がある.しかし,一つ一つの契約案件に. 5. ⓒ 2010 Information Processing Society of Japan.
(6) Vol.2010-NL-197 No.1 2010/7/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 対してヒアリングを実施する負担は大きい.また,契約業務終了ごとに新たなルール を本システムに入力する方法が考えられる.しかし,契約案件が終わるたびにそのた めの時間を作る必要がある.担当者は,常に処理すべき契約案件を抱えているため, 担当者が毎回必ずそれを実施できるとは限らない.したがって,要注意箇所抽出ルー ルは,定期的にメンテナンスしていくことが必要であり,システムのユーザ側におい ては,そのための体制作りが重要である. 要注意箇所抽出ルールの追加・修正の際は,システムが抽出する要注意箇所数やノ イズの許容量を考慮する必要がある.4.2 節で示したように,ルールを増やせば,再 現率も増えるが,同時に適合率が低くなる可能性がある. しかし,ノイズの許容量を定量的に決めることは容易ではない.担当者の主観,表 示画面の見やすさ等も影響すると考えられる.まずは 4.1 節で述べたように,一般的 と思われるキーワードを可能な限り除いてルールを作成することが効果的であると考 える.. 5. おわりに 本報告では,英文契約書評価支援システムの開発について述べた.契約業務担当者 へのヒアリングにて契約ナレッジを収集し,要注意箇所抽出ルールを作成した.その ルールを適用した結果,要求仕様書の要注意箇所の約 70%を自動抽出できる見通しを 得た.要注意箇所の抽出漏れを防止するという目的を鑑みれば,有効な評価結果であ ると考えている.. 参考文献 1) 野口幸雄:ゼロから習得する“英文契約書の基礎知識”, 新社会システム総合研究所 ゼロ からの英文契約書実務セミナー資料,2009.2 2) (社)海外建設協会:海外建設工事の契約管理 第 3 部 クレームの実例,2001.11 3) 西田圭介:Google を支える技術,技術評論社,2008.3 4) 岩山真,今一修:汎用連想検索エンジン GETA を用いた特許連想検索システム,Japio 2007 Year B ook,pp.152-155,2007. 5) 大内浩仁,三浦孝夫,塩谷勇:ランダムプロテクションによるテキストストリームの検索, 電子情報通信学会第 15 回データ工学ワークショップ予稿集,3-C-02,2004.3. 6. ⓒ 2010 Information Processing Society of Japan.
(7)
関連したドキュメント
Keywords: continuous time random walk, Brownian motion, collision time, skew Young tableaux, tandem queue.. AMS 2000 Subject Classification: Primary:
Then it follows immediately from a suitable version of “Hensel’s Lemma” [cf., e.g., the argument of [4], Lemma 2.1] that S may be obtained, as the notation suggests, as the m A
This paper presents an investigation into the mechanics of this specific problem and develops an analytical approach that accounts for the effects of geometrical and material data on
The object of this paper is the uniqueness for a d -dimensional Fokker-Planck type equation with inhomogeneous (possibly degenerated) measurable not necessarily bounded
While conducting an experiment regarding fetal move- ments as a result of Pulsed Wave Doppler (PWD) ultrasound, [8] we encountered the severe artifacts in the acquired image2.
Actually it can be seen that all the characterizations of A ≤ ∗ B listed in Theorem 2.1 have singular value analogies in the general case..
• Informal discussion meetings shall be held with Nippon Kaiji Kyokai (NK) to exchange information and opinions regarding classification, both domestic and international affairs
2.-liability of Agro-K Corporation under this warranty or otherwise shall be limited to refund of the purchase price and such refund is expressly agreed by the buyer to be