• 検索結果がありません。

システムの更新

ドキュメント内 職業・産業コーディング自動化システム (ページ 38-42)

訓練事例に追加する正解付き事例の入力ファイル形式は、図1-4で説明した入力ファイ ルの右列に正解を付けたものである。正解を付ける列はコードの種類によって異なる。

SSM職業コード用訓練事例はG列、SSM産業業コード用訓練事例はH列、ISCO用訓練 事例はI列、ISIC用訓練事例はK列をそれぞれ使用する。使用しない列は、空欄のまま にしておく。一度に複数の列を使用してもよく、4列をすべて使用して、4種類の訓練事 例を一度に更新することも可能である。

例えば、既存のSSM職業コード用訓練事例に、新規に正解付き事例を追加したい場 合、まず図5-2のように、G列に正解を入れた入力ファイルを用意する。次に、システム を立ち上げて図5-1を表示し、図5-3の手順を踏めば、図5-2が訓練事例に追加される。

既存の訓練事例は一世代前まではバックアップが取られる。

A列 B列 C列 D列 E列 F列 G列 H列 11 10 9 保険会社の支店 保険会社の事務 11 559 12 12 8 会社の売店 販売員 8 569

62 9 7 夫の社会保険事務所 社会保険事務所の総務、経理 3 554

289 9 10 農業 野菜を作っている 2 599 465 9 1 訪問介護事業 訪問介護の経営、介護福祉士 4 801

図5-2 入力ファイルの例(SSM職業コード用訓練事例追加の場合)

Updateボタンを押す → 訓練事例生成を確認するためのOKボタンを押す

→ Openボタンを押して入力ファイルを指定 → 職業のSSM欄にチェック

→ Updateボタンを押す

図5-3 訓練事例追加の操作(SSM職業コード用訓練事例の場合)

訓練事例追加処理の過程で、追加する正解付き事例に素性辞書にない単語が出現する と、どれも「200,000」なる番号が付けられるため、新出単語が増えるにつれ、システム の精度が低下してしまう可能性が高い。そこで、Version8.1(未公開)では、訓練事例を 追加する際に素性辞書にない単語が出現すると素性辞書に登録することで、素性辞書の自 動更新も同時に行うことができるようにした。1回の訓練事例追加処理の最中に、再度そ の単語が出現した場合は、すでに登録されてあるため、該当する素性番号に変換される。

なお、訓練事例を追加する際に注意すべき点として、追加したい訓練事例が既存の訓練 事例とコード付与のルールが大きく異なるような場合、訓練事例のサイズが拡大される効 果は期待できず、むしろ精度が低下する可能性の問題がある。

5.1.2. 訓練事例全体の差し替えまたは新規追加

職業や産業のコードは、これまでは表1-1に示したものが用いられることが多かった。

しかし、今後は別のコード体系を利用する場合も出てくるであろう。もし、利用するコー ド体系と表1-1のコード体系との間の対応関係が簡単であれば、両者の対応表を作成して おき、現行のシステムで処理を行った後に対応表によるコード変換を行えばよい。しか し、これがむずかしい場合には、利用する訓練事例全体を変更する必要がある。

この場合は、新規の訓練事例が必要で、これを生成するためには、正解の付いた事例が ある程度大量にあることが条件となる。もし正解の付いた事例が少ないまたは全くない場 合は新たに正解を付ける必要があり、このための人手と時間がかかる。いったん正解付き 事例が用意できれば、これを訓練事例として生成する作業は自動化されており、容易であ る(図5-1において、既存の訓練事例が空である特殊な場合と考えればよい)。

新規に生成された訓練事例全体を既存のものと変更する方法は、現時点では、差し替え を行うしかない。現行のシステムは操作の容易さを優先し、実行時に訓練事例を指定しな くてよいようにしたため、利用する訓練事例のファイル名を固定している。したがって、

新たに利用する訓練事例のファイルに現行のファイル名を付けて利用する。

しかし、この方法は自由度に欠けるため、現在、システム操作用初期画面に複数種類の 訓練事例を表示し、その中から選択できるように改良中である。システム操作用初期画面 は、Version8.1(未公開)においても、職業の場合、「SSM」と「ISCO」のみが表示され るが(図5-1参照)、例えば、「SSM(95年版)」「SSM(15年版)」「ISCO-88」「 ISCO-08」のように複数種類を表示し、チェックが付けられた訓練事例を生成することを目指し ている。

これは、自動コーディング処理においても同様のことがいえるため、次には自動コーデ ィング処理における改善も予定している。

5.2. シソーラスの更新方法(ルールベース手法)

自由回答にこれまでは出現しなかった語が登場した場合、既存のシソーラスには存在し ないため、この語がもつ情報が活かされない。機械学習における素性辞書と同様に、精度 向上のためには、ルールベース手法におけるシソーラスも随時、更新していく必要があ る。

本システムはこれを支援する機能を特には備えていないため、手作業で行う必要がある が、述語シソーラス(図2-9参照)と名詞シソーラス(図2-10参照)はいずれもテキスト 形式のファイルであるため、更新作業は容易である。

本システムでは、訓練事例の場合と同様に、利用するシソーラスのファイル名を固定し ているため、更新したシソーラスファイルに現行のシソーラスのファイル名を付けて差し 替える必要がある。

5.3. ルール辞書の更新方法(ルールベース手法)

ルール辞書の更新は、次の2つの場合に必要になる。

一つは、新しい語が出現したとき、シソーラス、特に述語シソーラスにおける新規の述 語コードを追加し、これに対するSSM職業/産業コードを決定するルールを追加する場 合である。

もう一つは、新しくSSM職業/産業コードが作成されたとき、これを決定するルール を既存の述語コードと対応させながら追加する場合である。

本システムはこれを支援する機能を特には備えていないため、手作業で行う必要がある が、職業ルール辞書α(図2-12参照)と産業ルール辞書(図2-13参照)はいずれもテキ スト形式のファイルであるため、更新作業は容易である。

本システムで利用するルール辞書もシソーラスの場合と同様にファイル名が固定されて いるため、更新したルール辞書ファイルに現行のルール辞書のファイル名を付けて差し替 える必要がある。

ドキュメント内 職業・産業コーディング自動化システム (ページ 38-42)

関連したドキュメント