(3)コード体系変更への対応
同一コード体系内での修正は上記(2)で対応できるが、これまでとは異なるコード体 系が用いられる場合は、訓練事例全体を変更する必要がある(5.1.2節を参照のこと)。
これまで用いられてきたコードと新規のコード間の対応関係が簡単なる場合は問題が少 ないが、そうではない場合には、新規の訓練事例が必要なため、これがない場合には、訓 練事例を生成するための正解付きの事例を用意する必要がある。
(4)利用方法の再考
現在は、システムの利用方法を、「システム自体を公開し、利用者自身がシステムをダ ウンロードして実行する方法」とはしていない。昨今のICTに関する知識の高まりをみる と、利用者がソフトウェア環境を整えることはそれほど困難ではないかもしれないと考 え、参考のために4節で説明を行った。しかし、利用者個々のコンピュータ環境(OSの バージョンの違い)まで含めたサポート体制は実現不可能であり、今後の課題としたい。
(5)データの質の向上
この問題はどの分野においても重要な課題であるが、職業・産業コーディングの場合 は、特にコンピュータに入力された自由回答の情報がコードの決定に大きく影響するた め、過不足のない内容をもつ自由回答を収集することが必要になる。自由回答にコードを 決定するための情報が存在しない場合には、正確なコーディングができないだけでなく、
作業効率が低下し、コーダもストレスを感じるであろう。
問題は、何が必要な情報なのかを、コードの内容を熟知していない回答者や調査員には わからないことである。そこで、最近では、よくあるケースについては、注意事項をあら かじめ調査票に記載したり、調査員へのインストラクション時に喚起したりすることも行 われている。例えば、自由回答に「営業」としか書かれていない場合、「557」(営業事 務)なのか「573」(外交員(保険、不動産を除く))なのか判断しにくいため、「営業」な る回答には、続けて、内勤か外勤かも尋ねるように指示されることが多くなった。
このようにして、調査の現場で回答者自身から必要な情報を収集できれば、アフターコ ーディングが正確かつスムーズにいく可能性が高まる。しかし、すべてのコードに対して このような指示を与えるのは困難であり、調査員の負担も大幅に増えることになる。職 業・産業コードをすべて選択肢として提示する方が、むしろ双方とも負担が少ないのでは ないかという議論になりかねない。
そこで、「調査現場にコンピュータを持ち込んで回答を入力し、コードを決定するため に不足している情報があれば、その場で追加質問をして情報収集を行うシステム」(図6-1 参照)の構築を計画している。
このようなシステムが開発できれば、調査現場でデータの電子化が行えるため、副次的 な効果として、職業や産業に関するデータについては、入力作業が不要となる。また、こ
れまでのように、調査員が調査票に回答を書き込む場合は、漢字と平仮名またはカタカナ が混在する語の問題や誤字・脱字の問題が避けられないが、直接、コンピュータに入力す るのであれば、漢字変換が行えるため、これらの問題が減少することが期待できる。融通 のきく人間と違い、コンピュータによる自動化処理を行う本システムにとっては、この改 善は形態素解析の成功率を向上させる効果があるため、精度の向上に大きく貢献する。
図6-1 職業・産業コーディングにおけるデータの質の向上(案)