高　橋和　子

(1)

の開発について

高橋和子

1．はじめに

2．自由回答法における処理・分析の手順 3．クリッペンドルフによる内容分析 4．知識ベース・システム

5．構造化支援システム

5．1 カテゴリー生成支援システム 5．2 コーディング支援システム 6．おわりに

1．はじめに

従来から，質問紙調査においては，自由回答を統計分析に積極的に利用することがほとんどなされていない。これは，自由回答が自然言語で表現された質的なデータで，構造化しにくいことが大きな理由であると思われるが，そのような技術的な問題以前に，統計分析のためには量的なデータを用いるのがよく，

質的なデータには仮説の示唆など別の用途があるとする考え方もある。

多段分析法と呼ばれるものがその代表的なものであるが，これによると量的なデータと質的なデータにはそれぞれに固有の持ち味があるはずで，両者はこれを活かした使い道をしながら結合を行ういわゆる多段式の分析こそ，確実で深みのあるものになるとされている1）。従って，ここでは質的なデータはあく

までも質的な世界にとどまって，量的なデータが示した統計的関連ないし相関の内的な説明や理解を助ける補助的役割を果たすことでその使命を終えてしまう。しかし質的なデータが一次データとしてこれらの情報を提供した後に，さらに構造化が行われ，より整理された形の二次データとして何らかの情報提供を行うことを期待してはいけないものであろうか。

(2)

104

ここで次の点に注意する必要がある。すなわち多段分析法で論議されている質的なデータとは，手記や文学作品などのように一つの分析単位内にストーリー性のある複雑な内容をもち，サンプルとして大量に手に入れることが難しいものを対象としており，質問紙調査における自由回答のように内容が比較的単純で，サンプリングにより大量のデータとして得られるものについては想定されていないことである。従って，多段分析法においては質的なデータが量的なデータのような統計分析を行えない根拠として，「代表性の保障のなさ」と「恣意性」という二つの弱点を挙げているが，自由回答の場合に，明らかに代表性の問題は当てはまらない。恣意性の問題も，質問紙調査において自由回答法と対立する立場にある選択肢法による回答と比較した場合，それほど強く主張できるものではないと思われる。なぜなら，選択肢法においては選択肢作成時に，

自由回答法においては回答解釈時にそれが存在するという違いに過ぎないと考えることも可能だからである。

実際，筆者達が1，018人に対して行った政治意識調査において，与野党の政治リーダーに対するイメージを自由回答法を用いて尋ね，それに対する回答か

らカテゴリーを作り出してその頻度を調べたが2），値の高かった30個を選んで S．D．法（意味微分法）の変数とした新たな調査では，因子分析の結果，3個

の有効な因子（Reliable Public Servant Factor， Competent and Decisive Factor， Effective Factor）を見つけることができた3）。

自由回答は，それが正しくサンプリングされた質問紙調査により得られた場合には，「代表性をもつ質的なデータ」として規定することができるため，回答解釈時の恣意性の問題は残されているものの，構造化を行って統計分析の対象とすることは有効であると考えられる。そもそも情報は構造化されてこそ意味を持つものではなかろうか。

しかしここで問題として残るのは，冒頭でも述べたように実際にカテゴリーを作り出したり，それに従ってコーディングを行う一連の構造化過程における作業の煩雑さである。自由回答は自然言語データであるために，一般的にその作業には多大な労力と時間を要し，複数の人数で行おうとすると今度はコーダー達を訓練する手間やコーディングにおける信頼性の問題が生じてくるのが現状

である。

ここで目を周囲に転じてみると，社会科学においては，従来から構造化されないデータを分析の対象とする研究技法が存在してきた。内容分析と呼ばれる

(3)

ものがそれで，最近，これを科学的手段として独自の方法論に高めるために，

クリッペンドルフによるきわめてシスティマティックな議論が行われている。

他方，コンピュータの世界においては，いわゆる人工知能研究である知識工学と呼ばれる分野が登場し，「知識」をコンピュータで扱おうとする研究が盛んになってきているという状況がある。

以上より，本稿では，自由回答法の構造化にこれらの観点を導入した「分析者のための支援システム」を開発することを検討する。すなわち，自由回答法の処理・分析における基本的な考え方をクリッペンドルフによる内容分析に依拠し，その構造化過程に知識工学の一分野である知識ベース・システムの概念を取入れて，コンピュータによる支援システムを開発することについての検討を行う。このシステムは分析者がカテゴリーを生成することを容易にし，コンピュータがある程度コーダーの代役を果たすことができるようにすることを目標するため，うまく稼働すればコーダー達の訓練は不要となり，コーディングの信頼性も向上するはずである。コンピュータを利用したこのような支援システムの開発により自由回答の利用が高まれば，その結果，質的なデータにおけるより洗練された技法の登場が期待できるものと思われる。

以下，次節で自由回答法における処理・分析の手順を述べて問題点を指摘した後，3，4節でクリッペンドルフによる内容分析と知識ベース・システムについて自由回答法における構造化の観点から概説する。5節では，以上で得られた知見に基づいて自由回答法における構造化支援システムの基本的な構想について述べ，最後に6節でまとめる。

2．自由回答法における処理・分析の手順

自由回答法における処理・分析の手順は，現在のところ定型化しているわけではないが，一応，次の5段階にまとめることができる。

（1）カテゴリーの生成

（2）コーディング

（3）頻度分析

（4）属性相関の計算

（5）多変量解析などの統計解析

このうち（1×2）は自由回答法を構造化する過程であり，（3×4×5）は（狭い意味での）分析テクニックに関係していて，両者はある程度独立に扱える。本稿の目

(4)

106

的から，今回は（1×2）のみの検討を行い，（3）以降については他稿で検討する。以下，（1×2）について簡単に説明しながら，問題となる点を挙げておく。

（1）カテゴリーの生成

カテゴリーは，自由回答全体を構造化するための分類基準となるものであり，

カテゴリーの生成作業とは，自然言語により表現されたデータ（自由回答）の中から分析に必要であると思われるキーワードをカテゴリーとして切出していくことである。キーワードはデータ中に存在するそのままのことばでもよいし，

より抽象的なことばでもよい。重要なことは次のコーディングを行いやすくするために，生成した各カテゴリーの意味内容を明確にしておくことである。1 サンプルから生成するカテゴリーが1個であるとは限らない代りに，無回答のものもあるために，最終的なカテゴリーの個数については全く予測がつかない。

カテゴリーの生成を行うためには，あらかじめそのためのデータとして，全サンプルから10％程度のサンプルをランダムに抽出しておく必要がある。もちうんカテゴリー生成のためには全サンプルを用いるのが理想であり，その手間を省いて一部のサンプルしか用いないためのリスクとしては，コーディングに対する十分な種類のカテゴリーが用意されない可能性がある。このような場合

には，コーディング段階に入ってから新しくカテゴリーを生成する必要が生じ，

作業が複雑になる。なお10％という数値は経験的に出てきたものであるが，サンプル数によってはもっと大きな比率にした方がよいかもしれない。前述した調査ではサンプルが1，000程度であり，カテゴリー生成のために100サンプルを用いたが，最終的に生成された全57個のカテゴリーのうちの48個（84％）がこれから生成されている。

ここでの問題点は，妥当なカテゴリーを生成するには試行錯誤的に行うしかないということである。さらに実際には，前述したようにコーディング段階に入ってから新たなカテゴリーの生成を行う場合もあり，時間的にも労力的にも負担が大きい。

（2）コーディング

本稿におけるコーディングとは，自由回答をどのカテゴリーに位置付けるかの決定を行うことを意味する。すなわち（2）は全サンプルの回答に対して（1）で生成されたカテゴリーの番号または記号をコーディングしていく作業である。

自由回答とカテゴリーの関係を非常に簡略化すれば，図2．1に示すようになる。ここで回答aはうまくカテゴリーAに対応している。回答bは対応するカ

(5)

自由回答カテゴリー a A b・ B

@ C

}2．1 自由回答とカテゴリーの関係

テゴリーが存在しない。回答cはカテゴリーAとBに対応する。この場合のコーディングは，回答aにはA，回答bには新しくカテゴリーCを生成してC，回答cには分析の目的や上記（3）頻度分析以降の分析のテクニックとの関係から A，Bのどちらか一つまたは両方をコーディングすればよいことになる。しか

し実際には，自由回答もカテゴリーも自然言語であるために多義牲や曖昧性があり，図2．1のように両者の関係がいつでもはっきりしているわけではないために，カテゴリーの意味内容を可能な限り明確に定めておいても，両者の対応付けが困難な場合が生じる。

ここでの大きな問題点は，回答にマッチしたカテゴリーを捜し出せるかということとそれに関連してコーディングの信頼性の問題である。最初の問題については，回答に対応する妥当なカテゴリーが存在しないと考えられる場合や回答がいく通りにも解釈できる場合に生じ，その解釈の仕方によりコーダー達がまちまちの判断を下す可能性が高い。コーダーが単独の場合でも，サンプル数が多い場合はコーディングに揺れが生じてくることがある。これらは結果として，コーディングの信頼性の低下を招いてしまう。

コーディングにおける信頼性については，クリッペンドルフはコーダー達の訓練を重視しており，記録作業説明書を定式化する必要性を説く。さらに，同一のデータを扱うコーダーを最低2人必要とし，お互いに独立に作業を行った後にコーディング結果の一致度を測定する必要性を主張するが，現実の問題と

して，優秀なコーダーを多数確保することやコーダーに対して十分な訓練を行うことは，かなり困難である。

この他，全サンプルを用いてカテゴリーを生成していれば起り得ないことであるが，上記カテゴリーCが生成されたような経緯で，コーディング段階に入ってから新しくカテゴリーが生成される場合もある。この場合，それまでこのカテゴリーが存在しないため別のカテゴリーにコーディングされていた回答がある得るために，もう一度全回答を見直す必要が生じることになり，作業がより複雑になる。

(6)

108

なおコーディングの後，各カテゴリーをダミー変数と考えて，該当カテゴリーであれば1，該当カテゴリーでなければ0としていけば，自由回答は1または 0の値からなる量的なデータに変換される。この変換は機械的に行えるため，

特に一つの段階として独立させず，コーディングの中に含めた。

3．クリッペンドルフによる内容分析

自由回答は質問紙調査におけるデータであることから，とかく選択肢法による回答と比較して論議されることが多いが，そこでは自由回答のもつ非構造性が非難されるばかりで，方法論に関する発展的な方向性が何もない。一方，ク

リッペンドルフは内容分析をこれまでの伝統的なものと区別するために，これをシンボリックな現象に対する分析であるとして「データをもとにそこから

（それが組込まれた）文脈に関して反復可能で（replicable）かつ妥当な（valid）

推論を行うための一つの調査技術である。」と定義している4）。彼によれば，メッセージのシンボリックな意味は多元的で唯一のものではなく，また必ずしも共有されるわけではないとしており，内容分析とはこれらを前提とせずに，メッセージの意味を探る（推論を行う）手段であるとする。

彼のいう内容分析（以下，単に内容分析と呼ぶ）は対象とするものの範囲が広く，言語データに限られていないが，構造化されていない素材をも受容する点や大量のデータにも対処可能であるとする点が，特に自由回答法における処理・分析の方法論を考えていくために有効であると思われる。内容分析と他の調査技術との比較について，図3．1に示す。

内容分析における手順は，次の通りである。すなわち，（1）データ作成，（2）データ変換，（3）推論，（4）分析の順5）で，（1）はさらに①分析単位の設定6），②サンプリング，③記録作業に分けられる（図3．2参照）。

このうち本稿に特に関係するのは，（1）データ作成の③記録作業部分である。

すなわちカテゴリー生成は（1）③の前半部，コーディングは後半部に相当すると考えられる。記録作業の前段階である①分析単位の設定や②サンプリングは，

正しくサンプリングされた質問紙調査のデータであれば特に問題とならないことは明らかである。

一般に記録作業は，対象とする現象が利用可能な方法で構造化されていないときにはいつも必要となるもので，内容分析における中枢的な部分である。記録作業のための記述装置，言い換えればデータが記録される用語をクリッペン

．

(7)

非露見性

@

情報検索 ■

モデリング

統計的資料の利用

ノ

@ ／実験1艶メ．ブイールド実験

ドロジー

質問紙調査法（選択肢法）一

@ 文脈感応性

∠ 1面接調査法

非構造性投影テスト

図3．1内容分析の経験的領域と他の調査技術の比較

（クリッペンドルフ，1989，pp，34を一部修正）

安定したデータ文脈関係に関する理論と知識一一一、

、

サンプリング利用図式計画

1 1 分析的

L録のための教示構成観念 1 1

生の（1）①利用観察

（1②サンブルグ（1③記録（2）弄タ変換（3）推論

1（4）分析 1

1

推測された現象に関する直接的証拠妥当性検証 ^ノ

図3．2内容分析の手ll頂（クリッペンドルフ，1989， pp．75を一部修正）

ドルフは「データ言語」と呼ぶが，自由回答法の構造化においてはカテゴリーがそれに相当する。データ言語は次の三つの要件を満たしていなければならない7）とされるが，それはそのままカテゴリーについても当てはまる。すなわち

（1）統語的な曖昧性や非一貫性から免れていること。

（2）適用可能であれという分析技法によってなされる形式的要求を満足しな

(8)

llO

ければいけない。

（3）興味のある現象について最終的であるほど，十分な情報を提供する記述能力を有していなければならない。

このうち，カテゴリー生成にとって（2），（3）は明らかであり，最も厳しい要請は

（1）である。なぜなら，（1）からカテゴリーは包括的（記録単位のすべてを表わすこと）かつ相互排反的（記録される諸現象の区別を明確にすること）でなければならないが，カテゴリーは自然言語であるためにこれらを完全に満たすことは困難であるから。

しかし，もしカテゴリーが（1）を完全に満たしていれば，形式言語になり得て，

そこに変数や定数の要素を考えることができる8）。ここで変数とはある概念次元内の記録単位における可変性を表わすような値をとるものであり，定数とは変数間の関係を特定する不変の操作的意味をもつものをいうが，カテゴリーを変数と考えると，本稿の場合，前述したように取り得る値は1または0の2値し

かない。将来的には，カテゴリーへの要請条件（2），（3）から，この値が3値以上または連続的に変化するような記録を行うことが必要となる可能性もあり得よう。

ところで前述したように，クリッペンドルフは研究結果が妥当であるためにはデータや分析過程のすべてが信頼できるものでなければならないとして，信頼性に対して厳しいチェックを設けている。信頼性には次の3種類すなわち安定性，再現可能性，正確性があるが，内容分析においては，安定性とはある過程が時間上不変で一定している程度のこと，再現可能性とはある過程を様々な状況や場所でコーダーを使って再生することができること，正確性とはある過程が事実上既知の基準に適合している程度あるいはこの過程がもたらすことになっているものをもたらす程度のことである）。これを表3．1に示す。

信頼性のタイプ信頼性の誤差の評定相対的な

確定条件強度

安定性テストー観察者の不整合性最も弱い

再テスト

再現可能性テストー観察者内の不整合性テスト観察者間の不一致

正確性テストー観察者内の不整合性最も強い基準観察者間の不一致

規範からの系統的偏差表3．1信頼性のタイプ（クリッペンドルフ，1989，pp．206）

(9)

コーディングにおける信頼性については，少なくとも再現可能であるべきであるというのがかれの主張であり，それを確保するための必要条件が，前節（2）

で述べたコーダーの作業方法に対する要請であった。その一致度の測定は，コーダーをm人と仮定して標準形や合致行列と呼ばれる2種類の行列を考案した上で，一致係数を厳密に定義して行う °）。

しかしこの考え方によると，コーダーの信頼性は一致度の高低と比例するために，能力的にはさほどでなくても似たもの同士がいるグループの方が，優秀なコーダーが一人いるグループより信頼性が高くなる可能性もあり得る。他の調査技術と異なり，自由回答の処理においては，コーダーは単に各データ（自由回答）をどのカテゴリーに割当てるかを判断するだけであり，観察者の役割まで果たす必要がない上に，対象とするデータもリアル・タイムにしか得られないわけではなく，文字データとして保存できるものである。従って，信頼性の観点からはコンピュータの効果的な利用を考えて，それによりコーダーを不要とできるような方策を立てる方が有効であると思われる。

内容分析におけるコンピュータ利用の可能性については，クリッペンドルフも両者の特性（内容分析については図3．1，コンピュータについては注11）を参照のこと）を挙げた上で，非構造的な資料を受入れる内容分析と分析者の知識をプログラムの形で展開する必要のあるコンピュータとは，表面的には相反するようであるが，結局は「インプットされるテクストに自分自身の構造を押

しつけるという点ではよく似ている」12）と指摘している。ただし，伝統的な内容分析はコーダー（人間）のもつ常識やシンボルの意味を解釈する能力に頼る

ことができるが，コンピュータではそれに代わるものとして適切なプログラム開発が必要であることは当然である。

よく知られているように，コンピュータの用途は統計解析や探索に向いているが，彼によれば，これらは内容分析がもつ推測を含んでいないために内容分析に特有の分析方法とはいえない。コンピュータが特に「処理すべきデータをとりまく社会的文脈のある側面」を「模倣したり，モデル化したり，再現したり，表象したりする場合」に限定したものを，「コンピュータ内容分析（com一 putational content analysis）」 3）と呼ぶ。

コンピュータ内容分析においては，辞書的，シソーラス的なアプローチと人工知能的なアプローチの二つが区別される。前者は「テクストの中で識別でき

る一つの語や一続きの短い特性の連鎖に重点を置く」14）もので，比較的単純な

(10)

ll2

理解型式でよく，本稿でいう自由回答法における処理・分析と類似する。特に WORDSシステム15）と呼ばれるものはその設計思想，すなわち研究者が分析にバイアスを持込む可能性がないように，テクストから枠組みを作り出すことを重視して，事前にカテゴリーを決定したくないとする点を同じくする。後者は，

人工知脳と内容分析が言語理解や不完全な情報に基づく知的な意思決定などについて共通の関心をもつことを基底にしており，コンピュータ内容分析の将来の可能性を示唆するものである。自由回答法における処理・分析にとっても次の課題となるべきものであろう。

4．知識ベース・システム

知識ベース・システムは，従来，情報の表現型式としては最も体系化されている段階である手続きや定型的データ集合にしか適用できなかったコンピュータを，言語的記述で表わすほかないような，より経験段階に近いものについても扱うことができるようにするための情報処理技術で，現在，

システムや自然言語処理における主要な技法となっている。その基本構造は知識獲得を行って「知識ベース」を作成した後，それを基に「推論機構」を働かせることで問題を解決することであり（図4．1参照），前述したコンピュータ内容分析の定義とうまく関連している。

知識ベース・システム

r 曹一一卿一一一一一一一゜一一一一゜一畳「

F 1 知識ベース

i ユーザ・インタ i

1 フェイス 1

i醗麟）i： 1L−一．．．一．．．＿一．．一一．．一．一．＿．一一」

推論機構

図4．1知識ベース・システムの基本構造（大須賀，1986，pp．18）

(11)

知識ベース・システムにおいて重要なことは，知識の獲得と表現の問題である。この場合の知識とは，一般的に推論の過程で利用あるいは参照される形式化された情報である。知識には浅い知識深い知識と呼ばれるものがあり，それそれ経験的なレベルの知識，基本的事実や一般原則を意味する。前述したよ・

うな経験段階における知識は浅い知識であるが，知識ベース・システムにおいては経験的規則をも許容するため，これを蓄積としていくことが知識の獲得と

なる。

知識の表現方法の代表的なものには，プロダクション・システム，述語論理 6｝，

意味ネットワーク17），フレーム・システム18）などがあるが，前二つはルール型，

後ろ二つはフレーム型と集約することもできる。また構造化された知識の必要性と演繹推論体系の確立性という二つの軸によりまとめると，図4．2に示すよ

うになる。

演繹推論体系確立合

「輪一゜扁霜欄鞘哨噛鱒r一軸一囎一一繭〇一「

1 ； 1階述語論剛

il織i i

l lモデル I 戟@ I I 戟@フレーム・ I l 1 オブジェクト l I 戟@ l l k＿＿＿＿一＿＿＿＿＿1＿＿＿一＿一＿＿＿＿」

号

演繹推論体系未確立

図4．2 各知識表現法の位置づけ（大須賀，1986，pp．53を一部修正）

自由回答法における構造化において，コーディング段階にうまく知識ベース・

システムの適用を行うことができればコーダーを不要とできそうである。知

(12)

114

識の表現方法は一意に定まるものでもなく，その獲得や利用などの各局面において同じ方法である必要性はないが，本稿で対象とする自由回答の内容は比較的単純で，当面はコーディング段階にシーンやストーリーを理解するほどの知識は必要ないこと，かといって三段論法のような厳密な知識ではうまぐいかないことなどから，一応，プロダクション・システムを適用して検討することとした。プロダクション・システムを他の知識表現方法と比較すると，相対的に知識のモジュール性が高いこと（図4．2参照），ルールの意味がわかりやすい

こと，構造が簡単であることなどが長所として挙げられる一方，ルール

ルールベースの個数がふえるにつれて推論効率が

落ちること，知識問の関係や相互作

IF（前提部）

sHEN（結論部）

用を記述しにくいなどの面がある。

以下，プロダクション・システムに

ついて詳細に述べよう。（インタプリンタ）推論機構

プロダクション・システムはルールによって知識を表現するもので，

基本的に図4．3のような構成からなワーキング・メモリ

る。「ルールベース」は前述した知ｯベースであり，「IF（前提部）TH

（グローノxVレ・データベース）

EN（結論部）」の形で記述されたルー

ルを格納する場所となる。「推論機図4・3プロダクション・システムの構成

（大須賀，1986，pp．21を一部修正）構」は大別して前向き推論と後ろ向

き推論があり，ルールを選択して適用し，目的とするゴールを生成または検証する推論を行う。ここで前向き推論とはデータ駆動型推論またはボトムアップ推論とも呼ばれるが，データから出発してゴールを捜す（生成する）推論法である。エキスパート・システムにおいてはいわゆる分析型の意思決定を行うために用いられる。後ろ向き推論はこれとは逆にゴール状態から出発し，サブゴールを作りながら最終的に仮説が満たされるかどうかを検証する推論を行うもので，ゴール指向型推論またはトップダウン推論と呼ばれる。「ワーキング・メモリ（グローバル・データベース）」はプロダクション・システムの状態を保持する詑憶領域で，その内容がルールの前提部を満たしていれば，ルールの働きにより結論部の動作が実行されて内容が書換えられる。この処理プロセスは，

(13)

パターン・マッチと呼ばれる。

プロダクション・システムの開発は，直接LISPなどのプログラミング言語から行うこともできるが，一般にOPS5やそのバージョン・アップ版であるOP S83などの知識表現言語とよばれるものを用いた方が行いやすい。またその実用化に際しては，エディタ，デバッカなどのユーザー・インターフェイスも極めて重要であることはいうまでもない（図4．1参照）。

5．自由回答法における構造化支援システム

以上，クリッペンドルフの内容分析とプロダクションシステムについて，自由回答法における構造化の観点から述べてきた。これより，自由回答法における構造化支援システムは基本的には次のように構想されよう。すなわち，分析者がディスプレイ上でコンピュータと対話を行いながら試行錯誤的にカテゴリーを生成した後は，そこで用いられた知識を基に，コンピュータが自動的に回答のコーディングを行っていく。最後までコーディングされずに残ったものについては，分析者の手でコーダーがなされる。

ここで分析者をカテゴリーの生成やコーディングにおける意思決定者とみると，構造化支援システムは意思決定支援システムであるとも考えられる。この場合，システムの目的は機械的にできることはコンピュータに代用させて，意思決定者が高度な推論部分だけに関わりながら，思いのままの解を容易に得ることができるような環境を作り出すことである。以下では，自由回答法における構造化支援システムを，カテゴリー生成支援システムとコーディング支援システムに分けて述べる。

5．1 カテゴリー生成支援システム

前述したように，自由回答は自然言語データであるために，カテゴリーがデータ言語として要請されること，すなわち統語的な曖昧性や非一貫性から免れていることという制約を完全に満たすことは実際問題としてかなり困難である。

試行錯誤的に生成を行っていき，分析者が満足できた時点で終了とするのが最善で自然な方法であろう。従ってカテゴリー生成支援システムとしては，分析者がそのような判断を行いやすい環境を作り出すものであることが目標となる。

そのために最低限必要な機能としては，各カテゴリーの意味内容が即座に提示できること，逆に各回答がどのカテゴリーに対応しているかが即座に提示でき

(14)

116

ることなどが考えられる。これらはもし途中でカテゴリーの意味内容が変更された場合でも，うまく機能することが必要である。

ところでカテゴリーの意味内容を定義することは，記録作業における焦点であり，これが適切に行われているかどうかで次のコーディング作業の行いやすさが決まる19）。カテゴリーの意味内容を内包的に定義することは困難なため，

本稿では外延的にリスト・アップしていく方法を取ることにする。すなわち，

各カテゴリーを生成する段階で用いたデータ（自由回答）をそのままそのカテゴリーの意味内容の定義として利用する。その際に回答とカテゴリーをなんらかの方法で結び付けておけば，前述したような機能をもつことになって便利で

ある。

以上より，カテゴリー生成支援システムとしては次のようなものが想定される。ただし，（）内は必要とされるソフトウェアを示す。

①あらかじめカテゴリー生成用のサンプルにおける自由回答をそのまま文字データ（以下これを生データと呼ぶ）として入力したファイルを作成しておく。（エディタ）

②生データを一つ一つディスプレイ上で見ながら適当なカテゴリーを生成し，カテゴリー用のファイル上に書込んでいく。この時，もし特にコメントとして残したいことがあれば，コメント用のファイルに書込んでいく。

この場合，ディスプレイには生データ用とカテゴリー用の二つのウィンドウに加えて，コメント用のウィンドウも表示されている。（ウィンドウ）

③②を行っている途中で，カテゴリーの意味内容を調べる必要がある時は，

そのカテゴリーをクリックすれば，それを生成するのに用いた生データがすべて引出されてきて表示される。逆に，ある生データからどのようなカテゴリーが生成されたかを知りたい時は，その生データをクリックすればカテゴリーが表示される。（データベース）

④ このような作業を試行錯誤的に繰返してすべての生データを検討し，分析者の満足が得られればカテゴリー生成は終了する。

この支援システムをコンピュータ上で実現するには，次の三つの機能，すなわちエディタ機能，ウィンドウ機能，データベース機能が必要で，これらがお互いにうまくリンクする必要がある。さらに自由回答は文字データであるため

に，日本語をサポートしたシステムでなければならない。

ところで前述したように，カテゴリーをダミー変数と考えると，現時点では

(15)

その取り得る値は1または0の2値しかない。分析の目的により，将来この値が3値以上または連続的に変化することが必要とされるような場合には，デー

タとカテゴリーの結び付け方をより複雑にしたシステムに変更する必要があろ

う。

5．2 コーディング支援システム

コーディングはカテゴリー生成に続くもので，カテゴリー生成段階で獲得した知識を生かして行う。前述したように，本稿ではコーディング支援システムにプロダクション・システムの導入を考えているが，知識ベース・システム全体の現状を考慮すると，現段階におけるコーディング支援システムとしてはコーディングをすべてコンピュータで行うより，機械的に行える部分のみコンピュータに代行させ，残された複雑な判断は分析者が行うシステムとした方が有効であり，実現しやすいものになると思われる。

コーディング支援システムとしてまず次のようなものを想定する。

①ルールベースに対する知識の獲得として，あらかじめカテゴリーとその意味内容を「IF（カテゴリーの意味内容＞THEN（カテゴリー番号）」の形で結び付けたルールを多数作り，ルールベースに蓄積しておく。これはカテゴリー生成段階での状況を保存しておいて，プログラムにより「IFT HEN」ルールに書換えればよい。プロダクション・システムにおいては知識のモジュール性が高く同質であるために，このプログラムの開発は不可能であると思えない。

②データ（自由回答）はすべてワーキング・メモリに読み込んでおく。ワーキング・メモリにあるデータはルールにおける前提部（カテゴリーの意味内容）として書かれたものと理解される。

③ルールベースに基づいて前向き推論を行い，マッチしたカテゴリーを捜し出し，そのデータについてはカテゴリーに書換えていく。プロダクション・システムは可読性があるために，出てきた結論の意味はわかりやすいものになるはずである。

④ コーディングを行っている段階でカテゴリーに関して何らかの変更が生じた場合には，ルールベースを変更して最初から推論をやり直す。

⑤ うまくマッチしなくて最終的にワーキキング・メモリに残ったデータについては，人間の方でカテゴリーを捜し出して書換える。その際，それを

(16)

118

新しく「IF THEN」の形でルール化してルールベースに追加しておけば，

次回からはコンピュータが判断してくれる。

コーディング支援システムは，カテゴリー生成支援システムと異なり，人間が扱う知識を対象とする知識ベース・システムを採用する関係上，いくつかの問題点を含んでいる。

その一つは，マッチ後の競合の解消をどのように行えばよいかということである。単純には，最初にマッチしたものを選ぶことにすればよいが，回答が複数個のカテゴリーに対応する場合はそのような方法ではうまくいかないことは明らかである。自由回答が自然言語データであることを考えると単純に決めに

くい問題である。

二番めは，⑤でカテゴリーが捜し出せない場合に人間が新しくルールを作成するが，それとそれまでに作成されていたルールが衝突する可能性がないとはいいきれない。すなわち対象とするデータによっては，単調に知識がふえていくと考えてもよい場合だけではなく非単調の場合もあると思われるが，その場合の整合性をどのように考えていけばよいか。

三番目は，パターン・マッチの方法である。プロダクション・システムにおいては，③の「IF THEN」ルールにおいてワーキング・メモリ上の「カテゴ

リーの意味内容」部分は前提部とパターンとして一致した場合しかマッチしたとみなされない。もちろんパターン・マッチだけでもできれば，コーディングのかなりの部分をコンピュータが代行してくれるものと思われるが，将来的には，これを文字どおりその意味内容（属性）が合っていればマッチできるようにした方が，より利口なコーダーの役割を果たすことになるであろう。松尾・

内野（1991）は，テキストベース検索を従来のキーワードによらず，一般的なシステム辞書の他に分野別辞書を作成して意味属性に基づいて行う方式を提案しているが，これをプロダクション・システムに取入れることができないものであろうか。もし可能なら，松尾のいう検索指示文を自由回答，検索対象をカテゴリーとして，サンプルから収拾した回答からだけでなく分析者がもつ知識

も動員して，分野別辞書を作成しておくことが必要となる。

コーディング支援システムは以上のような問題を持つが，最初は問題を非常に単純化してでもまず開発し，それを実際に稼動させて知識ベース・システムの限界や拡張性を理解し，少しずつ機能を追加していく方向で考えるのがよいように思われる。その結果，プロダクション・システムだけではなく他の知識

(17)

表現方法を併せて採用する可能性もあり得るであろう。基本的方針は持ちつつも，システムの開発自体をある程度，試行錯誤的に行うしかないと思われる。

6．おわりに

本稿では，質問紙調査で得られる自由回答の構造化を支援するシステムの開発について検討した。これにより，質的なデータのもつ情報の「深さ」をある程度保ちつつ，整理された形でつかむことの可能性を示せたのではないかと思われる。しかし，実現に当ってはハードウェアとソフトウェアの問題があり，

特にコーディング支援システムにおいてはさらに詳細な検討を必要とする。

最後に，カテゴリー生成支援システムの構想に関して，小山照夫学術情報センター助教授に貴重な助言をいただいたことを記して謝意を表する。

注

1）見田（1965），pp．167−202による。

2）詳しくは高橋（1991a）を参照のこと。

3）詳しくはFeldman（1991）およびフェルドマン（1992）を参照のこと。

4）クリッペンドルフ（1989），pp．21による。

5）さらに（5）直接的な妥当性の検証，（6）他の方法との結果の一致の照合，（7）

その他のデータに関する仮説の検証と続く。

6）クリッペンドルフは，分析の対象とするデータの形態が非構造的な場合にも対応できるように，分析単位をサンプリング単位，記録単位，文脈単位の3種類に区別する。サンプリング単位とは，観測された事実や実際の言語表現のうち，互いに独立

（互いに関連のないことや順序づけられていないこと）とみなせる部分のことをいい，

サンプリングとの関係が深い。記録単位とはサンプリング単位があまりにも大きい時に別個に記述されるもので，一つのサンプリング単位の中で別々に分析可能な部分とみなせる。集計量としてサンプリング単位内の情報を伝達して，分析の基礎を提供する。文脈単位とは，記録単位の記述に取込まれる文脈的情報の範囲を設定するものをいう。質問紙調査における自由回答の場合，一つのサンプルがサンプリング単位であり，記録単位であるとみなすのが自然である。

7）クリッペンドルフ（1989），pp．126−129による。

8）クリッペンドルフはさらに統語論や論理の要素も考えており，データ言語をax＋

b＝cなる代数式で表記できるとする。ここで統語論とは，その規則が変数や定数

(18)

120

から形式の適格な記録を構成することを支配するようなものをいい，論理とはどの記録がお互いを包含するのかあるいは等価であると考えられているはずなのかを決定するものをいう。しかし自由回答法の処理・分析においては，統語論も論理も欠如しているといえる。

9）クリッペンドルフ（1989），pp．202−208による。

10）標準形とは次に示すような（m，r）型の行列である。ただしk、、はj番目のコーダーによるi番目の記録単位を表わす。標準形の下にある行列は，カテゴリーkが列i で生起する度数nkiおよび表全体の中のカテゴリーの度数nk．を表わすものである。

記録単位．

1 2 ・・・ … ゴ … 7

1 ^々ゴ亘

2● 々ゴ2

：コーダーノ ●

●

X・」々2」・・・ … 馬 … 島 ●

規 ^々翻

● ● ■

●

@ ■ Jテゴリー々

@ ●

●

@ ■

ﾅ爵菖ηゐ2 ° ° 鳶ゴ・・ ηん7

@ ●

● ● ●

π．．＝ΣΣη如＝，物

鳶ゴ

図注1 標準形（クリッペンドルフ，1989，pp．213）

一般に，一致度αは不一致の期待値をD，，観察値をD。とすると α＝1−D。／D。

で定義できる。

標準形の場合，D。は列内の対の個数をPWC，列内の差をDWCとすると

D。＝DWC／PWC

ただし

(19)

DWC＝ΣΣΣnb、n，idb。， PWC＝rm（m−1）

（ここでbc対は本稿の場合，任意の二つのカテゴリーの組 db。は両者の差を表

わす。）

同様にPWC， DWCを行列全体で考えたものをそれぞれPT， DTとすると

D，＝DT／PT

ただし

DT＝ΣΣnb．n，．db，， PT＝rm（rm−1）

以上より，

α＝1−（rm−1）（ΣΣΣnb、n。、db，）／（m−1）（ΣΣnb．n、．db，）

合致行列はbc対の個数からなり，コーダーと記録単位への言及を含まないもので，次に示すような行列である。

@ δ

●

@ ■

@ ●

@ ■

@ ●

E ・ … XbC ・・。・・ …

@ ●

@ ■

@ ●

o●

xδ．・・・・・ … X．．＝ΣΣXb。嗣γ吻伽一1）

δ c

図注2 合致行列（クリッペンドルフ，1989，pp．221）

ここでXb，はさまざまなbc対の個数で，

Xb、＝Σnbi（n、、一△b，）

＼

(20)

122

ただし△b、はクロネッカーのデルタであり，

△bc＝ol ll；1≦：

また信頼性全体で考えたrm（m−1）個対の総数Wb。を Wb，＝nb．（n，．一△b、）㌧

とするとWb，からも合致行列と同様な行列を作成できる。

結局，合致行列の場合の一致度αは α＝1−D。／D，

＝1−（rm−1）（ΣΣXb。db。）／（m−1）（ΣΣWb。db，）

ll）クリッペンドルフ（1989），pp．184による。

①大量のディジタル・データが順次コンピュータに読み込まれる。

② これらのデータの内的特性に関して定義できるような論理的・代数的な操作が高度で実行されること。

③ このような操作の実行は，コンピュータの「行動」を決定，制御し，したがってコンピュータの働きに関する完全な理論あるいは表象と同等であるようなプログラムによって指定されている。

④計算のプロセスは一意的に決定され，したがって完全に信頼できる。コンピュータの内部ではいかなるあいまいさや不確実さも許容されない。

12）クリッペンドルフ（1989），pp．186による。

13）同上，pp．192による。

14）同上，PP．193。

15）心理療法の面接データを内容分析するために，1975年Ikerにより開発されたシステムである。アプリオリな語彙分類を回避する点に特徴がある。

16）述語論理は通常，1階述語論理と呼ばれるものを指しており，形式が整っていて厳密であることが特徴である。すべての知識ベース・システムの基礎となるが，問題領域に即した場合のモデル化や知識の記述などを行うには不向きな面もある。論理

を扱えるようにした時相論理も考えられている。

17）意味ネットワークは，知識の組織化を行うために，概念を表わす「節点」と概念間の関係を表わす「枝」からできたネットワークで，ネットワークを探索したり操作するアルゴリズムをもつものの総称であり，次の4種類がある。a）連想重視のもの。b）推論重視のもの。 c）語の意味を表現するもの（a）と似ている）。 d）演

(21)

繹的な推論以外の知識も表現するもの（b）の発展形で，フレームなどと似ている）。

18）フレーム・システムはM．Minskyのフレーム理論に基づく知識表現による知識ベース・システムをいう。フレーム理論とフレーム・システムは，前者が認知科学概念の考察が中心であり実現法に関しては議論されていないのに対して，後者はコンピュ一タ上で具体化されたシステムであるために，区別される必要がある。フレームは物体や状況などの対象を一定の枠組み（frameWQrk）で表現するためのデータ構造である。各フレームは，スロットと呼ばれる構成要素からなる。

19）この点を重視した研究例として「世界の歴史教科書に見られる自国イメージ他国イメージ」（伊藤（1986））がある。世界10力国で用いられている教科書の内容を分析するために，「対象評価分析」なる方法をコードブックにまとめ，コーダーに対して

きわめて詳細かつ具体的に説明している。

参考文献・引用文献

1）Feldman，0．（1991） Mr． Clean， Miss Vision， and the Youngsters：

Im、ages of Political Leaders by the Japanese Paper Presented at the 14th World Congress of International Society Political Psychology，

Helsinki， Finland， July，1991

2）フェルドマン・オフェル（1992）『イメージで読む永田町』未来社 3）後藤滋樹（1984）『PROLOG入門』サイエンス社

4）伊藤陽一（1986）「世界の歴史教科書に見られる自国イメージと他国イメージー韓国，中国，日本の場合を中心に一」辻村明他（編）『世界は日本をどう見ているか』日本評論社pp．168−186

5）情報処理学会（編）（1987）『知識工学』情報処理学会

6）小林重信（1987）「多目的意思決定一理論と応用一VI」『システムと制御』Vol．31，

No．4 PP．41−51

7）クラウス・クリッペンドルフ（1989）『メッセージ分析の技法』（三上俊治他訳）頸草書房

8）松尾比呂志・内野一（1991）「意味属性に基づくテキストベース検索方式」『情報処理学会論文誌』Vol．32， No，9 pp．1172−1179

9）見田宗介（1965）『現代日本の精神構造』弘文堂

10）宗森純・長澤庸二（1991）「知的生産の技術カードとKJ法の計算機i上での融合」

「情報処理学会研究報告（人文科学とコンピュータ）』Vol．91， No．44 pp．1−6

(22)

124

11）中山弘隆（1988）「対話型多目的計画法一方法と応用」『オペレーションズ・リサーチ』Vol．33， No．8 pp．375−381

12）大須賀節夫（1986）『知識ベース入門』オーム社

13）大須賀節夫・佐伯絆，（1987）『知識の獲得と学習』オーム社

14）柴山悦哉・桜川貴司・萩野達也（1986）『Prolog−1（ABA入門』岩波書店

15）高橋和子（1991a）「自由回答に関する考察一政治リーダーに対するイメージ調査より」『現代日本社会経済研究12』

16）一一（1991b）「自由回答についての一考察一イメージ調査のデータを用いて一」『1 991年春季研究発表会アブストラクト集』日本オペレーションズ・リサーチ学会pp．

114−ll5

17）上野春樹・石塚満（1987）『知識の表現と利用』オーム社 18）上野春樹・小山照夫（1988）『エキスパートシ，ステム』オーム社

（本稿は，文部省科学研究費「一般研究（C）」（萌芽）『社会調査データにおける自由回答のカテゴリー自動生成システムの開発』（平成3年度）に基づく成果の一部である。）

高 橋和 子

@ C

il織i i

D。＝DWC／PWC

高　橋和　子