• 検索結果がありません。

高 橋和 子

N/A
N/A
Protected

Academic year: 2021

シェア "高 橋和 子"

Copied!
22
0
0

読み込み中.... (全文を見る)

全文

(1)

の開発について

高 橋和 子

1.はじめに

2.自由回答法における処理・分析の手順 3.クリッペンドルフによる内容分析 4.知識ベース・システム

5.構造化支援システム

5.1 カテゴリー生成支援システム 5.2 コーディング支援システム 6.おわりに

1.はじめに

従来から,質問紙調査においては,自由回答を統計分析に積極的に利用する ことがほとんどなされていない。これは,自由回答が自然言語で表現された質 的なデータで,構造化しにくいことが大きな理由であると思われるが,そのよ うな技術的な問題以前に,統計分析のためには量的なデータを用いるのがよく,

質的なデータには仮説の示唆など別の用途があるとする考え方もある。

多段分析法と呼ばれるものがその代表的なものであるが,これによると量的 なデータと質的なデータにはそれぞれに固有の持ち味があるはずで,両者はこ れを活かした使い道をしながら結合を行ういわゆる多段式の分析こそ,確実で 深みのあるものになるとされている1)。従って,ここでは質的なデータはあく

までも質的な世界にとどまって,量的なデータが示した統計的関連ないし相関 の内的な説明や理解を助ける補助的役割を果たすことでその使命を終えてしま う。しかし質的なデータが一次データとしてこれらの情報を提供した後に,さ らに構造化が行われ,より整理された形の二次データとして何らかの情報提供 を行うことを期待してはいけないものであろうか。

(2)

104

ここで次の点に注意する必要がある。すなわち多段分析法で論議されている 質的なデータとは,手記や文学作品などのように一つの分析単位内にストーリー 性のある複雑な内容をもち,サンプルとして大量に手に入れることが難しいも のを対象としており,質問紙調査における自由回答のように内容が比較的単純 で,サンプリングにより大量のデータとして得られるものについては想定され ていないことである。従って,多段分析法においては質的なデータが量的なデー タのような統計分析を行えない根拠として,「代表性の保障のなさ」と「恣意 性」という二つの弱点を挙げているが,自由回答の場合に,明らかに代表性の 問題は当てはまらない。恣意性の問題も,質問紙調査において自由回答法と対 立する立場にある選択肢法による回答と比較した場合,それほど強く主張でき るものではないと思われる。なぜなら,選択肢法においては選択肢作成時に,

自由回答法においては回答解釈時にそれが存在するという違いに過ぎないと考 えることも可能だからである。

実際,筆者達が1,018人に対して行った政治意識調査において,与野党の政 治リーダーに対するイメージを自由回答法を用いて尋ね,それに対する回答か

らカテゴリーを作り出してその頻度を調べたが2),値の高かった30個を選んで S.D.法(意味微分法)の変数とした新たな調査では,因子分析の結果,3個

の有効な因子(Reliable Public Servant Factor, Competent and Decisive Factor, Effective Factor)を見つけることができた3)。

自由回答は,それが正しくサンプリングされた質問紙調査により得られた場 合には,「代表性をもつ質的なデータ」として規定することができるため,回 答解釈時の恣意性の問題は残されているものの,構造化を行って統計分析の対 象とすることは有効であると考えられる。そもそも情報は構造化されてこそ意 味を持つものではなかろうか。

しかしここで問題として残るのは,冒頭でも述べたように実際にカテゴリー を作り出したり,それに従ってコーディングを行う一連の構造化過程における 作業の煩雑さである。自由回答は自然言語データであるために,一般的にその 作業には多大な労力と時間を要し,複数の人数で行おうとすると今度はコーダー 達を訓練する手間やコーディングにおける信頼性の問題が生じてくるのが現状

である。

ここで目を周囲に転じてみると,社会科学においては,従来から構造化され ないデータを分析の対象とする研究技法が存在してきた。内容分析と呼ばれる

(3)

ものがそれで,最近,これを科学的手段として独自の方法論に高めるために,

クリッペンドルフによるきわめてシスティマティックな議論が行われている。

他方,コンピュータの世界においては,いわゆる人工知能研究である知識工学 と呼ばれる分野が登場し,「知識」をコンピュータで扱おうとする研究が盛ん になってきているという状況がある。

以上より,本稿では,自由回答法の構造化にこれらの観点を導入した「分析 者のための支援システム」を開発することを検討する。すなわち,自由回答法 の処理・分析における基本的な考え方をクリッペンドルフによる内容分析に依 拠し,その構造化過程に知識工学の一分野である知識ベース・システムの概念 を取入れて,コンピュータによる支援システムを開発することについての検討 を行う。このシステムは分析者がカテゴリーを生成することを容易にし,コン ピュータがある程度コーダーの代役を果たすことができるようにすることを目 標するため,うまく稼働すればコーダー達の訓練は不要となり,コーディング の信頼性も向上するはずである。コンピュータを利用したこのような支援シス テムの開発により自由回答の利用が高まれば,その結果,質的なデータにおけ るより洗練された技法の登場が期待できるものと思われる。

以下,次節で自由回答法における処理・分析の手順を述べて問題点を指摘し た後,3,4節でクリッペンドルフによる内容分析と知識ベース・システムに ついて自由回答法における構造化の観点から概説する。5節では,以上で得ら れた知見に基づいて自由回答法における構造化支援システムの基本的な構想に ついて述べ,最後に6節でまとめる。

2.自由回答法における処理・分析の手順

自由回答法における処理・分析の手順は,現在のところ定型化しているわけ ではないが,一応,次の5段階にまとめることができる。

(1)カテゴリーの生成

(2)コーディング

(3)頻度分析

(4)属性相関の計算

(5)多変量解析などの統計解析

このうち(1×2)は自由回答法を構造化する過程であり,(3×4×5)は(狭い意味で の)分析テクニックに関係していて,両者はある程度独立に扱える。本稿の目

(4)

106

的から,今回は(1×2)のみの検討を行い,(3)以降については他稿で検討する。以 下,(1×2)について簡単に説明しながら,問題となる点を挙げておく。

(1)カテゴリーの生成

カテゴリーは,自由回答全体を構造化するための分類基準となるものであり,

カテゴリーの生成作業とは,自然言語により表現されたデータ(自由回答)の 中から分析に必要であると思われるキーワードをカテゴリーとして切出してい くことである。キーワードはデータ中に存在するそのままのことばでもよいし,

より抽象的なことばでもよい。重要なことは次のコーディングを行いやすくす るために,生成した各カテゴリーの意味内容を明確にしておくことである。1 サンプルから生成するカテゴリーが1個であるとは限らない代りに,無回答の ものもあるために,最終的なカテゴリーの個数については全く予測がつかない。

カテゴリーの生成を行うためには,あらかじめそのためのデータとして,全 サンプルから10%程度のサンプルをランダムに抽出しておく必要がある。もち うんカテゴリー生成のためには全サンプルを用いるのが理想であり,その手間 を省いて一部のサンプルしか用いないためのリスクとしては,コーディングに 対する十分な種類のカテゴリーが用意されない可能性がある。このような場合

には,コーディング段階に入ってから新しくカテゴリーを生成する必要が生じ,

作業が複雑になる。なお10%という数値は経験的に出てきたものであるが,サ ンプル数によってはもっと大きな比率にした方がよいかもしれない。前述した 調査ではサンプルが1,000程度であり,カテゴリー生成のために100サンプルを 用いたが,最終的に生成された全57個のカテゴリーのうちの48個(84%)がこ れから生成されている。

ここでの問題点は,妥当なカテゴリーを生成するには試行錯誤的に行うしか ないということである。さらに実際には,前述したようにコーディング段階に 入ってから新たなカテゴリーの生成を行う場合もあり,時間的にも労力的にも 負担が大きい。

(2)コーディング

本稿におけるコーディングとは,自由回答をどのカテゴリーに位置付けるか の決定を行うことを意味する。すなわち(2)は全サンプルの回答に対して(1)で生 成されたカテゴリーの番号または記号をコーディングしていく作業である。

自由回答とカテゴリーの関係を非常に簡略化すれば,図2.1に示すようにな る。ここで回答aはうまくカテゴリーAに対応している。回答bは対応するカ

(5)

自由回答     カテゴリー a      A   b・        B

@ C

}2.1 自由回答とカテゴリーの関係

テゴリーが存在しない。回答cはカテゴリーAとBに対応する。この場合のコー ディングは,回答aにはA,回答bには新しくカテゴリーCを生成してC,回 答cには分析の目的や上記(3)頻度分析以降の分析のテクニックとの関係から A,Bのどちらか一つまたは両方をコーディングすればよいことになる。しか

し実際には,自由回答もカテゴリーも自然言語であるために多義牲や曖昧性が あり,図2.1のように両者の関係がいつでもはっきりしているわけではないた めに,カテゴリーの意味内容を可能な限り明確に定めておいても,両者の対応 付けが困難な場合が生じる。

ここでの大きな問題点は,回答にマッチしたカテゴリーを捜し出せるかとい うこととそれに関連してコーディングの信頼性の問題である。最初の問題につ いては,回答に対応する妥当なカテゴリーが存在しないと考えられる場合や回 答がいく通りにも解釈できる場合に生じ,その解釈の仕方によりコーダー達が まちまちの判断を下す可能性が高い。コーダーが単独の場合でも,サンプル数 が多い場合はコーディングに揺れが生じてくることがある。これらは結果とし て,コーディングの信頼性の低下を招いてしまう。

コーディングにおける信頼性については,クリッペンドルフはコーダー達の 訓練を重視しており,記録作業説明書を定式化する必要性を説く。さらに,同 一のデータを扱うコーダーを最低2人必要とし,お互いに独立に作業を行った 後にコーディング結果の一致度を測定する必要性を主張するが,現実の問題と

して,優秀なコーダーを多数確保することやコーダーに対して十分な訓練を行 うことは,かなり困難である。

この他,全サンプルを用いてカテゴリーを生成していれば起り得ないことで あるが,上記カテゴリーCが生成されたような経緯で,コーディング段階に入っ てから新しくカテゴリーが生成される場合もある。この場合,それまでこのカ テゴリーが存在しないため別のカテゴリーにコーディングされていた回答があ る得るために,もう一度全回答を見直す必要が生じることになり,作業がより 複雑になる。

(6)

108

なおコーディングの後,各カテゴリーをダミー変数と考えて,該当カテゴリー であれば1,該当カテゴリーでなければ0としていけば,自由回答は1または 0の値からなる量的なデータに変換される。この変換は機械的に行えるため,

特に一つの段階として独立させず,コーディングの中に含めた。

3.クリッペンドルフによる内容分析

自由回答は質問紙調査におけるデータであることから,とかく選択肢法によ る回答と比較して論議されることが多いが,そこでは自由回答のもつ非構造性 が非難されるばかりで,方法論に関する発展的な方向性が何もない。一方,ク

リッペンドルフは内容分析をこれまでの伝統的なものと区別するために,これ をシンボリックな現象に対する分析であるとして「データをもとにそこから

(それが組込まれた)文脈に関して反復可能で(replicable)かつ妥当な(valid)

推論を行うための一つの調査技術である。」と定義している4)。彼によれば,メッ セージのシンボリックな意味は多元的で唯一のものではなく,また必ずしも共 有されるわけではないとしており,内容分析とはこれらを前提とせずに,メッ セージの意味を探る(推論を行う)手段であるとする。

彼のいう内容分析(以下,単に内容分析と呼ぶ)は対象とするものの範囲が 広く,言語データに限られていないが,構造化されていない素材をも受容する 点や大量のデータにも対処可能であるとする点が,特に自由回答法における処 理・分析の方法論を考えていくために有効であると思われる。内容分析と他の 調査技術との比較について,図3.1に示す。

内容分析における手順は,次の通りである。すなわち,(1)データ作成,(2)デー タ変換,(3)推論,(4)分析の順5)で,(1)はさらに①分析単位の設定6),②サンプ リング,③記録作業に分けられる(図3.2参照)。

このうち本稿に特に関係するのは,(1)データ作成の③記録作業部分である。

すなわちカテゴリー生成は(1)③の前半部,コーディングは後半部に相当すると 考えられる。記録作業の前段階である①分析単位の設定や②サンプリングは,

正しくサンプリングされた質問紙調査のデータであれば特に問題とならないこ とは明らかである。

一般に記録作業は,対象とする現象が利用可能な方法で構造化されていない ときにはいつも必要となるもので,内容分析における中枢的な部分である。記 録作業のための記述装置,言い換えればデータが記録される用語をクリッペン

(7)

非露見性

@

情報検索  ■

モデリング

統計的資料の利用

       ノ

@   /実験1艶メ.ブイールド実験

ドロジー

質問紙調査法(選択肢法)一

@     文脈感応性

∠        1面接調査法       

非構造性        投影テスト

図3.1内容分析の経験的領域と他の調査技術の比較

(クリッペンドルフ,1989,pp,34を一部修正)

安定したデータ文脈関係に関する理論と知識    一一一、

    サンプリング利用図式  計画

       1       1      分析的

L録のための教示    構成観念       1       1

生の   (1)①利用観察

(1②サンブルグ(1③記録 (2)弄タ変換 (3)推論

      1(4)分析  1

1

推測された現象に関する直接的証拠 妥当性検証

図3.2内容分析の手ll頂(クリッペンドルフ,1989, pp.75を一部修正)

ドルフは「データ言語」と呼ぶが,自由回答法の構造化においてはカテゴリー がそれに相当する。データ言語は次の三つの要件を満たしていなければならな い7)とされるが,それはそのままカテゴリーについても当てはまる。すなわち

(1)統語的な曖昧性や非一貫性から免れていること。

(2)適用可能であれという分析技法によってなされる形式的要求を満足しな

(8)

llO

ければいけない。

(3)興味のある現象について最終的であるほど,十分な情報を提供する記述 能力を有していなければならない。

このうち,カテゴリー生成にとって(2),(3)は明らかであり,最も厳しい要請は

(1)である。なぜなら,(1)からカテゴリーは包括的(記録単位のすべてを表わす こと)かつ相互排反的(記録される諸現象の区別を明確にすること)でなけれ ばならないが,カテゴリーは自然言語であるためにこれらを完全に満たすこと は困難であるから。

しかし,もしカテゴリーが(1)を完全に満たしていれば,形式言語になり得て,

そこに変数や定数の要素を考えることができる8)。ここで変数とはある概念次 元内の記録単位における可変性を表わすような値をとるものであり,定数とは 変数間の関係を特定する不変の操作的意味をもつものをいうが,カテゴリーを変 数と考えると,本稿の場合,前述したように取り得る値は1または0の2値し

かない。将来的には,カテゴリーへの要請条件(2),(3)から,この値が3値以上また は連続的に変化するような記録を行うことが必要となる可能性もあり得よう。

ところで前述したように,クリッペンドルフは研究結果が妥当であるために はデータや分析過程のすべてが信頼できるものでなければならないとして,信 頼性に対して厳しいチェックを設けている。信頼性には次の3種類すなわち 安定性,再現可能性,正確性があるが,内容分析においては,安定性とはある 過程が時間上不変で一定している程度のこと,再現可能性とはある過程を様々 な状況や場所でコーダーを使って再生することができること,正確性とはある 過程が事実上既知の基準に適合している程度あるいはこの過程がもたらすこと になっているものをもたらす程度のことである )。これを表3.1に示す。

信頼性のタイプ 信頼性の 誤差の評定 相対的な

確定条件 強度

安定性 テストー 観察者の不整合性 最も弱い

再テスト

再現可能性 テストー 観察者内の不整合性 テスト 観察者間の不一致

正確性 テストー 観察者内の不整合性 最も強い 基準 観察者間の不一致

規範からの系統的偏差 表3.1信頼性のタイプ(クリッペンドルフ,1989,pp.206)

(9)

コーディングにおける信頼性については,少なくとも再現可能であるべきで あるというのがかれの主張であり,それを確保するための必要条件が,前節(2)

で述べたコーダーの作業方法に対する要請であった。その一致度の測定は,コー ダーをm人と仮定して標準形や合致行列と呼ばれる2種類の行列を考案した上 で,一致係数を厳密に定義して行う °)。

しかしこの考え方によると,コーダーの信頼性は一致度の高低と比例するた めに,能力的にはさほどでなくても似たもの同士がいるグループの方が,優秀 なコーダーが一人いるグループより信頼性が高くなる可能性もあり得る。他の 調査技術と異なり,自由回答の処理においては,コーダーは単に各データ(自 由回答)をどのカテゴリーに割当てるかを判断するだけであり,観察者の役割 まで果たす必要がない上に,対象とするデータもリアル・タイムにしか得られ ないわけではなく,文字データとして保存できるものである。従って,信頼性 の観点からはコンピュータの効果的な利用を考えて,それによりコーダーを不 要とできるような方策を立てる方が有効であると思われる。

内容分析におけるコンピュータ利用の可能性については,クリッペンドルフ も両者の特性(内容分析については図3.1,コンピュータについては注11)を 参照のこと)を挙げた上で,非構造的な資料を受入れる内容分析と分析者の知 識をプログラムの形で展開する必要のあるコンピュータとは,表面的には相反 するようであるが,結局は「インプットされるテクストに自分自身の構造を押

しつけるという点ではよく似ている」12)と指摘している。ただし,伝統的な内 容分析はコーダー(人間)のもつ常識やシンボルの意味を解釈する能力に頼る

ことができるが,コンピュータではそれに代わるものとして適切なプログラム 開発が必要であることは当然である。

よく知られているように,コンピュータの用途は統計解析や探索に向いてい るが,彼によれば,これらは内容分析がもつ推測を含んでいないために内容分 析に特有の分析方法とはいえない。コンピュータが特に「処理すべきデータを とりまく社会的文脈のある側面」を「模倣したり,モデル化したり,再現した り,表象したりする場合」に限定したものを,「コンピュータ内容分析(com一 putational content analysis)」 3)と呼ぶ。

コンピュータ内容分析においては,辞書的,シソーラス的なアプローチと人 工知能的なアプローチの二つが区別される。前者は「テクストの中で識別でき

る一つの語や一続きの短い特性の連鎖に重点を置く」14)もので,比較的単純な

(10)

ll2

理解型式でよく,本稿でいう自由回答法における処理・分析と類似する。特に WORDSシステム15)と呼ばれるものはその設計思想,すなわち研究者が分析に バイアスを持込む可能性がないように,テクストから枠組みを作り出すことを 重視して,事前にカテゴリーを決定したくないとする点を同じくする。後者は,

人工知脳と内容分析が言語理解や不完全な情報に基づく知的な意思決定などに ついて共通の関心をもつことを基底にしており,コンピュータ内容分析の将来 の可能性を示唆するものである。自由回答法における処理・分析にとっても次 の課題となるべきものであろう。

4.知識ベース・システム

知識ベース・システムは,従来,情報の表現型式としては最も体系化されて いる段階である手続きや定型的データ集合にしか適用できなかったコンピュー タを,言語的記述で表わすほかないような,より経験段階に近いものについて も扱うことができるようにするための情報処理技術で,現在,

システムや自然言語処理における主要な技法となっている。その基本構造は知 識獲得を行って「知識ベース」を作成した後,それを基に「推論機構」を働か せることで問題を解決することであり(図4.1参照),前述したコンピュータ 内容分析の定義とうまく関連している。

知識ベース・システム

r 曹一一卿 一一一一一一一゜一 一 一一゜ 一畳「

F      1 知識ベース

i ユーザ・インタ i

1  フェイス     1

i醗麟)i:       1L−一...一..._一..一一..一.一._.一一」

推論機構

図4.1知識ベース・システムの基本構造 (大須賀,1986,pp.18)

(11)

知識ベース・システムにおいて重要なことは,知識の獲得と表現の問題であ る。この場合の知識とは,一般的に推論の過程で利用あるいは参照される形式 化された情報である。知識には浅い知識深い知識と呼ばれるものがあり,そ れそれ経験的なレベルの知識,基本的事実や一般原則を意味する。前述したよ・

うな経験段階における知識は浅い知識であるが,知識ベース・システムにおい ては経験的規則をも許容するため,これを蓄積としていくことが知識の獲得と

なる。

知識の表現方法の代表的なものには,プロダクション・システム,述語論理 6},

意味ネットワーク17),フレーム・システム18)などがあるが,前二つはルール型,

後ろ二つはフレーム型と集約することもできる。また構造化された知識の必要 性と演繹推論体系の確立性という二つの軸によりまとめると,図4.2に示すよ

うになる。

演繹推論体系確立

「輪一゜扁霜欄鞘哨噛鱒r一軸一囎 一一繭〇一「

1    ; 1階述語論剛

   il織i  i

l       lモデル        I 戟@       I      I 戟@フレーム・     I      l 1 オブジェクト   l      I 戟@      l       l k____一_____1___一_一____」

演繹推論体系未確立

図4.2 各知識表現法の位置づけ(大須賀,1986,pp.53を一部修正)

自由回答法における構造化において,コーディング段階にうまく知識ベース・

システムの適用を行うことができればコーダーを不要とできそうである。知

(12)

114

識の表現方法は一意に定まるものでもなく,その獲得や利用などの各局面にお いて同じ方法である必要性はないが,本稿で対象とする自由回答の内容は比較 的単純で,当面はコーディング段階にシーンやストーリーを理解するほどの知 識は必要ないこと,かといって三段論法のような厳密な知識ではうまぐいかな いことなどから,一応,プロダクション・システムを適用して検討することと した。プロダクション・システムを他の知識表現方法と比較すると,相対的に 知識のモジュール性が高いこと(図4.2参照),ルールの意味がわかりやすい

こと,構造が簡単であることなどが 長所として挙げられる一方,ルール

ルールベース の個数がふえるにつれて推論効率が

落ちること,知識問の関係や相互作

IF(前提部)

sHEN(結論部)

用を記述しにくいなどの面がある。

以下,プロダクション・システムに

ついて詳細に述べよう。 (インタプリンタ)推論機構

プロダクション・システムはルー ルによって知識を表現するもので,

基本的に図4.3のような構成からな ワーキング・メモリ

る。「ルールベース」は前述した知 ッベースであり,「IF(前提部)TH

(グローノxVレ・データベース)

EN(結論部)」の形で記述されたルー

ルを格納する場所となる。「推論機  図4・3プロダクション・システムの構成

      (大須賀,1986,pp.21を一部修正)構」は大別して前向き推論と後ろ向

き推論があり,ルールを選択して適用し,目的とするゴールを生成または検証 する推論を行う。ここで前向き推論とはデータ駆動型推論またはボトムアップ 推論とも呼ばれるが,データから出発してゴールを捜す(生成する)推論法で ある。エキスパート・システムにおいてはいわゆる分析型の意思決定を行うた めに用いられる。後ろ向き推論はこれとは逆にゴール状態から出発し,サブゴー ルを作りながら最終的に仮説が満たされるかどうかを検証する推論を行うもの で,ゴール指向型推論またはトップダウン推論と呼ばれる。「ワーキング・メ モリ(グローバル・データベース)」はプロダクション・システムの状態を保 持する詑憶領域で,その内容がルールの前提部を満たしていれば,ルールの働 きにより結論部の動作が実行されて内容が書換えられる。この処理プロセスは,

(13)

パターン・マッチと呼ばれる。

プロダクション・システムの開発は,直接LISPなどのプログラミング言語 から行うこともできるが,一般にOPS5やそのバージョン・アップ版であるOP S83などの知識表現言語とよばれるものを用いた方が行いやすい。またその実 用化に際しては,エディタ,デバッカなどのユーザー・インターフェイスも極 めて重要であることはいうまでもない(図4.1参照)。

5.自由回答法における構造化支援システム

以上,クリッペンドルフの内容分析とプロダクションシステムについて,自 由回答法における構造化の観点から述べてきた。これより,自由回答法におけ る構造化支援システムは基本的には次のように構想されよう。すなわち,分析 者がディスプレイ上でコンピュータと対話を行いながら試行錯誤的にカテゴリー を生成した後は,そこで用いられた知識を基に,コンピュータが自動的に回答 のコーディングを行っていく。最後までコーディングされずに残ったものにつ いては,分析者の手でコーダーがなされる。

ここで分析者をカテゴリーの生成やコーディングにおける意思決定者とみる と,構造化支援システムは意思決定支援システムであるとも考えられる。この 場合,システムの目的は機械的にできることはコンピュータに代用させて,意 思決定者が高度な推論部分だけに関わりながら,思いのままの解を容易に得る ことができるような環境を作り出すことである。以下では,自由回答法におけ る構造化支援システムを,カテゴリー生成支援システムとコーディング支援シ ステムに分けて述べる。

5.1 カテゴリー生成支援システム

前述したように,自由回答は自然言語データであるために,カテゴリーがデー タ言語として要請されること,すなわち統語的な曖昧性や非一貫性から免れて いることという制約を完全に満たすことは実際問題としてかなり困難である。

試行錯誤的に生成を行っていき,分析者が満足できた時点で終了とするのが最 善で自然な方法であろう。従ってカテゴリー生成支援システムとしては,分析 者がそのような判断を行いやすい環境を作り出すものであることが目標となる。

そのために最低限必要な機能としては,各カテゴリーの意味内容が即座に提示 できること,逆に各回答がどのカテゴリーに対応しているかが即座に提示でき

(14)

116

ることなどが考えられる。これらはもし途中でカテゴリーの意味内容が変更さ れた場合でも,うまく機能することが必要である。

ところでカテゴリーの意味内容を定義することは,記録作業における焦点で あり,これが適切に行われているかどうかで次のコーディング作業の行いやす さが決まる19)。カテゴリーの意味内容を内包的に定義することは困難なため,

本稿では外延的にリスト・アップしていく方法を取ることにする。すなわち,

各カテゴリーを生成する段階で用いたデータ(自由回答)をそのままそのカテ ゴリーの意味内容の定義として利用する。その際に回答とカテゴリーをなんら かの方法で結び付けておけば,前述したような機能をもつことになって便利で

ある。

以上より,カテゴリー生成支援システムとしては次のようなものが想定され る。ただし,()内は必要とされるソフトウェアを示す。

①あらかじめカテゴリー生成用のサンプルにおける自由回答をそのまま文 字データ(以下これを生データと呼ぶ)として入力したファイルを作成し ておく。(エディタ)

②生データを一つ一つディスプレイ上で見ながら適当なカテゴリーを生成 し,カテゴリー用のファイル上に書込んでいく。この時,もし特にコメン トとして残したいことがあれば,コメント用のファイルに書込んでいく。

この場合,ディスプレイには生データ用とカテゴリー用の二つのウィンド ウに加えて,コメント用のウィンドウも表示されている。(ウィンドウ)

③②を行っている途中で,カテゴリーの意味内容を調べる必要がある時は,

そのカテゴリーをクリックすれば,それを生成するのに用いた生データが すべて引出されてきて表示される。逆に,ある生データからどのようなカ テゴリーが生成されたかを知りたい時は,その生データをクリックすれば カテゴリーが表示される。(データベース)

④ このような作業を試行錯誤的に繰返してすべての生データを検討し,分 析者の満足が得られればカテゴリー生成は終了する。

この支援システムをコンピュータ上で実現するには,次の三つの機能,すな わちエディタ機能,ウィンドウ機能,データベース機能が必要で,これらがお 互いにうまくリンクする必要がある。さらに自由回答は文字データであるため

に,日本語をサポートしたシステムでなければならない。

ところで前述したように,カテゴリーをダミー変数と考えると,現時点では

(15)

その取り得る値は1または0の2値しかない。分析の目的により,将来この値 が3値以上または連続的に変化することが必要とされるような場合には,デー

タとカテゴリーの結び付け方をより複雑にしたシステムに変更する必要があろ

う。

5.2 コーディング支援システム

コーディングはカテゴリー生成に続くもので,カテゴリー生成段階で獲得し た知識を生かして行う。前述したように,本稿ではコーディング支援システム にプロダクション・システムの導入を考えているが,知識ベース・システム全 体の現状を考慮すると,現段階におけるコーディング支援システムとしてはコー ディングをすべてコンピュータで行うより,機械的に行える部分のみコンピュー タに代行させ,残された複雑な判断は分析者が行うシステムとした方が有効で あり,実現しやすいものになると思われる。

コーディング支援システムとしてまず次のようなものを想定する。

①ルールベースに対する知識の獲得として,あらかじめカテゴリーとその 意味内容を「IF(カテゴリーの意味内容>THEN(カテゴリー番号)」の形 で結び付けたルールを多数作り,ルールベースに蓄積しておく。これはカ テゴリー生成段階での状況を保存しておいて,プログラムにより 「IFT HEN」ルールに書換えればよい。プロダクション・システムにおいては 知識のモジュール性が高く同質であるために,このプログラムの開発は不 可能であると思えない。

②データ(自由回答)はすべてワーキング・メモリに読み込んでおく。ワー キング・メモリにあるデータはルールにおける前提部(カテゴリーの意味 内容)として書かれたものと理解される。

③ルールベースに基づいて前向き推論を行い,マッチしたカテゴリーを捜 し出し,そのデータについてはカテゴリーに書換えていく。プロダクショ ン・システムは可読性があるために,出てきた結論の意味はわかりやすい ものになるはずである。

④ コーディングを行っている段階でカテゴリーに関して何らかの変更が生 じた場合には,ルールベースを変更して最初から推論をやり直す。

⑤ うまくマッチしなくて最終的にワーキキング・メモリに残ったデータに ついては,人間の方でカテゴリーを捜し出して書換える。その際,それを

(16)

118

新しく「IF THEN」の形でルール化してルールベースに追加しておけば,

次回からはコンピュータが判断してくれる。

コーディング支援システムは,カテゴリー生成支援システムと異なり,人間 が扱う知識を対象とする知識ベース・システムを採用する関係上,いくつかの 問題点を含んでいる。

その一つは,マッチ後の競合の解消をどのように行えばよいかということで ある。単純には,最初にマッチしたものを選ぶことにすればよいが,回答が複 数個のカテゴリーに対応する場合はそのような方法ではうまくいかないことは 明らかである。自由回答が自然言語データであることを考えると単純に決めに

くい問題である。

二番めは,⑤でカテゴリーが捜し出せない場合に人間が新しくルールを作成 するが,それとそれまでに作成されていたルールが衝突する可能性がないとは いいきれない。すなわち対象とするデータによっては,単調に知識がふえてい くと考えてもよい場合だけではなく非単調の場合もあると思われるが,その場 合の整合性をどのように考えていけばよいか。

三番目は,パターン・マッチの方法である。プロダクション・システムにお いては,③の「IF THEN」ルールにおいてワーキング・メモリ上の「カテゴ

リーの意味内容」部分は前提部とパターンとして一致した場合しかマッチした とみなされない。もちろんパターン・マッチだけでもできれば,コーディング のかなりの部分をコンピュータが代行してくれるものと思われるが,将来的に は,これを文字どおりその意味内容(属性)が合っていればマッチできるよう にした方が,より利口なコーダーの役割を果たすことになるであろう。松尾・

内野(1991)は,テキストベース検索を従来のキーワードによらず,一般的な システム辞書の他に分野別辞書を作成して意味属性に基づいて行う方式を提案 しているが,これをプロダクション・システムに取入れることができないもの であろうか。もし可能なら,松尾のいう検索指示文を自由回答,検索対象をカ テゴリーとして,サンプルから収拾した回答からだけでなく分析者がもつ知識

も動員して,分野別辞書を作成しておくことが必要となる。

コーディング支援システムは以上のような問題を持つが,最初は問題を非常 に単純化してでもまず開発し,それを実際に稼動させて知識ベース・システム の限界や拡張性を理解し,少しずつ機能を追加していく方向で考えるのがよい ように思われる。その結果,プロダクション・システムだけではなく他の知識

(17)

表現方法を併せて採用する可能性もあり得るであろう。基本的方針は持ちつつ も,システムの開発自体をある程度,試行錯誤的に行うしかないと思われる。

6.おわりに

本稿では,質問紙調査で得られる自由回答の構造化を支援するシステムの開 発について検討した。これにより,質的なデータのもつ情報の「深さ」をある 程度保ちつつ,整理された形でつかむことの可能性を示せたのではないかと思 われる。しかし,実現に当ってはハードウェアとソフトウェアの問題があり,

特にコーディング支援システムにおいてはさらに詳細な検討を必要とする。

最後に,カテゴリー生成支援システムの構想に関して,小山照夫学術情報セ ンター助教授に貴重な助言をいただいたことを記して謝意を表する。

1)見田(1965),pp.167−202による。

2)詳しくは高橋(1991a)を参照のこと。

3)詳しくはFeldman(1991)およびフェルドマン(1992)を参照のこと。

4)クリッペンドルフ(1989),pp.21による。

5)さらに(5)直接的な妥当性の検証,(6)他の方法との結果の一致の照合,(7)

その他のデータに関する仮説の検証と続く。

6)クリッペンドルフは,分析の対象とするデータの形態が非構造的な場合にも対応で きるように,分析単位をサンプリング単位,記録単位,文脈単位の3種類に区別す る。サンプリング単位とは,観測された事実や実際の言語表現のうち,互いに独立

(互いに関連のないことや順序づけられていないこと)とみなせる部分のことをいい,

サンプリングとの関係が深い。記録単位とはサンプリング単位があまりにも大きい 時に別個に記述されるもので,一つのサンプリング単位の中で別々に分析可能な部 分とみなせる。集計量としてサンプリング単位内の情報を伝達して,分析の基礎を 提供する。文脈単位とは,記録単位の記述に取込まれる文脈的情報の範囲を設定す るものをいう。質問紙調査における自由回答の場合,一つのサンプルがサンプリン グ単位であり,記録単位であるとみなすのが自然である。

7)クリッペンドルフ(1989),pp.126−129による。

8)クリッペンドルフはさらに統語論や論理の要素も考えており,データ言語をax+

b=cなる代数式で表記できるとする。ここで統語論とは,その規則が変数や定数

(18)

120

から形式の適格な記録を構成することを支配するようなものをいい,論理とはどの 記録がお互いを包含するのかあるいは等価であると考えられているはずなのかを決 定するものをいう。しかし自由回答法の処理・分析においては,統語論も論理も欠 如しているといえる。

9)クリッペンドルフ(1989),pp.202−208による。

10)標準形とは次に示すような(m,r)型の行列である。ただしk、、はj番目のコーダー によるi番目の記録単位を表わす。標準形の下にある行列は,カテゴリーkが列i で生起する度数nkiおよび表全体の中のカテゴリーの度数nk.を表わすものである。

記 録単 位.

1 2 ・ ・ ・ …     ゴ …     7

1 々ゴ亘

2● 々ゴ2

     :コーダー ノ     ●

      ●

X・」々2」・ ・ ・ …    馬 …    島      ●

々翻

     ●

@    ■ Jテゴリー 々

@    ●

      ●

@       ■

ナ爵菖ηゐ2 ° °         鳶ゴ   ・ ・ ηん7

@       ●

π..=ΣΣη如=,物

鳶 ゴ

図 注1 標準形(クリッペンドルフ,1989,pp.213)

一般に,一致度αは不一致の期待値をD,,観察値をD。とすると α=1−D。/D。

で定義できる。

標準形の場合,D。は列内の対の個数をPWC,列内の差をDWCとすると

D。=DWC/PWC

ただし

(19)

DWC=ΣΣΣnb、n,idb。, PWC=rm(m−1)

(ここでbc対は本稿の場合,任意の二つのカテゴリーの組 db。は両者の差を表

わす。)

同様にPWC, DWCを行列全体で考えたものをそれぞれPT, DTとすると

D,=DT/PT

ただし

DT=ΣΣnb.n,.db,, PT=rm(rm−1)

以上より,

α=1−(rm−1)(ΣΣΣnb、n。、db,)/(m−1)(ΣΣnb.n、.db,)

合致行列はbc対の個数からなり,コーダーと記録単位への言及を含まないもの で,次に示すような行列である。

@       δ

         ●

@        ■

@        ■

@        ●

@        ■

@        ●

E  ・  …      XbC ・  ・  。  ・  ・  …

@        ●

@        ■

@        ●

o●

xδ. ・  ・  ・  ・  ・  … X..=ΣΣXb。嗣γ吻伽一1)

δ c

図 注2 合致行列(クリッペンドルフ,1989,pp.221)

ここでXb,はさまざまなbc対の個数で,

Xb、=Σnbi(n、、一△b,)

(20)

122

ただし△b、はクロネッカーのデルタであり,

△bc=ol ll;1≦:

また信頼性全体で考えたrm(m−1)個対の総数Wb。を Wb,=nb.(n,.一△b、)        ㌧

とするとWb,からも合致行列と同様な行列を作成できる。

結局,合致行列の場合の一致度αは α=1−D。/D,

=1−(rm−1)(ΣΣXb。db。)/(m−1)(ΣΣWb。db,)

ll)クリッペンドルフ(1989),pp.184による。

①大量のディジタル・データが順次コンピュータに読み込まれる。

② これらのデータの内的特性に関して定義できるような論理的・代数的な操作が高 度で実行されること。

③ このような操作の実行は,コンピュータの「行動」を決定,制御し,したがって コンピュータの働きに関する完全な理論あるいは表象と同等であるようなプログラ ムによって指定されている。

④計算のプロセスは一意的に決定され,したがって完全に信頼できる。コンピュー タの内部ではいかなるあいまいさや不確実さも許容されない。

12)クリッペンドルフ(1989),pp.186による。

13)同 上,pp.192による。

14)同上,PP.193。

15)心理療法の面接データを内容分析するために,1975年Ikerにより開発されたシステ ムである。アプリオリな語彙分類を回避する点に特徴がある。

16)述語論理は通常,1階述語論理と呼ばれるものを指しており,形式が整っていて厳 密であることが特徴である。すべての知識ベース・システムの基礎となるが,問題 領域に即した場合のモデル化や知識の記述などを行うには不向きな面もある。論理

を扱えるようにした時相論理も考えられている。

17)意味ネットワークは,知識の組織化を行うために,概念を表わす「節点」と概念間 の関係を表わす「枝」からできたネットワークで,ネットワークを探索したり操作 するアルゴリズムをもつものの総称であり,次の4種類がある。a)連想重視のも の。b)推論重視のもの。 c)語の意味を表現するもの(a)と似ている)。 d)演

(21)

繹的な推論以外の知識も表現するもの(b)の発展形で,フレームなどと似ている)。

18)フレーム・システムはM.Minskyのフレーム理論に基づく知識表現による知識ベー ス・システムをいう。フレーム理論とフレーム・システムは,前者が認知科学概念 の考察が中心であり実現法に関しては議論されていないのに対して,後者はコンピュ 一タ上で具体化されたシステムであるために,区別される必要がある。フレームは 物体や状況などの対象を一定の枠組み(frameWQrk)で表現するためのデータ構 造である。各フレームは,スロットと呼ばれる構成要素からなる。

19)この点を重視した研究例として「世界の歴史教科書に見られる自国イメージ他国イ メージ」(伊藤(1986))がある。世界10力国で用いられている教科書の内容を分析 するために,「対象評価分析」なる方法をコードブックにまとめ,コーダーに対して

きわめて詳細かつ具体的に説明している。

参考文献・引用文献

1)Feldman,0.(1991) Mr. Clean, Miss Vision, and the Youngsters:

Im、ages of Political Leaders by the Japanese  Paper Presented at the 14th World Congress of International Society Political Psychology,

Helsinki, Finland, July,1991

2)フェルドマン・オフェル(1992)『イメージで読む永田町』未来社 3)後藤滋樹(1984)『PROLOG入門』サイエンス社

4)伊藤陽一(1986)「世界の歴史教科書に見られる自国イメージと他国イメージー韓 国,中国,日本の場合を中心に一」辻村 明他(編) 『世界は日本をどう見ている か』日本評論社pp.168−186

5)情報処理学会(編)(1987)『知識工学』情報処理学会

6)小林重信(1987)「多目的意思決定一理論と応用一VI」『システムと制御』Vol.31,

No.4 PP.41−51

7)クラウス・クリッペンドルフ(1989)『メッセージ分析の技法』(三上俊治他訳)頸 草書房

8)松尾比呂志・内野一(1991)「意味属性に基づくテキストベース検索方式」『情報処 理学会論文誌』Vol.32, No,9 pp.1172−1179

9)見田宗介(1965)『現代日本の精神構造』弘文堂

10)宗森純・長澤庸二(1991)「知的生産の技術カードとKJ法の計算機i上での融合」

「情報処理学会研究報告(人文科学とコンピュータ)』Vol.91, No.44 pp.1−6

(22)

124

11)中山弘隆(1988)「対話型多目的計画法一方法と応用」『オペレーションズ・リサー チ』Vol.33, No.8 pp.375−381

12)大須賀節夫(1986)『知識ベース入門』オーム社

13)大須賀節夫・佐伯絆,(1987)『知識の獲得と学習』オーム社

14)柴山悦哉・桜川貴司・萩野達也(1986)『Prolog−1(ABA入門』岩波書店

15)高橋和子(1991a)「自由回答に関する考察一政治リーダーに対するイメージ調査よ り」『現代日本社会経済研究12』

16)一一(1991b)「自由回答についての一考察一イメージ調査のデータを用いて一」『1 991年春季研究発表会アブストラクト集』日本オペレーションズ・リサーチ学会pp.

114−ll5

17)上野春樹・石塚満(1987)『知識の表現と利用』オーム社 18)上野春樹・小山照夫(1988)『エキスパートシ,ステム』オーム社

(本稿は,文部省科学研究費「一般研究(C)」(萌芽)『社会調査データにお ける自由回答のカテゴリー自動生成システムの開発』(平成3年度)に基づく 成果の一部である。)

参照

関連したドキュメント

7IEC で定義されていない出力で 575V 、 50Hz

ここから、われわれは、かなり重要な教訓を得ることができる。いろいろと細かな議論を

本論文での分析は、叙述関係の Subject であれば、 Predicate に対して分配される ことが可能というものである。そして o

【こだわり】 ある わからない ない 留意点 道順にこだわる.

ぼすことになった︒ これらいわゆる新自由主義理論は︑

析の視角について付言しておくことが必要であろう︒各国の状況に対する比較法的視点からの分析は︑直ちに国際法

に至ったことである︒

討することに意義があると思われる︒ 具体的措置を考えておく必要があると思う︒