サンプル台帳の作成

第 3 章サンプル台帳の作成とサンプルの無作為抽出作為抽出

3.2 サンプル台帳の作成

以下では，書籍の場合を例として，サンプル台帳の作成と1文字の指定の仕方について示す。

表2.7に示したように，出版サブコーパスの「書籍」の母集団には74,911,520ページが，図書館サブコーパスの母集団には85,363,019ページが，それぞれ含まれている。この全ページを，各サブコーパスの各層—出版サブコーパスでは55層，図書館サブコーパスでは220層—

に分類し，書誌情報つきのテーブルとしてリレーショナル・データベース²上に展開した。その上で，各層に含まれる全てのページをシャッフルして，各ページに対してランダムに優先順位を割り振った。

さらに，各ページに対して，ページ内の1点を指定する座標情報をランダムに指定した。これは，ページに10×10の座標枠を割り当て，指定された座標の交点に最も近い文字を「サンプル抽出基準点」として指定するためのものである。座標情報は，横軸を0〜9，縦軸をA〜J として，「0A」から「9J」まで100通りの交点を指定した。

ただし，サンプル台帳で指定されたあるページが白紙であった場合，「サンプル抽出基準点」

となる文字を指定することができないため，次に優先順位の高いページに移らなければならない。これはほとんどの場合，その場で手に取った書籍を放棄し，次の該当ページを含む書籍を新たに探し出す必要がある。しかしながら，ランダムに指定された特定の書籍を探し出すことは実際には非常に手間のかかる作業であり，同一の書籍内から次候補を探し出す方がはるかに効率的である。そこで，作業進行上の効率を考慮して，ある書籍のうち最も優先順位が高いページから文字が抽出できなかった場合は，同じ書籍の中で次に優先順位の高いページに移ってよいこととした。これを上位20位まで繰り返してよいこととし，20位までのページから1 文字も指定できなかった場合は，その書籍をサンプリングの対象から除外することとした³。

2Microsoft SQL Server 2005を用いた。

3上位20位までのページから1文字も指定できない書籍には，図鑑や図説，デザイン集やカット集，統計資料集のように，図や表が主体となって書籍全体が構成されているものや，古文や外国語など非現代日本語のみで書籍全体が構成されているものなどが多い。

3.2. サンプル台帳の作成 27

また，交点の直近が図・写真であったり，交点の直近に文字がなかったりする場合，「サンプル抽出基準点」となる文字を指定することができない。そこで，1ページあたり10通りの交点を準備し，それぞれに優先順位を付した。第1位の交点で文字が指定できなかった場合，

第2位の交点に移ってよいこととした。第10位までの交点でも文字が指定できなかった場合，

次に優先順位の高いページに移ることとした。

以上のような手順によって，出版サブコーパスでは74,911,520ページ分の，図書館サブコー

パスでは85,363,019ページ分のサンプル台帳を，それぞれ作成した。このサンプル台帳によ

り，母集団に含まれる全てのページから特定の1ページを，さらにそのページに含まれる特定の1文字を，ランダムに指定することができる。実際のサンプリング作業では，サンプル台帳にしたがって，優先順位のより高いページの，優先順位のより高い座標に近い文字を「サンプル抽出基準点」として指定していくことになる。

そこで，サンプル台帳には，同一の書籍から優先順位の高い上位20位までのページ番号と，

それに付随する10位までの座標情報を含めることにした。さらに，書籍のタイトルや，サンプル管理用のIDなどを表示して，1枚のサンプル台帳としてまとめた。サンプル台帳の例を，

図3.2に示す。

䉰䊮䊒䊦ขᓧᢙ ୫䉍಴䈚ᣣ

㪈㪪㪸㫄㫇㫃㪼㪠㪛䋺㪧㪙㪌㪏㪶㪇㪇㪋㪏㪉㪙㫀㪹㪠㪛䋺㪉㪇㪎㪎㪇㪊㪏㪏䉺䉟䊃䊦䋺વ䈋ว䈇䈱⸒⪲㩷㪉㪇㪇㪍㪆㪈㪉㪆㪉㪏

㪥㪛㪣㫊㫀㫑㪼㈩᨞ᖱႎ

㪉㪈㪺㫄 ࿖⺆⎇࿑ᦠ㙚

ಽ㘃䈞䈝 ఝవ㗅૏ ኻ⽎㗁 ᦭ല ੂᢙ㪈 ੂᢙ㪉 ੂᢙ㪊 ੂᢙ㪋 ੂᢙ㪌 ੂᢙ㪍 ੂᢙ㪎 ੂᢙ㪏 ੂᢙ㪐 ੂᢙ㪯 ஻⠨

৻૏ 㪋㪐㪋㪜㪉㪟㪉㪛㪇㪛㪎㪛㪋㪡㪉㪠㪎㪘㪌㪠㪈㪘

ੑ૏ 㪉㪉㪌㪏㪛㪏㪘㪏㪡㪍㪟㪈㪚㪐㪠㪌㪟㪋㪜㪐㪛㪇㪝

ਃ૏ 㪎㪏㪋㪡㪇㪟㪇㪠㪎㪡㪎㪚㪏㪛㪎㪙㪉㪜㪍㪜㪍㪡

྾૏ 㪉㪇㪐㪡㪉㪙㪇㪡㪇㪞㪋㪠㪉㪜㪈㪜㪎㪟㪌㪡㪊㪙

੖૏ 㪈㪈㪌㪋㪛㪌㪝㪐㪝㪏㪠㪐㪜㪋㪘㪐㪡㪉㪠㪍㪟㪊㪙

౐૏ 㪌㪇㪟㪏㪘㪊㪟㪈㪞㪌㪠㪉㪘㪉㪛㪍㪛㪐㪜㪋㪛

৾૏ 㪈㪇㪏㪇㪞㪌㪛㪈㪜㪇㪠㪉㪠㪎㪚㪌㪘㪉㪘㪋㪟㪈㪠

౎૏ 㪈㪉㪇㪚㪍㪛㪉㪜㪊㪛㪊㪝㪍㪜㪐㪘㪇㪞㪏㪡㪉㪟

਻૏ 㪉㪇㪈㪉㪡㪊㪘㪏㪙㪇㪝㪌㪜㪇㪟㪎㪛㪋㪙㪉㪙㪎㪚

ච૏ 㪈㪌㪉㪈㪜㪋㪜㪎㪚㪈㪚㪇㪝㪐㪞㪎㪞㪋㪡㪐㪛㪌㪛

ච৻૏ 㪉㪊㪉㪉㪞㪈㪛㪎㪡㪎㪚㪇㪝㪉㪟㪏㪜㪎㪝㪌㪛㪋㪚

චੑ૏ 㪉㪋㪉㪊㪟㪉㪝㪐㪡㪋㪞㪋㪡㪍㪛㪈㪞㪊㪡㪋㪚㪉㪙

චਃ૏ 㪌㪈㪏㪛㪎㪠㪋㪟㪊㪜㪍㪡㪈㪡㪈㪛㪇㪡㪇㪙㪐㪚

ච྾૏ 㪋㪋㪈㪠㪉㪠㪍㪠㪎㪝㪋㪟㪇㪜㪇㪠㪇㪝㪉㪜㪍㪡

ච੖૏ 㪍㪐㪌㪘㪉㪜㪍㪠㪐㪘㪎㪝㪈㪡㪋㪞㪎㪠㪋㪟㪌㪚

ච౐૏ 㪉㪊㪊㪊㪝㪈㪡㪋㪠㪊㪛㪏㪛㪌㪝㪌㪚㪇㪟㪈㪜㪈㪘

ච৾૏ 㪈㪌㪊㪋㪠㪈㪚㪉㪚㪊㪞㪇㪟㪋㪘㪋㪙㪋㪞㪏㪜㪉㪞

ච౎૏ 㪈㪌㪐㪌㪜㪊㪡㪇㪟㪊㪠㪇㪞㪈㪛㪐㪝㪏㪠㪎㪟㪍㪜

ච਻૏ 㪈㪌㪏㪎㪘㪋㪙㪇㪟㪇㪠㪉㪚㪇㪚㪍㪘㪉㪡㪏㪛㪊㪠

ੑච૏ 㪈㪐㪊㪍㪜㪍㪙㪇㪝㪏㪠㪌㪙㪏㪡㪍㪞㪎㪛㪊㪙㪉㪟

図3.2: サンプル台帳の例

実際のサンプリング作業では，サンプル台帳で指定されたページおよび座標情報にしたがって，実際の書籍を手に取り，指定された座標に最も近い1文字を見つけて「サンプル抽出基準点」として指定する。上記の台帳の例では，この書籍の中で優先順位が「一位」である「49 ページ」の交点「4E」に最も近い文字を探し出すことになる。この過程を，図3.3に示す⁴。

4実際の作業では，座標の枠を印刷した透明のシート（「サンプル抽出基準点」指定シート）を判型ごとに用意し，

印刷紙面に当てることにより，1文字を特定している。

0 1 2 3 4 5 6 7 8 9 A

B

C

D

E

F

G

H

I

J

図3.3: サンプル台帳で指定されたページ・座標から1文字を特定する例

図3.3を見ると，サンプル台帳で指定された「49ページ」上の交点「4E」に最も近い文字は，「た」である。そこで，この文字を「サンプル抽出基準点」として指定する。その後，この文字を基準として，固定長サンプル・可変長サンプルの範囲を抽出していくことになる。

ドキュメント内発行年 2008‑03‑21 (ページ 35-38)

第 3 章 サンプル台帳の作成とサンプルの無 作為抽出作為抽出

3.2 サンプル台帳の作成

0 1 2 3 4 5 6 7 8 9 A

B

C

D

E

F

G

H

I

J

第 3 章サンプル台帳の作成とサンプルの無作為抽出作為抽出