日本語文の抽出 - Web 標準フォーマット - Web データ管理 67

第 6 章 Web データ管理 67

6.4 Web 標準フォーマット

6.4.1 日本語文の抽出

日本語文の境界を認識し，Webページの本文を文単位に区切る．この処理は以下のステップからなる．

Step 1. HTMLタグ，改行を利用した段落の認識

Step 2. 句点，顔文字を利用した段落内の文分割

6.4 Web標準フォーマット 73

<Title>

<RawString>_{京都大学ホームページ}</RawString>

</Title>

<RawString>_{受験生の方へ}</RawString>

</DocIDs>

</OutLink>

</OutLinks>

</DocIDs>

</InLink>

<RawString>_{トップへ戻る}</RawString>

</DocIDs>

</InLink>

</InLinks>

</Header>

図6.4 ヘッダー部の例

Step 3. 文分割の後処理 Step 4. 箇条書きの処理

6.4.1.1 HTMLタグ，改行を利用した段落の認識

ブロックタグで囲まれたテキストを段落として抽出し，抽出されたテキスト中で改行が2連続以上ある場合は，段落の切れ目と見なし段落を分割する．段落として抽出されたテキストに対して以下の処理を行う．

• ^{アンカー処理}

• HTML タグの消去と HTML エンティティのデコード (HTML::Entity::decodeentities 関数を利用)

• ^{全角に変換}

• ^{漢字間の空白を詰める}

• ^{文字の正規化}

• カタカナに後続するハイフンの統一

• UTF8からeuc-jpにマップできない文字の置換

• 波ダッシュ問題への対処

<RawString>小泉総理の好きな格言のひとつに「無信不立(_{信無くば立たず})_{」があります．}</RawString>

<![CDATA[* 1D <_文頭><_サ変><_人名><_助詞><_連体修飾><_体言><_係:_ノ格><_区切:0-4><RID:1056>

小泉こいずみ小泉名詞 6 _人名 5 * 0 * 0 NIL <_文頭><_漢字><_かな漢字><_{名詞相当語}><_自立><_{タグ単位始}><_文節始><_固有キー>

..._中略...

ますますます接尾辞 14 _{動詞性接尾辞} 7 _{動詞性接尾辞ます型} 31 _基本形 2 NIL <_表現文末><_かな漢字><_ひらがな><_活用語><_付属><_{非独立無意味接尾辞}>

．．．特殊 1 _句点 1 * 0 * 0 NIL <_文末><_英記号><_記号><_付属>

EOS]]>

</Annotation>

</S>

<RawString>論語の下篇「顔淵」の言葉で，弟子の子貢（しこう）が政治について尋ねたところ，孔子は「食料を十

分にし軍備を十分にして，人民には信頼を持たせることだ」と答えました．</RawString>

<![CDATA[* 1D <_文頭><_助詞><_連体修飾><_体言><_係:_ノ格><_区切:0-4><RID:1056>

論ろん論名詞 6 _普通名詞 1 * 0 * 0 "_漢字読み:_{音代表表記}:_論" <_漢字読み:_音><_代表表記:_論><_文頭><_漢字><_かな漢字><_{名詞相当語}><_自立><_{タグ単位始}><_文節始>

..._中略...

ましたましたます接尾辞 14 _{動詞性接尾辞} 7 _{動詞性接尾辞ます型} 31 _タ形 5 NIL <_表現文末><_かな漢字><_ひらがな><_活用語><_付属><_{非独立無意味接尾辞}>

．．．特殊 1 _句点 1 * 0 * 0 NIL <_文末><_英記号><_記号><_付属>

EOS]]>

</Annotation>

</S>

..._中略...

</Text>

図6.5 テキスト部の例 (KNPによる解析結果有)

6.4.1.2 句点，顔文字を利用した段落内の文分割

以下の文字（列）を手がかりに，段落内のテキストを文に分割する．

「。」「？」「！」「♪」「…」「・・・」

ただし，括弧内の文区切り文字は無視する．

6.4.1.3 _{文分割の後処理}

抽出された文の列に対し，以下のルールを適用して，誤分割を修正する．

ルール1. 「」が注目している文と直前の文に奇数個含まれている場合は，注目している文を直前の文と連結

ルール2. 注目している文が「A.」のような箇条書きの見出しを表す文字列のみの場合は，直後の文と連結

ルール3. 注目している文の文頭が「と」「っ」「です」であり，直前の文の文末が「閉じ括弧」「！」「？」

の場合は直前の文と連結

6.4 Web標準フォーマット 75

表6.2 オリジナルのWebページと標準フォーマットデータのファイルサイズ(約1.2億ページ，gzip圧縮時)

ファイルの種別サイズ[TB]

オリジナルのWebページ(utf8変換前) 1.4 標準フォーマット変換済データ 12

誤分割修正後，顔文字，（笑）（汗）などの感情を表す表記を手がかりに文を再度分割する．

6.4.1.4 _{箇条書き処理}

テキストベースの箇条書きを1文に変換する．例えば，以下の箇条書きは，文「次のお店＿・さえずり

＿・のら酒房＿・串カツ屋＿は美味しいです」として認識される（＿は全角空白）．

S1 以下のお店、

S2 ・さえずり S3 ・のら酒房 S4 ・串カツ屋 S5 は美味しいです。

その一方で，以下のような箇条書き S1 以下にお店を列挙します。

S2 ・さえずり S3 ・のら酒房 S4 ・串カツ屋 S5 これらのお店は...

は各項目を別々の文として認識する．

S1 以下にお店を列挙します。

S2 ・さえずり S3 ・のら酒房 S4 ・串カツ屋 S5 これらのお店は...

ドキュメント内 WISDOM Web (ページ 85-88)