• 検索結果がありません。

ウェブページにおける非コンテンツ領域の検出に関する研究

N/A
N/A
Protected

Academic year: 2021

シェア "ウェブページにおける非コンテンツ領域の検出に関する研究"

Copied!
3
0
0

読み込み中.... (全文を見る)

全文

(1)

Japan Advanced Institute of Science and Technology

JAIST Repository

https://dspace.jaist.ac.jp/

Title ウェブページにおける非コンテンツ領域の検出に関す

る研究

Author(s) 中村, 達也

Citation

Issue Date 2007‑03

Type Thesis or Dissertation Text version author

URL http://hdl.handle.net/10119/3614 Rights

Description Supervisor:白井 清昭, 情報科学研究科, 修士

(2)

ウェブページにおける非コンテンツ領域の検出に関する研究

中村 達也

北陸先端科学技術大学院大学 情報科学研究科

月 日

キーワード WWW、非コンテンツ領域、チャンキング、学習、情報検索

近年のWWWの普及により、ウェブページから様々な情報を得る機会が多くなった。また、

情報検索やウェブマイニングなどウェブを対象とした研究も多い。しかし、ウェブページ には有用な情報を含むコンテンツ領域とそうでない領域 非コンテンツ領域が混在して いる。非コンテンツ領域とは、例えば広告、目次、検索フォームなど、特に有用な情報を 含まない領域である。このような非コンテンツ領域は、情報検索、ウェブマイニングなど 様々なアプリケーションに対して悪影響を及ぼすことが考えられる。例えば、情報検索に おいて、非コンテンツ領域を検出し、その領域に含まれる単語は索引語としないことで、

索引語付けや検索の処理時間を短縮できる。また、ページの内容とあまり関係のない非コ ンテンツ領域の中のキーワードとマッチすることで不適切なページが検索されることを妨 げることにより、情報検索の精度向上が期待できる。このように非コンテンツ領域の自動 検出は多くのウェブアプリケーションに対して有益である。

本研究では、様々なウェブアプリケーションに対する前処理として、ウェブページの非 コンテンツ領域を検出する手法を提案する。ページのどのような部分を非コンテンツ領域 とするかはアプリケーションによって異なるが、本研究では情報検索を想定する。本手法 では、タグで分割されたテキストに対して、コンテンツ領域のテキストか非コン テンツ領域のテキストかを判別するラベル付けを行う。一般に非コンテンツ領域は複数の テキストから構成されることから、モデルのチャンキングによって非コンテンツ領 域を検出する。すなわち、非コンテンツ領域であるとラベル付けされたテキストをまとめ 上げることでつの非コンテンツ領域を検出する。ラベル付けを行うチャンキングのモデ ルは、正解として非コンテンツ領域があらかじめ付与されたウェブページの集合から学習 する。学習には、学習アルゴリズムとしてを採用した汎用チャン キングツール !を利用した。

次に、学習に用いた素性について述べる。実験用データとは別に集めたページのウェ ブページを調査し、非コンテンツ領域の検出に有効であると思われる手がかりを見つけ た。その結果、以下の つを素性とした。 非コンテンツ領域に現れやすいキーワード が含まれるか、 テキスト長、 テキストに動詞、形容詞が含まれるか、 "テキスト

­

(3)

が内部リンクか外部リンクかリンク以外か、#ツリー上で近傍にあるタグ、

$直前のテキストと比べたときの#のパスの深さの変化、 タグ内のテキ ストの平均長、 タグ内のリンクの割合。また、非コンテンツ領域に現れやすい キーワードは学習データから自動的に選別する。具体的には、キーワードの出現回数が多 い、キーワードが非コンテンツ領域に現れる確率が高い、キーワードが非コンテンツ領域 内に出現するページのドメインの異なり数が多いことという条件を満たす名詞を非コンテ ンツ領域を示唆するキーワードとして選別する。ドメインの異なり数を条件としたのは、

特定のウェブサイトの非コンテンツ領域のみに頻出するキーワードを誤って選択しないよ うにするためである。

非コンテンツ領域の検出手法の有効性を確認するために、ウェブディレクトリから ページをランダムサンプリングして実験用データとした。これらのウェブページに人手で 非コンテンツ領域をマークアップした。このデータを用いて分割交差検定によって学習 とテストを繰り返し、提案手法の有効性を確認した。

提案システムのテキストに対するラベルの正解率は$%であった。一方、全てのテキ ストに対してラベル コンテンツ領域を与えるベースラインシステムの正解率は$%

であり、提案手法はベースラインを大きく上回っていることがわかった。非コンテンツ領 域検出の精度は、領域単位で約割、テキスト単位で約割であった。このことから、提 案システムが、非コンテンツ領域をその範囲まで完全に検出することは難しいが、部分的 にはある程度検出できていることが分かる。しかし、これらの精度は十分高いとは言え ないので、更なる手法の改良が必要である。また、情報として有用なコンテンツ領域が 誤って非コンテンツ領域と誤判定されているテキストの割合は& であり、自動検出され た非コンテンツ領域をページから除去してもウェブページにおける有用な情報を大きく失 わないことがわかった。また、チャンキングに用いた素性の有効性を検証するための実験 も行った。その結果、有効な素性は『 非コンテンツ領域によく現れるキーワード』や

テキスト長』であった。一方、有効でなかったのは『 $直前のテキストと比べたと きの#パスの深さの変化』であった。

参照

関連したドキュメント

研究の結果の通り、 子育て支援領域の 「地域組織化活動」 に関する先行研究について の解題を試みた。 解題を概観し以下の考察を行っ た。 1 方法Ⅰによる先行研究の内、 1 子育て支 援領域を対象とした 「地域組織化」 に関する先 行研究は稀少であった。 東京都の子ども家庭支 援センターは 「地域組織化活動」 を事業として 位置づけているが、

今村・肥後:幼稚園教育要領の 5

生徒が教師の期待を探るようなことなく,純粋 に回答を求める探究型の授業が実現できない

旧養成課程の「教科に関する科目」が撤廃されたことにより,小学校教育に

 Active Netはその特徴として,網の重心付近に対

まとめと今後の課題 本稿では、コンテンツ流通環境の変化が新たに利用

こうした状況を踏まえ,本稿においては,近年,注

4. 研究成果 (1) データ管理領域の分析