• 検索結果がありません。

自然言語処理 2012(3 回目 ) Natural Language Processing 2012

N/A
N/A
Protected

Academic year: 2021

シェア "自然言語処理 2012(3 回目 ) Natural Language Processing 2012"

Copied!
32
0
0

読み込み中.... (全文を見る)

全文

(1)

自然言語処理 2012(3 回目 ) Natural Language Processing

2012

東京工科大学

コンピュータサイエンス学部 亀田弘之

(2)

レポート課題1 レポート課題1

自然言語処理システム=言葉を利用す るシステムの例を

Web

等で5つ探し、

その紹介文を作成しなさい。具体的に は、システム名、システムの概要、シ ステムの主要機能を簡単に説明してく ださい。図や写真を添えても

OK

です。

提出日は平成24年10月15日(月

)とします。

A4

レポート用紙、表紙を 付けてください。

(3)

レポート課題

レポート課題 No.2 No.2

1. “形態素”の言語学的 定義を調べよ。

2. 形態素の例を5個挙げよ

3. 日本語における形態素解 析の方法を考えよ。

3

レポート回収しま す!

レポート回収しま す!

Natural Language Processing 2012 (Tokyo University of Technology)

(4)

提出方法 提出方法

1. 書式:

– A4

レポート用紙

指定の表紙

2. 提出日:

平成24年10月22日(月)授業時間

3. 提出場所:

(5)

前回までの復習 前回までの復習

言語

(languages)

自然言語

(natural languages)

文字言語

(written languages)

音声言語

(spoken languages)

視覚言語

(visual languages)

人工言語

(artificial languages)

Programming languages

手続き型言語・関数型言語・論理型言語

オブジェクト指向型言語・アスペクト指向型言語 など

Natural Language Processing 2012 (Tokyo University of Technology) 5

(6)

前回までの復習

言語

(languages)

自然言語

(natural languages)

文字言語

(written languages)

音声言語

(spoken languages)

視覚言語

(visual languages)

人工言語

(artificial languages)

• Programming languages

手続き型言語・関数型言語・論理型言語

オブジェクト指向型言語・アスペクト指向型言語 など

(7)

前回までの復習

言語

(languages)

自然言語

(natural languages)

文字言語

(written languages)

音声言語

(spoken languages)

視覚言語

(visual languages)

人工言語

(artificial languages)

• Programming languages

手続き型言語・関数型言語・論理型言語

オブジェクト指向型言語・アスペクト指向型言語 など

7 Natural Language Processing 2012 (Tokyo University of Technology)

(8)

対話ロボットのデモ

(9)

自然言語処理の概要

 文字認識

 形態素解析

 統語解析(構文解析)

 意味解析

 談話解析

 状況解析

 世界解析(他者理解など)

9 Natural Language Processing 2012 (Tokyo University of Technology)

(10)

技術的に重要な項目

 文字認識 → スキャナの高度化

 形態素解析 → データマイニング 情報検索

 統語解析(構文解析) →  機械翻訳  音声対話

 意味解析 → (同上)

 談話解析 → (同上)

(11)

形態素とは

Natural Language Processing 2012 (Tokyo University of Technology) 11

(12)

Chasen, Juman, MeCab

日本語を対象とする形態素解析の代表的な プログラム

 Chasen

MeCab

をインストールして 使ってみよう。

– www.vector.co.jp

を通じて公開されている。

– WinCha

という

Windows

インタフェースのもの もある。(今はメインテナンスされてない。)

(

授業ページからダウンロード可能

)

(13)

Wincha のインストール例

 Wincha とは Chasen を元にして作られた 形態素解析プログラムである。

講義のページからダウンロード可。

自動解凍形式になっている。

解凍の際は

administrator

権限で実行するこ (特に、

Windows XP

では)。

Natural Language Processing 2012 (Tokyo University of Technology) 13

(14)

自由課題:ツールを使って データ処理してみよう!

 各自、新聞記事、小説、ブログなどさ まざまなジャンルのテキストに対して

、形態素解析ツールを利用して形態素 解析してみてください。

(後日、レポートとして提出してもら

います。今日のレポート課題は別のも

のです。)

(15)

実行例

入力:生活の質の向上と文化の発展に 貢献する人材を育成する

出力:生活

/

/

/

/

向上

/

/

文化

/

/

発展

/

/

貢献

/

する

/

人材

/

/

育成

/

する

Natural Language Processing 2012 (Tokyo University of Technology) 15

東京工科大学の「基本理念」より引

(16)

レポート課題 No3

 形態素解析ツール( MeCab, Chasen,

Juman のどれか1つ)を利用して、学

長挨拶 (

http://www.teu.ac.jp/gaiyou/006488.html) を形態素解析しなさい。

 提出日は、次回の授業の時とします。

 表紙等もいつも通りとします。

(17)

参考(学長挨拶本文)

  東京工科大学は1986年に工学系単科大学としてスタートしました。以来、日本初のメ ディア学部の設置など、常に社会のニーズを読みながら進化を続け、現在では5学部と 大学院を擁し、蒲田と八王子の2キャンパスを有する総合大学へと発展しています。

本学は、新しい大学です。伝統校のような長い歴史はありませんが、新しい大学には、

時代に即応した革命や新たな試みに挑戦できる柔軟な態勢があります。2012年度も新 しい試みを実行します。それが「教養学環」の設置です。これにより、今までの教養教 育を改革・充実させ、社会で必要とされる社会人基礎力、東京工科大学の学生として身 につけてほしい教養を学部横断教育として行っていきます。しっかりとした教養を備え るということは、発展著しい社会の変化に適応できる普遍的な知識を身につけること。

これを「東京工科大学教養スタンダード」とし、その後の専門教育の充実や学生の就業 力向上をめざします。

東京工科大学の教育の根幹にある考えは「実学主義」です。「実学主義」とは「実社会 で役立つ専門的な知識や技術、加えてその基盤となる人間としての適応力を高めるため の教育」です。これは単に学問を修めるためだけでなく、卒業後、一人ひとりがそれぞ れの分野で学んできたことを活かして、社会で活躍できる実践力を磨くことです。その ために、入学から就職・進学まで、一貫したサポート体制でみなさんの夢の実現を応援 します。ぜひ東京工科大学の門を叩いて、飛び込んで来てください。

Natural Language Processing 2012 (Tokyo University of Technology) 17

(18)

今日の後半に移りましょう

(19)

構文解析(統語解析)

 NLP の中心的話題です。

19 Natural Language Processing 2012 (Tokyo University of Technology)

(20)

まずは、背景にある理論か ら

 言語理論 (Theory of Languages)

処理対象そのものを知る

 論理学 (Logic)

処理のための理論

 プログラミング (Programming)

コンピュータで処理できるために

(21)

 言語理論

形式言語

(

言語と文法、文脈自由文法

)

 論理学

述語論理(推論、レゾリューション法)

 プログラミング

論理型プログラミング

(Prolog)

21 Natural Language Processing 2012 (Tokyo University of Technology)

(22)

目標

 簡単な構文解析プログラムを自力で作 成できる。

処理対象言語:日本語と英語

使用プログラミング言語:

Prolog

(23)

準備

 次の文の構造を分析してみよう。

Tom broke the cup.

23 Natural Language Processing 2012 (Tokyo University of Technology)

(24)

文法

 G = { Vn, Vt, σ, P }

– Vn

:非終端記号

– Vt

:終端記号

– σ

:開始記号

– P

:書き換え規則

(25)

 G = {Vn, Vt, σ, P}

– Vn ={S, NP, VP, PrpN, V, Det, N}

– Vt = {Tom, broke, the, cup}

– σ =   S

– P={S→NP VP, NP →PrpN, VP →V NP, NP → Det N, PrpN → Tom, V →broke, Det →the, N→cup}

25 Natural Language Processing 2012 (Tokyo University of Technology)

(26)

Prolog の導入

 プログラミング言語としては Java や C でもいいのですが、本講義ではプログ ラミングの負担を減らすため、ま

た、 CS 学部の学生ならば知っておくべ き言語であるという理由から、 Prolog を用います。

 元気な人は、 ML, Ocaml, Haskell, Lisp

などでプログラミングしてください。

(27)

Prolog の動作を理解する。

 黒板で説明します。

27 Natural Language Processing 2012 (Tokyo University of Technology)

(28)

予習問題

英文

  

Tom broke the big cup.

に対して以下のことを行え。

1.

の構造を分析せよ。

2.

この文を処理するための文法

G

1 を書け

3. G

1 を基に

Prolog

プログラムを作成せよ。

(29)

次回以降、練習をします。

 Prolog で NLP システムを書けるように なりましょう! みんな必ず書けるよう になります。

29 Natural Language Processing 2012 (Tokyo University of Technology)

(30)

レポート課題 No4 の予告

 対話システム Eliza と実際に会話し、

感想や気がついたこと5つ以上を箇条 書きで書きなさい。

例:

• Eliza

は英語なので使いにくい。

結構面白い。

こんな分野に役立ちそう。 など

(31)

レポート No4 の補足

 Eliza はさまざまな人の努力により Web

から誰でも入手できるが、授業のサイ トにもそれらのうちのいくつかをアッ プしてあるので、どれか1つをダウン ロードして使用実験を行ってください

Natural Language Processing 2012 (Tokyo University of Technology) 31

(32)

< 参考 > 今日話題にした 自然言語処理ツール等

 Chasen

 Wincha

 MeCab

 Juman

 Prolog

 Eliza プログラム

参照

関連したドキュメント

On the other hand, the Company submitted an application to the Fund to change the amount of financial support based on the Clause 43, Article 1 of the Fund Act due to the

○   While trying to respond to situations at multiple reactor units due to lack of information about the cooling water injection status of Unit 2 since receiving information about

・ The direct causes leading to the reactor core damage accident of Fukushima Daiichi Units 1 to 3 are, in the case of Unit 1, the total loss of cooling capacity at an early stage

2008 “The BioScope corpus: annotation for negation, uncertainty and their scope in biomedical texts,” Proceedings of the Workshop on Current Trends in Biomedical Natural

最初の 2/2.5G ネットワークサービス停止は 2010 年 3 月で、次は 2012 年 3 月であり、3 番 目は 2012 年 7 月です。. 3G ネットワークは 2001 年と

自動車環境管理計画書及び地球温暖化対策計 画書の対象事業者に対し、自動車の使用又は

乗次 章子 非常勤講師 社会学部 春学期 English Communication A 11 乗次 章子 非常勤講師 社会学部 春学期 English Communication A 18 乗次 章子

(5)財務基盤強化 ④需給と収支の見通し ⅱ)料金改定 【値上げの必要性】.