• 検索結果がありません。

億語規模の書き言葉均衡コーパス

〈論文紹介〉 小西光,浅原正幸,前川喜久雄「『現代日本語書き言葉均衡コーパス』に対する時間情報アノテーション」言語処理学会誌『自然言語処理』20(2): 201-222. (2013)

〈論文紹介〉 小西光,浅原正幸,前川喜久雄「『現代日本語書き言葉均衡コーパス』に対する時間情報アノテーション」言語処理学会誌『自然言語処理』20(2): 201-222. (2013)

... TimeML 定義や新聞記事にアノテーションを行ったコーパス Time- Bank 整備が進んでいる(James Pustejovsky et ...在 と こ ろ 存 在 し て い な い。 本 稿 で は,TimeML 時 間 情 報 表 現 を 表 す <TIMEX3> タグに基づいたアノテーション基準を日本語向けに再定義し,BCCWJ ...

4

3. データ本発表では 2011 年 12 月にリリースされた 現代日本語書き言葉均衡コーパス の DVD 版を使用した Disk1 の M-XML フォルダに含まれる xml ファイルが対象である この xml ファイルは可変長サンプルと固定長サンプルを統合したもので 短単位 長単位の形態論情報の

3. データ本発表では 2011 年 12 月にリリースされた 現代日本語書き言葉均衡コーパス の DVD 版を使用した Disk1 の M-XML フォルダに含まれる xml ファイルが対象である この xml ファイルは可変長サンプルと固定長サンプルを統合したもので 短単位 長単位の形態論情報の

... 期待されている。BCCWJ 特徴として、多様な日本語を収録していることやアノテーショ ン充実が挙げられる。それらを生かした研究が今後発多く発表されることと思われる。 本発表では BCCWJ アノテーション情報を利用してテキスト結束性に関する特徴を捉 える試みを紹介する。 ...

6

Title 必ず 絶対 きっと の文体的特徴 現代日本語書き言葉均衡コーパス の調査から Author(s) 前坊, 香菜子 Citation 一橋大学国際教育センター紀要, 5: Issue Date Type Departmental Bulletin Pap

Title 必ず 絶対 きっと の文体的特徴 現代日本語書き言葉均衡コーパス の調査から Author(s) 前坊, 香菜子 Citation 一橋大学国際教育センター紀要, 5: Issue Date Type Departmental Bulletin Pap

... 前坊 香菜子 要旨 本稿では『現代日本語書き言葉均衡コーパス』を用いて「必ず」 「絶対」 「きっと」コーパス における出現傾向、文章文体、係り先述語を調査し、それぞれ文体的特徴を明らかに した。各コーパス内における出現傾向としては、 「必ず」が有意に多く、 ...

13

HOKUGA: 現代日本語書き言葉均衡コーパスコアデータにおけるオノマトペ出現実態に基づくオノマトペ自動抽出手法

HOKUGA: 現代日本語書き言葉均衡コーパスコアデータにおけるオノマトペ出現実態に基づくオノマトペ自動抽出手法

... 2.1 コーパス 本研究で分析対象とするコーパスは,大学共同 利用機関法人人間文化研究機構国立国語研究所と 文部科学省科学研究費特定領域研究⽛日本語コー パス⽜プロジェクトが共同で開発した⽝現代日本 書き言葉均衡コーパス⽞ 9) (Balanced Corpus of Contemporary Written Japanese,以降 BCCWJ) ...

7

〈論文紹介〉 保田祥,小西光,浅原正幸,今田水穂,前川喜久雄 「『現代日本語書き言葉均衡コーパス』に対する時間情報表現・事象表現間の時間的順序関係アノテーション」 言語処理学会誌『自然言語処理』20(5): 657-681. (2013)

〈論文紹介〉 保田祥,小西光,浅原正幸,今田水穂,前川喜久雄 「『現代日本語書き言葉均衡コーパス』に対する時間情報表現・事象表現間の時間的順序関係アノテーション」 言語処理学会誌『自然言語処理』20(5): 657-681. (2013)

... 在まで存在していない。そこで本稿では,TimeML 事象表現を表す〈EVENT〉・事象イ ンスタンスを表す〈MAKEINSTANCE〉・時間情報表現・事象表現間時間的順序関係を表 す〈TLINK〉タグに基づいたアノテーション基準を日本語向けに再定義し,BCCWJ 一部デー ...

3

『現代日本語書き言葉均衡コーパス』マニュアル(DVDデータv1.0対応)

『現代日本語書き言葉均衡コーパス』マニュアル(DVDデータv1.0対応)

... 上 規 定 に よ っ て 短 単 位 を 認 定 し た 例 を 次 に 示 す 。 |平成|4|年度|に|創設|さ|れ|た|定期|借地|権|制度|は|、|借地|契約| |更新|が|なく|、|定め|られ|た|契約|期間|で|確定|的|に|契約|が|終 了|する|借地|権|制度|で|ある|。|貸し主|(|土地|所有|者|)|に|とっ| ...

157

『現代日本語書き言葉均衡コーパス』利用の手引(DVDデータv1.1対応)

『現代日本語書き言葉均衡コーパス』利用の手引(DVDデータv1.1対応)

... イナス)」を用いた「コ-パス」という表記を、そのままコーパス本文に採用すると、 検索や形態素解析を困難にする。そのため、原文における見え方ではなく、その意味に よって入力し分ける。ダッシュ、ハイフン、長音、漢数字「一」、丸記号、漢数字「〇」、 ローマ字「0」などが対象となる。また、改行やスペースは、レイアウトではなく、論 ...

182

接続詞の二重使用の承接順序について ―『現代日本語書き言葉均衡コーパス』を用いた再検討―

接続詞の二重使用の承接順序について ―『現代日本語書き言葉均衡コーパス』を用いた再検討―

... かにされた。しかし、二重使用が可能かどうかに主眼をおいた調査であるため、ど ような組み合わせが多いかという数量的な傾向は明らかになっていない。また、 表1「×」(実例を見つけていない組み合わせ)は、あくまでも調査において実 例を見つけていない組み合わせであり、必ずしもその組み合わせがありえないこと ...

24

『現代日本語書き言葉均衡コーパス』短単位規程集 Version 1.2

『現代日本語書き言葉均衡コーパス』短単位規程集 Version 1.2

... 631イッショクタ ー緒くた 名詞 その他 語的情報というのを区別しないでもう【一緒くた】にしてですね 632イワバ 言わば 副詞 その他 【いわば】“贅沢”、に狂った女の典型といえる 東大や京大といった【いわば】官学が中心です。 五分の星で迎えた【いわば】天王山の1局。 633イワンヤ 況んや 副詞 その他 大きくなっていった訳ですで【いわんや】ロマン派ベ[r] ...

141

接続詞の二重使用の承接順序及び文体差 : 『現代日本語書き言葉均衡コーパス』全ジャンルによる追加調査

接続詞の二重使用の承接順序及び文体差 : 『現代日本語書き言葉均衡コーパス』全ジャンルによる追加調査

... ブログ 書籍 雑誌 国会会議録 白書 知恵袋 合計組数 組数 期待組数 比率 組数 期待組数 比率 組数 期待組数 比率 組数 期待組数 比率 組数 期待組数 比率 組数 則待組数 比率... する。 表 8は,書籍全体及び NDC第一次区分別の使用組数の多い二重使用の組み合わせ上位 10組を示した 表である。表 9は,書籍全体の上位 20 組までの二重使用の組み合わせ[r] ...

18

Webを母集団とした超大規模コーパスの開発 : 収集と組織化

Webを母集団とした超大規模コーパスの開発 : 収集と組織化

... 16 文を用 いて自動構築した格フレームを公開した(河原・黒橋 2006, 京都大学大学院情報学研究科黒橋研 究室 2008)。これら二つデータは形態素解析のみならず係り受け解析や格解析まで処理が行 われている。官公庁においては,国立国会図書館(NDL)が官公庁自治体 Web サイトや冊子 ...

27

〈著書紹介〉 前川喜久雄 監修/山崎誠 編 山崎誠,前川喜久雄,丸山岳彦,柏野和佳子,山口昌也,小椋秀樹,小木曽智信,田中牧郎 著『書き言葉コーパス-設計と構築-』

〈著書紹介〉 前川喜久雄 監修/山崎誠 編 山崎誠,前川喜久雄,丸山岳彦,柏野和佳子,山口昌也,小椋秀樹,小木曽智信,田中牧郎 著『書き言葉コーパス-設計と構築-』

... て国立国語研究所を中心に行われた特定領域研究「代表性を有する大規模日本語書き言葉 コーパス構築:21 世紀日本語研究基盤整備」(研究代表者:前川喜久雄)成果を全 8 巻にまとめるものである。既に第 1 巻『コーパス入門』が 2013 年 7 月に刊行され,本プ ロジェクトレビュー 4 巻 2 ...

3

コーパスに基づく「読解基本語彙1万語」の選定

コーパスに基づく「読解基本語彙1万語」の選定

... 1000 区切 りで 20 段階レベルに分けられている。語彙選定には Juilland et al.(1970) D という散布 度指標が使われている。また,コーパスは BCCWJ2009 年公開モニター版が利用されてい る。このコーパス規模は約 3300 万で,テキストは書籍と Web 2 ...

16

BCCWJ文体情報の各文体指標の特徴語 ― 『BCCWJ図書館サブコーパスの文体情報』を用いて ―

BCCWJ文体情報の各文体指標の特徴語 ― 『BCCWJ図書館サブコーパスの文体情報』を用いて ―

... 特に,専門度は「対象読者に想定される読解レベル(難易度)」に関わる指標であり,客観度は「テキスト 作成意図」に関わる指標であり,硬度及びくだけ度は「さまざまな文体情報」うち「形式性,親疎性 を問う」指標である 2 。これら4種類指標は, 「言語データ構築経験有おおよそ20~50代女性,延べ9 ...

15

目次 1. 音と音声 2. 音声研究 : 合成 認識 3. 音声コーパスとは 4. 大規模コーパスから見えること 5. 音声コーパスの利用 6. 音声コーパス類似性の可視化 7. 音響データベース 8. まとめ 市民講座

目次 1. 音と音声 2. 音声研究 : 合成 認識 3. 音声コーパスとは 4. 大規模コーパスから見えること 5. 音声コーパスの利用 6. 音声コーパス類似性の可視化 7. 音響データベース 8. まとめ 市民講座

... 開会挨拶 東倉洋一 国立情報学研究所副所長 基調講演 「言語資源意義と重要性」 長尾眞 国立国会図書館長 基調講演 「データ中心科学意義と重要性」 坂内正夫 国立情報学研究所長 招待講演 「言語資源利用と著作権」 岡村久道 弁護士,国立情報学研究所客員教授 招待講演 「高度言語情報融合フォーラムについて」 辻井潤一 東京大学教授 ...

60

大規模日常会話コーパスの構築に向けた取り組み —会話収録法を中心に—

大規模日常会話コーパスの構築に向けた取り組み —会話収録法を中心に—

... 1 はじめに 日常会話は社会生活基盤であり,日常話し言葉 特徴や仕組み,日常生活を円滑にするため会話コミュ ニケーション有様を解明することが求められている。 こうした研究を支えるものとして,実際日常会話場面 を対象とした大規模な会話コーパス構築が不可欠であ ...

6

〈プロジェクト紹介〉超大規模コーパス構築プロジェクト 日本語Webコーパスの構築 : 利活用

〈プロジェクト紹介〉超大規模コーパス構築プロジェクト 日本語Webコーパスの構築 : 利活用

... 100 規模コーパス構築を進めている。構 築にあたっては,工程を収集・組織化・利活用・保存 4 つに分割して実装を進めている。 2012 年第 4 四半期より 3 か月ごとに 1 URL クロールを繰り返し実施している。本稿 ...

11

大規模コーパスを用いた日本語の視覚形容詞メタファーの使用傾向の定量的検討

大規模コーパスを用いた日本語の視覚形容詞メタファーの使用傾向の定量的検討

... 私たちが日常生活において自分が経験する感覚を言葉で表現するとき、メタファー 使用は必要不可欠である。感覚器官を使うメタファー中では、とくに視覚を利用 したメタファーが中核的な存在であり、他感覚メタファーを圧倒する力を持ってい ると考えられてきた。にもかかわらず、五感メタファーで頻出する視覚メタファー表 ...

170

上級日本語学習者による否定中止形の使用状況 : 「YNU 書き言葉コーパス」の調査を通じて

上級日本語学習者による否定中止形の使用状況 : 「YNU 書き言葉コーパス」の調査を通じて

... (東海林さだお『キャベツ丸かじり』朝日新聞社、1989 年) 金澤は、この「なく中止形」は、母語話者ばかりでなく日本語学習者中でもすでに使用が見ら れ、学習者レベルが高くなると、母語話者とかなり似通った使われ方がなされると指摘している。 そしてそれは、上級日本語学習者「隠れた文法性判断能力」現れであるとし、肯定的に評価し ...

19

授与動詞の多義性に関する日タイ語対照研究―対訳コーパスに基づく考察―

授与動詞の多義性に関する日タイ語対照研究―対訳コーパスに基づく考察―

... hây 用法を中心に「てやる・てくれる・てもらう」に対応するタイ表現考察を行った。江 田(1983)ではそれら日本語授受補助動詞に対応するタイ表現は「hây + 動詞」「動詞 + hây」「動詞のみ」だと指摘されている。しかし、対応関係に基づくタイ hây ...

17

Show all 10000 documents...

関連した話題