• 検索結果がありません。

標準形式。『日本語話し言葉コーパス』

『日本語話し言葉コーパス』の概要

『日本語話し言葉コーパス』の概要

... であればf大学に合格したこと」,テーマ2であれば「母の死」などである。講演用の朗読原稿 を準備することは禁止した5。模擬講演の話者からもデータ公開の承諾書を頂戴している。 模擬講演の総数は1715件である。初期に収録した一部を除けば,すべて国立国語研究所内の音 声スタジオで収録した。模擬講演を収録する目的のひとつは,学会講演よりも低いスタイルの発 話を収録することにあ[r] ...

24

日本語話し言葉コーパス における節単位認定 (Version 1.2) 高梨克也内元清貴 ( 情報通信研究機構 ) 丸山岳彦 ( 国立国語研究所 / ATR 音声言語コミュニケーション研究所 * ) 目次 1. 背景と目的. 2 図 1: 節単位認定の位置づけ. 2 図 2: 節単位認定作業の流れ.

日本語話し言葉コーパス における節単位認定 (Version 1.2) 高梨克也内元清貴 ( 情報通信研究機構 ) 丸山岳彦 ( 国立国語研究所 / ATR 音声言語コミュニケーション研究所 * ) 目次 1. 背景と目的. 2 図 1: 節単位認定の位置づけ. 2 図 2: 節単位認定作業の流れ.

... や,あるいは次例の場合のように,格助詞相当表現だと思われる「において」の直後に接続詞が生起するような場合 には,メタルールの適用によってこの格助詞相当表現の直後がデフォルト境界となってしまうため,この箇所を人手 でつなぐ必要がある. ―――――――――――――――――――――――――――――――――――――――――――――――― で <接続詞>日本語のピッチアクセントは単語認知において/テ節/ + ...

22

1. 本文書の内容本文書は 日本語話し言葉コーパス (Corpus of Spontaneous Japanese: 以下 CSJ) における音声ラベリングの仕様を解説したものである CSJ では コア に含まれる約 50 万語 ( 短単位 ) およそ 44 時間の音声に対して 分節音ラベルとイント

1. 本文書の内容本文書は 日本語話し言葉コーパス (Corpus of Spontaneous Japanese: 以下 CSJ) における音声ラベリングの仕様を解説したものである CSJ では コア に含まれる約 50 万語 ( 短単位 ) およそ 44 時間の音声に対して 分節音ラベルとイント

... 2.分節音ラベリングの方針 分節音ラベリングとは、音声信号を、それを構成すると考えられる子音、母音等の構成要素に分解 して、当該要素を表現するラベルと時刻を確定する作業である。構成要素は音声学のレベルでも音韻 論のレベルでも考案できるが、 CSJ のラベルセットは、日本語の音素ラベルに音声学的なラベルを一 部追加したものとなっている。これは、現代日本語に観察される分節音の音声変異のうち、音声学的 ...

12

感性を考慮した日本語俗語の標準語変換

感性を考慮した日本語俗語の標準語変換

... また,上述の評価対象から外れている若者言葉は,シ ソーラス上から標準語候補を人手により見つけることが できなかったものである.この原因のひとつに,若者言 葉の原単語の意味から,大きく変化してしまっている場 合がある.また,複数の単語での表現が適している場合 には,シソーラスからは正解候補を抽出できなかった. しかし,本研究で目指すのは,若者言葉を,より一般的 な語で言い換えるシステムであるため,言い換え先の語 ...

12

“ 是不是” の日本語訳から見る中日モダリティ形式の対応関係

“ 是不是” の日本語訳から見る中日モダリティ形式の対応関係

... 中日モダリティ形式の対応関係 張 恵 芳 1 要旨 中国語の“是不是”疑問文に関する研究は数多くある。80年代以降、日本語のモダリティ に関する研究の隆盛に伴い、日中モダリティ形式の対照研究も脚光を浴びてきた。日中対 照研究分野において、“是不是” の対応形式は「ノデハナイカ」とされている。しかしな ...

14

『日本語歴史コーパス』短単位アノテーション作業効率化に向けた形態素解析用辞書『UniDic』の段階的特殊化の検討 : 近松コーパスを例として

『日本語歴史コーパス』短単位アノテーション作業効率化に向けた形態素解析用辞書『UniDic』の段階的特殊化の検討 : 近松コーパスを例として

... このように, CHJ 洒落本の中に混在している文体・文法体系は地の文 - 会話文の別だけでな く,江戸 - 上方という方言の違いもある.この問題を解決するための方法として,地の文 - 会話 文の問題を解決したときと同じように,辞書の学習用コーパスを江戸と上方で更に分割すると いう対応が考えられる.ただし,そもそも活用型から異なるような地の文 - 会話文の差に対し ...

13

<研究論文>書き言葉における日本語学習者の文体の使用状況 : 『YNU 書き言葉コーパス』を用いて

<研究論文>書き言葉における日本語学習者の文体の使用状況 : 『YNU 書き言葉コーパス』を用いて

... はじめに 日本語学習者が初めて接する文体はおそらく「デスマス体」であろう。 「デスマス体」を 使い丁寧な言い方をすれば相手に不快な思いをさせずにコミュニケーションができる上に、 「マス形」の活用が「非デスマス体」の活用に比べ学習者にとって負担が少ないためだと 考えられる。しかし、日本人との実際のコミュニケーションでは「デスマス体」以上に「非 ...

19

「多種情報記述による再現性の高い自然会話コーパス構築システム」と その実装としての「立命館日本語学習者会話コーパス」

「多種情報記述による再現性の高い自然会話コーパス構築システム」と その実装としての「立命館日本語学習者会話コーパス」

... 私 読みは「わたし」 うんうん 別の発話者による重なり 行けるかな 上昇イントネーション 図 10 は、発話のスクリプト内に様々な情報が付与される形式である。この形式は情報過 多で、どこが発話内容で、どこが発話に含まれる情報かが分かりにくい。それでもなんと か人間には読むことができるが、機械で検索するには不都合が生じる。発話内容も発話内 ...

30

『現代日本語書き言葉均衡コーパス』利用の手引(DVDデータv1.1対応)

『現代日本語書き言葉均衡コーパス』利用の手引(DVDデータv1.1対応)

... 1.2.2 形態論情報 A. 短単位 BCCWJ にはアノテーションが施されている。最も重要なアノテーションは形態論情報、 つまり文字列を語に分割して個々の語に品詞情報を付与した情報であろう。日本語のテキ ストは通常分かち書きされていないから、形態素解析されていないプレイン・テキストの データから「国語」という文字列を単純に検索すると、目指す「国語」の他に「外国語」 「韓 ...

182

名詞「かたわら」の文法化について : 『日本語歴史コーパス明治・大正編Ⅰ雑誌』の調査による

名詞「かたわら」の文法化について : 『日本語歴史コーパス明治・大正編Ⅰ雑誌』の調査による

... 章では、「理由で」「代わりに」「反面」など、連体修飾構造が文法的な 形式に拡張し、従属的な接続成分に参与して、複文をなすものについて考察を行っている。田中は、 形態的な特徴により、それらを「N デ節」「N ニ節」「(N(無格)節)」の三種類にわけ、それぞれ の類について、被修飾名詞につきそう格の態様(デ格、ニ格、無格など)に注意しながら、前文と ...

21

〈著書紹介〉 前川喜久雄 監修/小磯花絵 編 小磯花絵,前川喜久雄,五十嵐陽介,丸山岳彦,伝康晴,籠宮隆之,西川賢哉,菊地浩平 著『話し言葉コーパス-設計と構築-』

〈著書紹介〉 前川喜久雄 監修/小磯花絵 編 小磯花絵,前川喜久雄,五十嵐陽介,丸山岳彦,伝康晴,籠宮隆之,西川賢哉,菊地浩平 著『話し言葉コーパス-設計と構築-』

... 第 4 章 韻律情報(五十嵐陽介) 韻律情報付与システムとして,日本語版 ToBI(J_ToBI)と,CSJ 構築時に自発音声 用に拡張した X-JToBI,およびその後整備した X-JToBI 簡易版について解説。 第 5 章 対話への情報付与(伝康晴) ...

3

韓国人学習者の日本語作文に見る「的」付き形容動詞の使用傾向と教育への提言― 学習者コーパスと母語話者コーパスの比較を通して

韓国人学習者の日本語作文に見る「的」付き形容動詞の使用傾向と教育への提言― 学習者コーパスと母語話者コーパスの比較を通して

... 記事など硬い文章を中心に広く使われるようになった。接尾辞としての「的」は漢語系語基に 付くことが圧倒的に多く、和語・外来語・混種語、固有名詞や引用句などの語基に付くと、硬 さよりも曖昧性が浮き彫りにされる。根岸(2007,29 30)の調査でも、近年、わかりやすい 文章を奨励する社会的風潮が高まるなかで、文章の質を強く意識するような書き手は、こうし た生産性・利便性がもたらす濫用に対する懸念から、「的」付き形容動詞の使用を控える傾向が ...

16

HOKUGA: 現代日本語書き言葉均衡コーパスコアデータにおけるオノマトペ出現実態に基づくオノマトペ自動抽出手法

HOKUGA: 現代日本語書き言葉均衡コーパスコアデータにおけるオノマトペ出現実態に基づくオノマトペ自動抽出手法

... それらが表現する様子やニュアンス,修飾できる 語はそれぞれやや異なると予想される. これらのことは日本語母語話者にとっては直感 的に理解可能であるが,日本語学習者にとっては 理解が容易ではない.また,自然言語処理などの 工学分野においてオノマトペを利用する場合に も,語義の曖昧さが障壁となる.日本語非母語話 者がオノマトペを適切に使用するためには,ある ...

7

大規模コーパスを用いた日本語の視覚形容詞メタファーの使用傾向の定量的検討

大規模コーパスを用いた日本語の視覚形容詞メタファーの使用傾向の定量的検討

... とくに、本学位論文で取り入れた階層クラスタ分析によって示された使用実態の調 査結果は、資料的な価値を持っていると考えられる。母語話者のコーパスに基づいて、 言語使用に見られるメタファーにおける統語構造の選好性、および、その統語的選好 性と意味カテゴリーとの相互作用を数量的に精査することで、視覚に基づく形容詞の メタファーが日本語母語話者によってどのように慣習的、また創造的に表現されるか ...

170

上級日本語学習者による否定中止形の使用状況 : 「YNU 書き言葉コーパス」の調査を通じて

上級日本語学習者による否定中止形の使用状況 : 「YNU 書き言葉コーパス」の調査を通じて

... 3. 2. 2 学習者のレベル別の使用状況 ここでは、学習者の習熟度のレベルによる使用状況を見る。「YNU 書き言葉コーパス」では、書 き言葉のための独自の評価基準を決め、全作文を評価している。評価項目は、「タスクの達成」「タ スクの詳細さ・正確さ」「読み手配慮」「体裁・文体」の四つであり、それにより総合的な評価が行 われている。否定中止形の使用は、「文法」が含まれている「タスクの詳細さ・正確さ」、また、そ ...

19

『日本語日常会話コーパス』構築におけるPraatの利用

『日本語日常会話コーパス』構築におけるPraatの利用

... TextGrid 形式( Praat のアノテーショ ン形式)でファイルが保存されてしまう。そこで,変更した転記( Praat では TextGrid オブ ジェクト)を, CEJC 転記テキストの形式(タブ区切り形式;図 2 参照)で上書き保存する ツールを作成した (6) 。これにより,作業者はわざわざ転記ファイルに戻る必要がなく, ...

7

YNU 書き言葉コーパスに見られる日本語学習者の接続詞の選択 ‐韓国語母語話者の「それで」の多用に注目して‐

YNU 書き言葉コーパスに見られる日本語学習者の接続詞の選択 ‐韓国語母語話者の「それで」の多用に注目して‐

... 5. まとめと今後の課題 本研究では, 「 YNU 書き言葉コーパス」の 1080 編の作文を対象に日本語母語話者と日本 語学習者の接続詞の使用傾向を調べた。その結果,学習者の母語別,あるいは学習者と日 本語母語話者の間に使用傾向に違いがあることがわかった。特に,韓国語母語話者の場合, 「それで」を多用しており,タスク 12 での使用が目立っていたことから,タスク 12 にお ...

17

『現代日本語書き言葉均衡コーパス』マニュアル(DVDデータv1.0対応)

『現代日本語書き言葉均衡コーパス』マニュアル(DVDデータv1.0対応)

... Disk1,2 の圧縮ファイルを解凍すると、データサイズは最大で約 9 倍まで増加するので、 解凍時にはハードディスクに十分な残量を確保しておく必要がある。解凍前後でのデータ サイズの変化を表 1-3 にまとめておく。 表中の「前」 「後」は「解凍前」 「解凍後」の意味である。PB, LB, OC, OY はファイル数、 データ量が過大なので、圧縮に工夫を凝らしている。 Disk1 では、これらのディレクトリの圧縮 ...

157

森 篤嗣編(2018) 『コーパスで学ぶ日本語学 日本語教育への応用』朝倉書店

森 篤嗣編(2018) 『コーパスで学ぶ日本語学 日本語教育への応用』朝倉書店

... 書き言葉コーパス』(YNU コーパス)を用いた分析について記述し ている. 「導入」では, YNU コーパスの中のタスク 3「デジタルカメラの販売台数につい てのグラフの説明」を例として取り上げ,日本語母語話者,韓国語母語話者,中国語母語 話者の作文を比較している.この際に,自分自身が立てた予測が合っているかどうかにつ ...

4

日本語教育における学習者コーパスの構築とICLEAJ 外国語学部(紀要)|外国語学部の刊行物|関西大学 外国語学部

日本語教育における学習者コーパスの構築とICLEAJ 外国語学部(紀要)|外国語学部の刊行物|関西大学 外国語学部

... による日本語 話し言葉コーパス(トランスクリプト・音声)」には日本人と留学生の接触場面を含む様々な種 類の会話を収集している。 以上のように 2009 年∼ 2011 年の間に一気に整備が進んだといえるだろう。ここでは公開さ れているものだけを取り上げたが、各機関や個人の私用に供するために編纂されているものも ...

9

Show all 6240 documents...

関連した話題