大規模対訳コーパスの構築

Top PDF 大規模対訳コーパスの構築:

〈プロジェクト紹介〉超大規模コーパス構築プロジェクト 日本語Webコーパスの構築 : 利活用

〈プロジェクト紹介〉超大規模コーパス構築プロジェクト 日本語Webコーパスの構築 : 利活用

浅原 正幸 (あさはら・まさゆき) 国立国語研究所言語資源研究系・コーパス開発センター准教授。博士(工学)(奈良先端科学技術大学院大学)。奈良先 端科学技術大学院大学助手・助教,国立国語研究所コーパス開発センター特任准教授を経て,2014 年 10 月より現職。 主な著書・論文:Archiving and analysing techniques of the ultra-large-scale web-based corpus project of NINJAL, Japan (Alexandria 25(1―2), 2014), BCCWJ-TimeBank: Temporal and event information annotation of Japanese text (International Journal of Computational Linguistics and Chinese Language Processing 19(3), 2014).
さらに見せる

11 さらに読み込む

JAIST Repository: マイクロブログからの対話コーパスの自動構築

JAIST Repository: マイクロブログからの対話コーパスの自動構築

図 3.7: リプライ数を取得する手順例 検討した手法 1. も手法 2. も実現が難しかったため、本研究では、除去対象 とする不特定多数へ呼びかけを含む対話を大喜利のみとする。大喜利は特定 Twitter ユーザがアカウントを開設して運営していることが多く、大喜利お題 ツイートは比較的容易に検出できる。まず、ユーザ名やプロフィールに「大喜利」 というキーワードを含んだユーザ ID を取得し、大喜利アカウントであるかを人 手で判定し、大喜利アカウントリストを作成する。結果として、61 個大喜利 ユーザからなるアカウントリストを得た。そのリストを用いて、リストに含まれ ているユーザ ID と収集した対話最初ツイートユーザ ID を比較する。ユー ザ ID が一致している場合は大喜利ツイートとみなして除去する。
さらに見せる

47 さらに読み込む

大規模分散フレームワーク Hadoop を用いた接尾辞配列構築 (計算機科学とアルゴリズムの数理的基礎とその応用)

大規模分散フレームワーク Hadoop を用いた接尾辞配列構築 (計算機科学とアルゴリズムの数理的基礎とその応用)

new ロセスとどのプロセスを通信させるかを厳密に記述 できる. Hadoop では,通信は Hadoop が自動的に割 り振るので, MPI ように通信を自由に記述できな いが,逆に言えば,煩わしい通信コードを書く必要 がなく,プログラミングが非常に単純になる.また, 計算機故障に対し,Hadoop が自動的に対処してく

4 さらに読み込む

JAIST Repository: 単語境界が明示されていない言語を対象とした 対訳辞書の自動構築

JAIST Repository: 単語境界が明示されていない言語を対象とした 対訳辞書の自動構築

4.3 実験結果 表 4.1 に2つパラレルコーパスから抽出された訳語対候補数を示す.ここで訳語 対候補は,3.5 節で述べた 4 つヒューリスティクスを適用する前ものである.法律 パラレルコーパス方が新聞パラレルコーパスと比べて文数が多いが,獲得さ れた訳語対候補は新聞パラレルコーパス方が多い.新聞方が法律よりも多様な単 語が使われているためと考えられる.また,文字 2-gram に分割した後に得られる訳語 対候補数は,新聞パラレルコーパスでは単語分割や文字 1-gram ケースよりも多 いが,法律パラレルコーパスでは逆に少なくなっている.表 4.2 は,3.5 節ヒューリ スティクスを適用し,誤りと思われる訳語対候補を削除した後訳語対候補数を示 している.新聞,法律とも訳語対候補数が減っているが,法律方がより多く訳語 対が削除されていることがわかる.法律コーパスでは,英語数字と中国語条文番 号組が多く獲得され,これらがルールによって削除されたためと考えられる.
さらに見せる

48 さらに読み込む

JAIST Repository: 小説からの対話コーパスの自動構築

JAIST Repository: 小説からの対話コーパスの自動構築

本研究では、小説から複数登場人物による連続した台詞を抽出し、それを対 話として大量に集めた対話コーパスを自動的に構築することを目的とする。小説 における台詞は人発話であり、複数人による連続した台詞は対話とみなすこと ができる。小説における対話は著者作例であるが、対話としては自然なので、こ れを集めた対話コーパスは、自然な雑談を実現する自由対話システム開発に有 用である。また、小説では様々なトピック対話が出現し、数も非常に多い。した がって、小説は対話コーパスを自動構築するため情報源として適している。し かし、小説から単に台詞を抽出するだけでは不十分である。対話コーパスではそ れぞれ発話に対して話者情報を付与することが求められる。本研究では、台 詞を発した登場人物を特定し、その人物とともに台詞を抽出する手法を提案する。 本研究は、日本語小説を対象に、小説から対話コーパスを自動構築する初めて 試みである。
さらに見せる

47 さらに読み込む

2H1-5 大規模リワード広告システムにおける行動履歴と広告属性を利用したコンバージョン予測モデルの構築

2H1-5 大規模リワード広告システムにおける行動履歴と広告属性を利用したコンバージョン予測モデルの構築

ベースライン手法と提案手法は,ユーザ初回来訪時に無 作為に選択して配信し,2 回目以降来訪時には初回に選択さ れたベースライン手法か提案手法どちらか方法で配信を 行う.この配信方式では,ユーザがランダムにどちらか手法 配信対象になるため,同一ユーザに両方手法で配信され ることはない.提案手法では,ユーザ過去クリックや CV 履歴を使用して予測を行うため,新規ユーザに対してはレコ メンドをすることができない.この場合には,ベースライン手 法と同様配信方法によって広告を表示する.レコメンド評 価指標としては,CVR を用いる.
さらに見せる

4 さらに読み込む

大規模観測データ解析システム システムの概要と構築・設定、性能評価

大規模観測データ解析システム システムの概要と構築・設定、性能評価

 それぞれ処理では,大まかに以下ような作業 を行っている.11次処理用データ準備では次 CCD 解析で必要となる各種データ(Bias, Dark, Flat, Fringe, Sky)を作成する.2CCD解析では1で作成し たデータを使用し,CCD毎に生データ一次処理と天 体カタログを作成する.3位置とフラックススケー ル決定では次天体データ足し合せ準備として, 足し合わせるために必要な各 CCD 位置関係を表す 座標情報と,明るさ関係を表すフラックススケール 情報を導き出す作業を各フィルター毎に行う.4 背景光補正と天体データ足し合せでは3で作成した フラックススケールファイルと CCD 座標ファイル を用いて,天球面座標を平面座標に投影したデータを 生成し,観測された全ショット積分を行う.そして 背景光を引いた後に天体を検出しカタログを作成する. 5マルチバンド解析では4最後で生成された各フィ ルター毎カタログを統合し,そのカタログを元に天 体測定を行い新たなカタログを生成する.これら解 析処理うち,3以外はコマンド単体で分散バッチ処 理ためインターフェースを備えており,1つ解 析処理をノードを超えた複数 CPU コアを用いて並 列処理することが可能である.
さらに見せる

11 さらに読み込む

HOKUGA: 英語ライティングクラスのための観光コーパス構築に関する研究

HOKUGA: 英語ライティングクラスのための観光コーパス構築に関する研究

一方で,我が国実際英語教育場面では,一部を除き,英語で自由な自己表現機会が 十 に与えられているとは言い難い。Kobayakawa(2011)は,高等学 英語 英語 および ライティング 検定教科書各5冊について, 書くこと 課題(task)量的比較 析を行った。その結果,4技能 合的な訓練を目指す 英語 および 英語 では, 埋 め(fill-in-the-blanks)問題をはじめ,制限作文や日本文を見て一文を埋める問題等が多く, ラ イティング では和文英訳や制限作文課題が多く設定されていた。自由英作文課題は,各5 冊課題中で 英語 では 2.39%, 英語 では 3.47%,そして ライティング においても 3.35%を占めているに過ぎない。文部科学省言う 実践的コミュニケーション能力 育成ためにも,自由英作文を積極的に取り入れ,書く機会を増やす必要がある。 に,ここ に示されたような英語教育を受けてきた高 生を受け入れる大学英語教育においては,自由に 自 たちことや身近なことを英語で表現する機会を与えることは,その大きな柱となるべきで あろう。
さらに見せる

31 さらに読み込む

超高速・大規模ネットワーク向け分散協調型高度ネットワーク管理システムの構築

超高速・大規模ネットワーク向け分散協調型高度ネットワーク管理システムの構築

TOUR : Tohoku University Repository コメント・シート 本報告書収録学術雑誌等発表論文は本ファイルに登録しておりません。なお、このうち東北大学 在籍研究者論文で、かつ、出版社等から著作権許諾が得られた論文は、個別に TOUR に登録

12 さらに読み込む

大規模情報時代の科学的リテラシーとしての統計思考力について (教育数学の構築)

大規模情報時代の科学的リテラシーとしての統計思考力について (教育数学の構築)

この枠組みに変化が生じたは $2O$ 世紀終盤である.この時期,複雑な非線形方 程式で表現される流体など非線形現象,人間行動や心理が関与しゲーム的要素 を含んだ経済現象,多く要素が複雑に相互関連する規模な人エシステムや生命 現象などに対しては,従来解析的方法では実用的な解を与えることができなかっ た.しかし,ちょうどこの時期,計算機と計算技術が飛躍的に発展し,これまで歯 がたたなかった複雑なモデルに対しても,その挙動を直接シミュレーションする計 算科学が確立した.伝統的な二つ科学的方法論がいわば研究者知識とひらめき に依存した職人芸科学的方法論と考えるならば,新たに発展した計算科学は計算
さらに見せる

7 さらに読み込む

高汎用性教室英語の発話コーパス構築の課題と蓄積の方向性

高汎用性教室英語の発話コーパス構築の課題と蓄積の方向性

7.結 論  本節では,高汎用性教室英語発話コーパス構 築課題と蓄積方向性についてまとめる。  教室発話コーパス構築について,発話コーパス 蓄積意義と方法(第1,2節),そして諸課題(第 3,4,5節)について論じてきた。発話コーパ スが書き起こしを必要とする性質上,音声収録 機会確保とタグ付けは避けては通れない問題で ある。また,蓄積ということを考えると,書き起 こしたテキストに標識付けするタグセット設定 方向性は大きな意味を持つ。第6節で述べたよう なタグセット設定が,話者レベル発話抽出, 使用言語調査(目標言語言使用割合,発話数, 語彙リストなど),授業展開や,活動内容ごと 発話調査,非言語情報描写などに結びつく。こ れら情報は第2.2節で述べたように大きく2 つ活用法がある。第一は研究者に対して言語 資料提供である。書き起こされたデータは希少 で特に国内英語母語話者データは定量化され
さらに見せる

12 さらに読み込む

目次 1. 音と音声 2. 音声研究 : 合成 認識 3. 音声コーパスとは 4. 大規模コーパスから見えること 5. 音声コーパスの利用 6. 音声コーパス類似性の可視化 7. 音響データベース 8. まとめ 市民講座

目次 1. 音と音声 2. 音声研究 : 合成 認識 3. 音声コーパスとは 4. 大規模コーパスから見えること 5. 音声コーパスの利用 6. 音声コーパス類似性の可視化 7. 音響データベース 8. まとめ 市民講座

パネル討論 「多様なニーズに応える言語資源」司会: 板橋秀一 国立情報学研究所特任教授 「言語資源協会(GSK)現状と課題」 橋田浩一 産総研サービス工学センター次長 「NTCIR活動と言語資源扱い」 神門典子 国立情報学研究所教授 「NICTにおける音声・言語資源」 鳥澤健太郎 情報通信研究機構グループリーダー

60 さらに読み込む

Webを母集団とした超大規模コーパスの開発 : 収集と組織化

Webを母集団とした超大規模コーパスの開発 : 収集と組織化

 研究機関などにおいては,情報通信研究機構(NICT)・京都大学などがそれぞれクローラを 用いて Web アーカイブを構築し,整形したデータを一般公開している。例えば,NICT は検索 エンジン基盤 TSUBAKI(Shinzato et al. 2008)を構築し,約 345GB(非圧縮)規模日本語係り 受けデータベース(情報通信研究機構 2011)を公開した。京都大学は Web データ 16 億文を用 いて自動構築した格フレームを公開した(河原・黒橋 2006, 京都大学大学院情報学研究科黒橋研 究室 2008)。これら二つデータは形態素解析のみならず係り受け解析や格解析まで処理が行 われている。官公庁においては,国立国会図書館(NDL)が官公庁自治体 Web サイトや冊子 体から電子版に移行した雑誌保存を目的として,インターネット資料収集保存事業(国立国 会図書館;関根 2010)を 2006 年より本格事業化している。NDL Web アーカイブでは保存が 主目的であり,同一 URL を複数回収集し,経年変化を確認できるようなユーザインターフェイ スが提供されている。様々な技術集積により,検索エンジンを運営している企業やコンテン ツを保持している企業だけでなく,個人でも Web スケール言語資源を構築することが可能に なっている。矢田(2010)は形態素解析用辞書 IPADIC 見出し語 Yahoo! Web API による検 索結果を収集することで約 396GB 規模(非圧縮)テキストアーカイブを作成し公開している。 筑波大学は矢田と同様手法で 11 億語規模コーパス構築している(今井ほか 2013)。また 「Corpus Factory」(Kilgarriff et al. 2010)というプロジェクトにおいて,10 10 (100 億語) TenTen
さらに見せる

27 さらに読み込む

JAIST Repository: 琉日機械翻訳のための対訳コーパスの自動拡張について

JAIST Repository: 琉日機械翻訳のための対訳コーパスの自動拡張について

実験では,拡張なし(初期対訳コーパスのみを用いる手法),先行研究拡張 手法,ランダム選択,品質のみを考慮した拡張手法(2 種類スコアによる),品 質と多様性を考慮した拡張手法,品質を考慮した選択とランダム選択を組み合わ せた拡張手法を評価した.各提案手法で構築した拡張対訳コーパスを用いて統計 的機械翻訳モデルを学習し,琉球方言テスト文を標準語に翻訳し,その正確性を BLEU と RIBES を指標として評価した.その結果,品質と多様性両方を考慮す ることによって,ランダム選択と比較して BLEU が最大 1.24 ポイント,RIBES が 最大 2.54 ポイント向上した.多様性を考慮することで,多様性を考慮せずに品質 のみを考慮した手法よりも BLEU が 7 ∼10 ポイント,RIBES が 5∼8 ポイント向上 した.さらに,拡張対訳コーパス量を変化させ,それによる BLEU と RIBES 変化を調べた.文数が多いほど BLEU もしくは RIBES が低下した.拡張なし 手法より評価指標が高くなったは文数が 2,000 文ときだけであった.
さらに見せる

49 さらに読み込む

大規模不法行為出現の背景

大規模不法行為出現の背景

はじめに 1980年代アメリカでは多数当事者で構成される訴えが、連邦およ び州裁判所を問わず全米各地裁判所で提起されてきた。何十万を超える 原告が被告である多数会社を相手取り、建築物倒壊など規模事故、 加工食品や薬剤など製造物瑕疵、そしてアスベストなど有毒物質によ る人身被害に対する損害賠償を求めたである (1) 。1980年代はこのような (1) 1970年代後半から1980年代に訴えが提起されたものには、規模事故として1977 年The Beverly Hills Supper Club Fire(ビバリーヒルズ・サパークラブ火災、See, Peggy Lane, 159 Bodies Recovered in Club Fire, W ASH . P OST , May 30, 1977 at A l.)、 1980年 The MGM-Grand Hotel Fire(MGMホ テ ル 火 災、See, Pamela G. Hollie, Hundreds Are Injured as Blaze Traps 3,500 on the Upper Floors, N.Y. T IMES , Nov. 22, 1980, at A.)、1981年The Hyatt Skywalk Collapse(ハイアット高架連絡通路崩壊、 See, Lawsuits in Hyatt Tragedy Total at Least Eight, UPI, July 23, 1981, available in L EXIS /Nexis Library, UPI File.)、1986年 The DuPont Plaza Hotel Fire( デ ュ ポ ン プラザホテル火災; Marcia Coyle, A $105 Million DuPont Solution, N AT L L.J., May 22, 1989, at 3.)がある。製造物瑕疵による規模不法行為は既に1962年に高脂血症治療 薬であるMER-29による白内障および皮膚ならびに頭皮異常が報告されており(See, Morton Mintz, Jail Terms Sought for Business Health, Environment Violators;Prison Terms Sought for Health and Environment Violators, W ASH . P OST , Nov. 25,1979, at Al.)、その後訴えが提起されている。1977年には1956年から1983年にかけて販売 された吐気と嘔吐治療薬であるBendectinを服用した妊婦から出生した新生児に四 肢異常があったことから、初めて製薬会社に損害賠償請求がなされている(See, Mekdeci v. Merkle Nat l Labs., 711 F.2d 1510 (11th Cir. 1983).)。1980年には多く製 薬会社で製造されていたジエチルスチルベストロール(diethylstilbestrol: DES)に よる子宮ガン発症損害賠償がカリフォルニア州最高裁判所で認められている(See, Sindell v. Abbott Laboratories, 607 P.2d 924 (1980).)。また、1974年には避妊具ダ ルコン・シールドによる損害賠償訴訟が提起され、陪審による賠償認容評決が出 されている(Deemer v. A.H. Robins Co, No. C-26420 (D. Sedgwick County, Kan., filed
さらに見せる

25 さらに読み込む

大規模データ天文学の進展

大規模データ天文学の進展

• データ移動を極力避ける解析システム  望遠鏡・観測装置大型化、高機能化 • 高品質なデータ、取得コスト増大  科学成果最大化 • 取得したデータを 速やかに解析 できる環境構築

33 さらに読み込む

「大規模プラントの最適保全方策《

「大規模プラントの最適保全方策《

規模プラントはシステム、装置、機器、部品といった構成要素が階層的に結合してい る。各構成要素に対してはその健全性を維持するため保全が施され、その結果としてプ ラント機能が達成される。この意味で保全は重要であるが、保全にも複数種類がある。 また保全はコストを要し、過剰な保全は許容されない。即ち保全適正化を図り、プラン ト信頼性、経済性を許容できるレベルに保つことが重要である。
さらに見せる

9 さらに読み込む

大規模コーパスを用いた日本語の視覚形容詞メタファーの使用傾向の定量的検討

大規模コーパスを用いた日本語の視覚形容詞メタファーの使用傾向の定量的検討

しれない。一方、 「暗い」は、特定固有名詞と共起しにくい傾向が示された。統語的 には使用できても、物事「陰気・憂鬱」といった否定的なあり様を特定固有名詞 に関連付けて表現することは控えられているかもしれない。 形容詞が叙述用法で使われた文機能は、とくに日本語場合には、修飾語と被修 飾語をつなぐ助詞選択に左右される。「明暗」メタファー形容詞が叙述用法をと ったとき助詞使い方を調べたところ、両形容詞ともに、助詞「は」が最も多く使 われていることが確かめられた。日本語形容詞文特徴として、主観的な外部世界 状態記述をするか、人間内面的世界描写をするかに応じて、助詞「は」 と「が」使い分けや、それとともに現れる名詞性格も変化するという (大石 2007) 。 形容詞叙述用法が使われる動機は、あえて被修飾語名詞を強調したいとき、つま り単に指示対象を主語として示すではなく、それを話題化するという動機があるは
さらに見せる

170 さらに読み込む

JLPTUFS作文コーパスの構築について

JLPTUFS作文コーパスの構築について

10 留日センターでは、各教育コース・プログラム運営ほかに、教育研究開発に関わる各 種プロジェクトをセンター内公募形により毎年複数実施している。 「全学日本語プログラ ム」を対象とした作文コーパス作成については、2008 年度に新規プロジェクト 1 つと して立ち上がった(担当者:鈴木智美、中村彰、伊集院郁子)。プロジェクト予算は留日セ ンター教育改革費(留日センター長裁量経費)であったが、この作文コーパス作成は、具体 的には 2008 年度秋学期より始動するプロジェクト計画であったため、2008 年度には、この プロジェクトによる留日センター上記経費使用は生じていない。
さらに見せる

12 さらに読み込む

Learning Bayesian Network from data 本論文はデータから大規模なベイジアン ネットワークを構築する TPDA(Three Phase Dependency Analysis) のアルゴリズムを記述 2002 年の発表だが 現在も大規模用 BN モデルのベンチマークと

Learning Bayesian Network from data 本論文はデータから大規模なベイジアン ネットワークを構築する TPDA(Three Phase Dependency Analysis) のアルゴリズムを記述 2002 年の発表だが 現在も大規模用 BN モデルのベンチマークと

L内(X,Y)について以下を繰返し連結を増やす。 XとY最小介在ノード群 C を見つける(最初はCは存在しない) I(X,Y|C) > ε ならXとYを連結する   (3) 連結を 縮約 する過程 (Thinning)

18 さらに読み込む

Show all 10000 documents...