• 検索結果がありません。

Webを母集団とした超大規模コーパスの開発 : 収集と組織化

N/A
N/A
Protected

Academic year: 2021

シェア "Webを母集団とした超大規模コーパスの開発 : 収集と組織化"

Copied!
27
0
0

読み込み中.... (全文を見る)

全文

Loading

図 3 ネットワーク構成(論理構成)  図中 XXXXXX とあるのが国語研の既存のセグメントである。スイッチは基本的にはギガビッ トスイッチを利用している。F4SW が超大規模コーパス開発用サーバほか各種機材を格納するセ グメントで,F4NE が外来研究者が持ち込む機材を接続するためのセグメントである。外来研究 者が持ち込む機材はルーターの DHCP サービスにより自動的にアドレスが付与されるほか,超 大規模コーパスサーバ群への接続が許可され,B フレッツ経由で外部ネットワークに接続するこ とができるが,
図 4 2012 年第 4 四半期収集ページの重複  図 4 に 2012 年第 4 四半期収集 Web ページの重複検出結果について示す。同じハッシュ値を持 つURL が複数存在することを「衝突」と呼ぶ。グラフ横軸は同じハッシュ値を持つ URL 数を示し, 「衝突回数」と呼ぶ。グラフ縦軸は横軸の「衝突回数」を持つ衝突事例数(URL 数ではなくハッシュ 値の異なり数で計算)を示す。グラフは両軸とも対数で表示している。グラフ中の左上の点が表 2 の「内容の重複なしページ数」(他の URL と内容が重複しないペ
図 6 2012 年第 4 四半期収集文の同一性 表 5   BCCWJ の nwc-toolkit-text-filter の適用による変化 ジャンル名 文数 バイト数 処理前 処理後 変化率 処理前 処理後 変化率 LB  書籍 * 451,273 394,782 0.87 186,908 176,792 0.95 OB  書籍 * 222,437 203,467 0.91 23,236 22,242 0.96 OC  知恵袋 42,506 45,082 1.06 369,004 368,572 1.0
表 8 2012 年第 4 四半期収集データとグーグル『Web 日本語 N グラム』との比較 頻度順位上位 10 件(5-gram 〜 7-gram)

参照

関連したドキュメント

Windows Server 2012 Windows Server 2016 Red Hat Enterprise Linux 6 Red Hat Enterprise Linux 7 VMware vSphere 6 VMware vSphere 6.5 VMware vSphere 6.7 Oracle VM 3 UNIX サーバ.

Two kinds of SF wetlands purify water better than FWS wetland, however there is not obvious difference between two kinds of SF wetlands with gravel and artificial fillings.. Two

1着馬の父 2着馬の父 3着馬の父 1着馬の母父 2着馬の母父 3着馬の母父.. 7/2

PAR・2およびAT1発現と組織内アンギオテンシンⅡ濃度(手術時に採取)の関係を

本格的な始動に向け、2022年4月に1,000人規模のグローバルな専任組織を設置しました。市場をクロスインダスト

1-1 睡眠習慣データの基礎集計 ……… p.4-p.9 1-2 学習習慣データの基礎集計 ……… p.10-p.12 1-3 デジタル機器の活用習慣データの基礎集計………

データベースには,1900 年以降に発生した 2 万 2 千件以上の世界中の大規模災 害の情報がある

サービス時間: 平日 9:00 ~ 17:00 (土日祝を除く ).. 納品書に記載のある「製品にアクセスする」ボタンをクリックし、 My HPE Software Center にログインを頂き