• 検索結果がありません。

日本の情報処理技術の足跡:日本語情報処理の諸相:日本語情報検索技術の系譜

N/A
N/A
Protected

Academic year: 2021

シェア "日本の情報処理技術の足跡:日本語情報処理の諸相:日本語情報検索技術の系譜"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)連載 :. 足跡. 情報処理技術の の 日本.  1970 年代. 始. 日立. 当時. 問題意識. , 取. 組. 含. 専門家向. 統制語. 検索. 日本語情報処理の諸相: 日本語情報検索技術の系譜 藤澤 浩道 . 絹川 博之 . 日立製作所中央研究所 [email protected]. 東京電機大学工学部情報メディア学科 [email protected]. 日本語情報検索技術 系譜 語. ,研究所. 先駆的. .技術的 本文. 用. 高度化. 概念的. 連想的. 時代. ,多少. 文献. 含. 紹介. 原理. ,日立製作所 ( 以降,日立.  本稿. 日本語情報検索 話. 技術開発. 含. 裏. 試験運用 件. 漢字仮名混. 1970 年代 取 組. 入. 始. 漢字. 用. 情報. ,. 緒. 日本語処理. .当初 ,1978 年. 標準化 理. ,日立. 日本. .. JIS-1978. 索) 待. 日立漢字情報処. 検索対象. 」 着目 分野. 始. 期待. ,. 分野. 1970 年代. 日本特許情報. (JAPATIC). 日本科学技術情報. (JICST). 情報. 開発. 日本語情報検索技術. 流. 参画. 研 始. 表記 ) .後. 開発. 絹川 述. 基本 登録文献. 単語. 研究所. 1276. .当時. 同社情. 参加. 日本語解析. 取. .. 自然言語処理 自然語. 現. 保守. 手間. 参照. 抽出. 選. ,. ,検索. 場合. 必要. 不便. 概念. ,. 統制語 辞書. 新. 取. ,. 統制語 .. ,. 利便性. 始. 自動. 込. 遅. 損. 問題. 2). 組. ..  絹川. 後,同研究所. 研究. 抄録. 研究対象 研究. 呼 概念. .. 検索語. 介. ,. 集. 次々. 統制語 ,. ,統制語. 事前. 扱. (全文検. 読. .. 自動 1). 当. ,機械翻訳. 日立. 単語. 時. ,本文全文. .. 専門家 表. 開発研究所,以降. ,日本語処理 広. ,. 源. 研究所 ( 現在. 報. 限. ,. ,. 登録. 検索. 検索 .. 情報検索方式. 検索. 文. .. .  日立. 漢字仮名混. 漢字. 書誌的事項. 必要.  当時. ,翌年 1979 年. 「. 日本語情報処理. ,結果. .. 際. 1990 年代. 漢字. 同年 12 月. 製品化. KEIS. 提供. JOIS-III(1990 年 ) 代. .当 約 1,200 万. ,検索. ,完全. 個別. 開発. 入力. 出力. 本格化. JOIS-K. 検索. 日本語処理. 開発. 扱. 含. 対話的. 日本語検索語. 扱. 開始. 抄録. 情報. ,日立漢字. , ,. JOIS-I. 本稼働. JOIS-II. 蓄積. HT-5217. 日本語情報検索の幕開け. 文. 検索. 1976 年. ,欧米. 学術文献. 日立における検索技術の概略史. 各社. 書誌情報. ,上記 JICST. ,1981 年. 時,JOIS-II. 計算機. ,特許. 日本語文献 ,1979 年. ,当時. 通信速度. 1200bps. .. ..  国内. 提供. 発明者・著者. .. 専. 公衆電話回線. ,通常 300bps. 表記 ). 系譜. ,述. 情報部門. .当時. 数理的 可能. ,主. 情報検索. 用. 検索. 情報検索. 門家. 全文検索. 時代,. 方法. 時期. 情報. 検索語. 可能.  . ,情報部門. 用. 時代,自由. .. 存在. 日本語解析. 始. 単語. 44 巻 12 号 情報処理 2003 年 12 月. −1−. 単語 自由語. 行 統制語. , ,単語. 抽出 ,存在 登録.

(2) 日本の情報処理技術の足跡 3). 技術. .. 新しい流れの始まり  1980 年代 乗 始. 入. 少. .. 人々. 思. 文書 始. 人々. ,. 光. 出現. ,. 蓄積. 製品. 各電機. 変化. ,. 文書. 自. 記 応用. 続々. 商品化. 専門家. 作. 一部. 光. 出. . 一般. ,. 検索 予感. ,. ,1983 年頃. 画像. 装置. 電子化. .. 憶 文書. 机上. 時代. 図 -1 . 試作機 TSM-I 概観. ..  同社中央研究所 ( 以降,中研 1984 年 始. .彼. 藤澤. 応用. 4). 文書画像処理. 着目 用. 計画. 存在. 索. 知. 予見. ,自由. 自動. 検索. 課題 検. 考. 考. 始. 構想. 拡.  試作機 出. 必. 一部先進的. .. 取. 常識的 組 Thinking Machine. 2 台購入. Wall Street Journal. 流. 始. .一方,技術論文 有効. . 大変良 容易. 訪問. 試行実験中 研究意義. 確認. ,. 機会. 成 ,. 入. .. 12 台 速度. .検索語. 読. 1,024 語. ,同義語. 一括照 異表記. ,2 段階. 的. 問. 用 済. ,. ,. 試作機 TSM-I(図 -1) 完. 末 100MB/ 秒. 平均 1 万文字. 小. 5. 照合. 実現. 日本語文書 2 万 5 千件. 可能. ,. 5秒. .. 実用期に入った全文検索とそれに続く新しい技術  翌年. ,研究 得. 顧客. 中研. 作機 .. 目 大. 切. 日本語. 明. .. 検索. ,単語. 英語文献検索. 米国特許庁. 成. 1 件当. 魅力的  1986 年春. 解決. 約. 始. .. 直接適用. 行. .1988 年. ,. 研究. 接続. 採用. 議論. ,. 試作. 毎秒 20MB. 加藤. 実現. 読. ,. ,. 設計. ,並列. 文字列照合. 題. 試験的. 出. 原理. 合. ,Dow Jones 社. 社. 本当. 1台. 試作. 特許明細書 1,000 万件. 100 台 ,. 役割. 徹夜. .20 年間分. 全文検索. ,確実. .. 研究所内 5). 装. . 当時. 記事. 率. 型磁気.   状況. 技術者. 言. 事業部門 重要 設計. .. 検索技術. 返 研究所. 求. 15 名. ,大規模文書. ,米国. 使命. 遂. 重要. 距離 .次世代.  . 検索語. 開発中. 実現. 開発. ,. 特許情報検索. 言. 両方進. 日立光. 置 HITFILE. 」 現場 SE. 新技術. 表記. 検索. ,彼 張. .特. ,同義語. 気. 欲. 一方. 当然. 進歩 高度. ,. 事業部門 繰. 特許庁. ,審査官. .. 計画. .. ,当時始. 開始. ,「. 文書. 始. 中研. 考. 検索 知的. ,文書理解技術. ,同時. 研究所. .当時注目. 概念. 開発. TSM-I. 専門. ,素人. 研究  . 流 研究. 研究者 問題点. 知識工学. ,. 文書. 文字認識. 情報検索. 表記 ). 製品化方針. 藤澤. 決定. 製品. 当. ,. .同年夏. ,. 大規模特許情報検索. .当初,試作機. 同様,. 検討. 方針変更. 行. ,1991 年. , 見学者. ,徐々 見. 品. 始. 購入. .第 1 号. 製 限定版製品. 神奈川県議事録検索. IPSJ Magazine Vol.44 No.12 Dec. 2003. −2−. ,. 高性能化. , 製品. 試 現. 1277.

(3) 日本の情報処理技術の足跡 納入. .翌年,正式版. 文検索 出. 製品「高速全 ). Bibliotheca/TS」( 森秀司 ( 当時. .命名. 師長 ). 日新聞社. 世. 事業本部副技. 析. 研究. ,特許庁. 全文検索. 1999 年 13 年後. 研究. 開始. 研究者. ,一方. 長. 加藤. 継続. 成果. 道.  一般. ,. 入. ,. 能力. 実現. .. 新. 新設. 日立. 表記 ). 新. 連想検索. 術 芽. 生.  . 双対型連想検索. 基礎研究. 活動,. 技. 研究. 丹羽,情報. 岩山,. 実装. 具体的. 方向性. 束. 示. 実現. 1995 年頃始. 並行. .DualNAVI. 平凡社「 世. 所. 出. .. ,1999 年. 日立. ,. 実用. 基本. 汎用連想計算. 1999 年. 独創的情報技術育成事業. 係 関係. .. 無償. 公開. .. 高速 開発. 行 ,. 国立情報学研究所. 図書. Webcat Plus 等. ,. 紹介. 類 利用.  . 少. 詳. 先駆的. 取. 流. 影響. 組. .動詞. ,格. 1278. 用. 考. 得. .. 新聞制作. 格 ,組. KEIS. 1975 年. 精度. 付与 多. 言語知識. 高. . ,. 1970 年代後半. 他. 44 巻 12 号 情報処理 2003 年 12 月. −3−. 類. 見. . 新聞記事 281 件 (1,225 文 ) 語彙. 率. 各々 90%. 基本的. 技術. 対象. 見通. 付 得. .. 日立漢字情報処理 ORION. 研究. 行. 表層格 ,. 抽出. 日本語情報検索.  文書. ,日. 扱. 適用. 概念ネットワークによる知的ファイリング 朝. 7種. 表層格構造認定. 基本的課題. 7 割正. 表層格構造に基づくロール付きキーワード抽出  国内. 照合. 率. 至. 紹介. . 格. 分類. 結果,単語辞書. 及. 合. ,表層格. 大規模. 製品適用. 照. 受 認定. 付与. 研究. 格 ,技術. 上記文型. 修飾関係. 一方,名詞. 解析用. .. ,必. 係. 約 600. 分類. 用. ,文型. 修飾先. ,約 1,700 文型 違. 先駆的な取り組み. 含. 用言. 同定. ,体言. .連体形単文. 構成語.  評価実験.  本章. 参照. ,体言同士. 文型. 後,係. 連体形単文. 文型. 認定結果. 本語文解析. 章. .. 省略格助詞. 認定. 1. .. 連用中止形,接続. 分解. 対. 含. 用. 織体,人名,資料名,地名,動作,抽象概念,時. .  以下. 単語辞書. 格助詞,. 認定.  . ,. GETA. 格. 付. 動詞約 5,600 語. 単文. 各用言. ,各単文. 現在,GETA (Generic Engine for Transposable Association) 6). 得. 情報処理振興事業. 1. ,表層格構造認定. 用言. 複文. 関係. .. ,構成語. 受身文中. 受. 石. ,形態素解析. 同定. ,. 基. .. 供. 連想演算. 示. 正規化. 係. 「分子生物学関連. BACE」 ,日立 PatentRetriever. ,図 -2 合. 付接等. 言. 世界中. 定義. .形態素解析. .次. 役割. ,主体,客体,時,場所,. 6 種類. 照. 補填. 東京大学医科学研究. ,. 構. 場合,「A 国」 「主体」. 構成語. 」. 連想検索」 採. 後. 解析. 「. 意味. ,「19XX 年」 「時」. 助詞,使役文. 浅井. ,翌々年. 百科・. ,初. 具体化. 共同研究 始. 完成. 研究.  表層格構造認定 概念. 基礎研所長. .. 方法. 助詞. ,文. 担. 自立語 13 万語,付属語 700 語 .. Stanford 大学. 文. 原理. 文型. 与. ,. ,翌年. ,Science 誌. 可視化 研究. 西岡. 」. 自然文. 得. 単語. ,「19XX 年 A 国. 主題. 解析. DualNAVI 語彙空間. 要素. .. 他.  . ,. .. 1. 担 担. 付. 狙. 役割. 支配. 行 ,自然言語処理. 研究. 油. 始. 対象 「. 抽出. 枠組. .. 表. 協会. 成. 新機能. ,1985 年. 所 ( 以降,基礎研.  . 上. 格段 向上. 概念検索. 新聞記事. 自然語解. 3). 構成. 実現. ,Bibliotheca. .同年. 呼. 高度. 用. 積. 文. 研. 先駆的. 情報抽出技術. ..  1990 年代. 高野. 後. 流 研究. 」 自動的. 実. 技術開発. ,. 自動. 国際政治関連. 正式稼働. .. 始. 基本. ..  . 最初. 絹川・木村. 藤澤. ,. .. ,.

(4) 日本の情報処理技術の足跡 ニュース文入力. 19XX年A国 が世界中の 石油を支配 した. 文節構成語の同定. 付属語表 約700語. 自立語辞書 動詞約5,600語 を含む自立語 130,000語. 19XX年 A国:が 世界中:の 石油:を 支配:した 表層格構造による によるロール付け. 文型表 図 -3 概念. (時):19XX年 (主体):A国 (主題):石油 (活動):支配. 開始. .単語. 自動構築 7) ☆ 1. 研究. 支援. 校正済み インデクス付き ニュース文出力. 技術. ,出現頻度. 高. 抽出. 成果. 製品「探索. 実用化. 日立. 研究 AI 的. 大規模. 工学的. 技. .. ,1980 年代. 1990 年代. 自動抽出方式. 梶・森本. 行 .. 」. 中研. 用. 単語 術. 付. 1994 年. 共起性. 関連 表示装置. 19XX年A国が 世界中の石油を.. (時):19XX年 (主題):石油... 図 -2 . 知的検索 ConceptBrowser. 研究. 会話型校正 サブシステム. 校正リスト. 用. 動詞約600分類 約1,700文型. 大. 前提. 変. .. 文書自動分類 検索 「. 文献検索. 異. 考察. 文書」 検索. 重要. 重要. 多. .. 述 否. 言. 重要. 検索条件 概念. 意味的. 検索. 型推論検索  . 基. ,概念.  . 目標. 示. ,. 面白 実際. ,有効. 使.   築. 概念 評価. ,概念 ,. 類済. 出現 4). 登録 登録. 整理. 現実論. 検索条件作成. 分類. ,. 自動構 支援. ☆1. 用. . ,大量 用. .. ,. 用. 分類. .. 各明細書 「発 解析 .次. ,特定. 表現. ,. 含 位置. この研究は情報処理振興事業協会と日本情報処理開発協会の「次世 代電子図書館システム研究開発事業」の支援を受けた.. IPSJ Magazine Vol.44 No.12 Dec. 2003. −4−. 「分. 分類知識. 各. 学習. 名称」「請求項」. 分. 適用範囲. 教師 上位・詳細. 詳細. 2,815. ,各. 抽出. 基本部分 検索時. 明. .. 研究. 上位分類. 38. 下位. ( 図 -4).. 特許明細書. 知識生成. ,. 以下. ,新規明細書 ,. 自動分類. 特許明細書. 類知識」 自動生成. .. 認. 場面. 困難. 方式 規定. 新聞記事. ,出願. 自動分類. 対話. 関係. 7,000. 間瀬・. 審査業務. .. ,上位. ( 図 -3).. ,約 450 件 概念. 出願特許. ,. Xerox. 超. . 研 特許庁. 空間. 編集. 稼 情報. 8年. 短縮化・効率化. 行. 試作. 研究. 総計 3,500. 覚. 1987 年. .毎年 40 万件. ,. 1990 年. 行. 対話的. ConceptBrowser. 上. 絹川. ,情報検索. 図式的. 始. 化 ,. 特性. .. 受付. 出願. 8). 記憶. 考. ,電子出願. 1990 年 2 月. 示. .. 上位概念 人間. 働. 特許. ,具体的. 容易. 忘. ,.  日本特許庁. ,知. 難. 知 名称. 一度見. ,認知心理学的. 意識. 明示的 具体的. ,自分. 1279.

(5) 日本の情報処理技術の足跡 出現. 項目. ,分類. 名. 数 組. 重 作. .. ,分類. 抽出 限頻度 作. 重. 付 重. 名. 組. 類. 出 ,当該. .. 分類知識. 高.  実験 4 年間. .. 分類. 1993 年. 特許公報. 明細書. .. 31 万件. 用 1 万件. 分類実験. 用. .. 教師. .. 分類知識として統合. 件/. 含. 分. TREC (Text Retrieval Conference) ,. 劣. .. 向上. 詳細カテゴリ用 分類知識. ,近年. NTCIR (NII Test ,実用化. 精度. 階層的分類. 8). 分 実験規模. Collection for IR) 等. 上位カテゴリ用 分類知識. ,約 1,000. 必要 行. 抽出キーワード. 96%,詳. ,分類知識生成.  1997 年. ,上位. 出現頻度に基づく 重み付け. 付与. 正解. 83%. キーワード抽出. 単語辞書 (不要語含む). 抽出元の表現でのキーワード位置と 所属項目数に基づく重み付け. ,. 結果,上位分類. 細分類. 特定の表現からキーワード抽出 (表記ゆれの統一,不要語除去含む). 32 万件. .分類. 答. 3. 類. 分類先 ,専門家. 解析対象項目の選出. .分 照合. カテゴリ別分類 マニュアル. 分類済特許明細. 新規特許明細書. 組. 分類知識. 新規明細書. 似度. 名. 付. 統合. 分類知識自動生成. 新規分類. 付. 望. 際. 分類結果. .. 図 -4 特許自動分類方式. フルテキストサーチ 検索. あいまい検索とテキストサーチマシン  情報処理. 素人. 文書. 登録. ,. 検索. 明 旧漢字. 採用.  . .藤澤・川口・畠山 外来語. 検索漏. 表記. 問題視. 1988 年頃   当. ,「. ,事前. ,内部的. 成 ,. 両方. 」,「. 参照. 作成.  . 実現. 検索語「. Corasick 法. 改良. 「. 「先行 .先 取. 述. ,当. 中. 多数. 流. .. ,. 情報. 法. •. :12 台 法:2 段階. ..  . 100MB/s. 」.  . ,実. −5−. 込. 代表 考. . .. 3 出. 速度 20MB/s. 実現. 高速化 全体. 平均. .. 「文字成分表」 「凝縮本文」 階 用. .文字成分表. 現 関数. 44 巻 12 号 情報処理 2003 年 12 月. 含. 等価走査速度. 文書 文書. 読 的. 結果,. ,1986 ,. 絞. :文字列走査速度 20MB/s. Aho-. 層的. 組. 以下. • 並列小型. ,専用. 凝縮. ) 作. 今. 高速化 読. ,書誌事項検索. (. • 専用. 照合. ,一方. ,. ,. 殺. 主. , 考. .最初 済. 外来語表記. 型 考案. .大規模化.  高速化. 常識的 一括. 先取. 1280. 出. ,. 機能. 検索」. 年. 課題. . 大規模化. 並列検索. 大. ,. .. 」 開発. 台併置. 考. 」 等価. 文字列照合. ,. 検索漏. 」 「. ,複数文字列. 行. 化. 開発. 明. 高速化. 分散. 」 自動生. .. 「. 時. 異表記生成. 約 1,300 項目,国語審議会報告 勧告. 伴. 「. 異表記生成. 」 「. 技術課題. .. 文字列,. 準備. 検索. .. 搭載. 技術. 大. ,新. 検索」 開発. ,検索語. 」 解析. ,特. 同義語・類義語. 装置 HITFILE 検索. 「. 中. 検索手法. 光. 文字列照合. 数. ,1 文書 2048 並. .. 文字 適用. 0. 特殊 2047. 値. 得. ,.

(6) 日本の情報処理技術の足跡 位置. 1. 付属語. 本文. ,接続詞. 助詞. 字列. 本文. 除外. 最初. 立. . 重複. 現. ,最終的 量. 平均 2%.  高速化. 読. 抑. .. ,複合条件. 処理. ,複数. 検索語. 論理条件 (AND,OR),近傍条件 ( 単語間. 文脈条件 (. ,同一文中. 演算子. 用. 距離 ),. 実現. ,検索条件“計算機 [S] 検索” 投入. ,. “計算機” “検索” 同一. 文. 現. RAMディスク (ビットマップ・ 凝縮本文). 文書. 複合条件 判定部. オートマトン型 サーチエンジン. マルチディスク (本文テキスト). .. 判定. 複合条件 解析部. オートマトン 生成. 条件 ). 共起. 検索条件. 複合条件. 同義語 異表記語 展開部. 文字列走査時. .複合条件. 間. “計算機”,“電算機” “電子計算機” “コンピュータ” “コンピューター” “Computer” “COMPUTER”,..... 出. 検索結果 表示部. 検索式解析部. 検索条件式. 文 .. 照合. 本文. “計算機[S]検索”. ,凝縮. 検索結果 格納部. 検索実行制御部. ,. 検索. 図 -5 テキストサーチマシンの構成. ( 図 -5).. 5).  完成. 何度. TSM-I. 出展. 展示会. .LSI 化. 大. ,. 効果. .. 製品化. 方針. 規模 ,. 出. 思. 間. 顧客. ,LSI. 外大. ,. 型. 絶大. 設計. 始 整理. .至急. 欲. 限定版製品. 求. .文書 1 件当. 容量. 拡大. 文書数. 新. 技術. 開発. ,. ,機能. 時間. 現. 検索. 当.  一般. n-gram. (n-gram). 対. 模. 製品. 出. ,各々. 大. , 気運. 1992 年. 文書. 高. ,方針. UNIX. 「半導体」 構成. 走. 3050. 製品「高速全文検索. .. 単語. 存在. Bibliotheca/TS」 誕生. 特許情報 CD-ROM 象. ,. 公開. 増 応. 過. ,更. 高性能化. 研究. 1秒. 速全文検索 開発. 技術 「. 式」 呼 方式. .連接 約 12,000 字種. ,実際. 効率良 不要.  . ,検索性能劣化. 超高. 対. ,自動的. 組合. 対. ,製品. 約 1 億 4 千万 5%. .. ,. 記憶. 普及. 検索速度. HTML 伴. 工夫 達成 利用. 対. 調. 検索性能 大. n. 同. 優 必要. 登録性能. 劣化. 問題. 方式. 要因. 容量. 文字列長. 延長. 「東京」 ,. 京」. 容量. 登録性能. ,高速. 大. n-gram. 作. 除去. 作. bigram. 対象 上. 一部. ,. 容量. n-gram. 「京」 unigram. 「東」. ,新. .. 「東. 著. , 劣化. 可能. 9). .. 満. 概念検索と連想検索. ,本文 .. N-gram に基づく概念検索. 構造化文書(現在. ,論理構造. 各n. ( 図 -6).. 作成. 文字成 構造. ,上記. 後,SGML. XML 文書 ). 参照. 検索. 調 分. 分表. 2 文字 漢字. ,1994 年. .. 見. 単語. n-gram 登録時. 文字成分表方. ,文字成分表. 方式 増加. ,同. 否. n-gram. 文書. 検索. 出荷. Bibliotheca v2. ..  . . 行. 調. 同様. .. 対. 求. 加藤. 特許 100 万件  . 文書件数. 高速化. ,次. 容量. 収. ,膨大. 否 位置関係. 検出. , 後,1990 年代半. .検索時 抽出. ,高速化. .  . 出現. ,本文 「半. 検索語. 登録. 変更. 位置. .. 登録. 連接文字列. 製品. n文字. 2 文字連接 (bigram)「半導」. 場合,. 規. ,連接. 文書. 「導体」 bigram. ,当初. 採用. .. 記憶. 超高速全文検索システムBibliotheca  一度限定版. 新検索方式. 方式. . 導体」. ,多田. ,1997 年 「. 製品化. Bibliotheca2 TextSearch. 出荷. 増大. 方式」 呼. n-gram. 進. 爆発的.  . 細. 指定 文書. 検索. 適. 検索語 ,検索要求. IPSJ Magazine Vol.44 No.12 Dec. 2003. −6−. 含. 1281.

(7) 日本の情報処理技術の足跡 unigramインデクス. 東. 京. bigramインデクス. 都. 京都. trigramインデクス. 都市. 東京都. イ ン デ ク ス 容 量. 京都市. 登録 文書. 都市型. 種文書. 統計情報 抽出. 統計情報. �-gram インデクス作成. �-gram インデクス. 特徴ターム 特徴ベクトル 生成. インデクス不作成 基準インデクス容量. 登録処理. インクリメント. ,. 特 ,絞. 込. 良. ,. 検索語. 検索. 検索語. 追加. 難. ,探. 開発. 通常,文書内容. 抽出. 表 同様 索. 未知語 基本.  . 行. ,n-gram. 検索. 切. 考. 連接文字列. ,n-gram. 連接文字列. 抽出. ,. 特徴. 例. 得.  . 技術. 1999 年. 候補文書. 自然文. 索. ,. ,概念検索. 込. 日立. 「合致. 対. 」. 概念検索. 動的. 入. .. 文書. 単語. 条件. 処理. 入力. 可能. 可能. 行. 適. 対応. .. 替 列. 双対型連想検索システムDualNAVI  DualNAVI 完成. 検索. 空間  双対. 1282. 1996 年頃. 基礎研. 双対性. ,文書. 言葉. 前面. 研究着手 空間. 出 数学用語. 翌年原型.  両者. 単語 ( 索引語 ). ,. 双対性. ,. 重. 付. 与. 列. 連想. 返. 連想 文書 .DualNAVI. 場合. ,. ,. 関連文書. 検索. 美. 計算 実現 ,. ,出力 ,行. 文書,列. 列. 入. 単語. 特徴語抽出 ( 索引付. 検索. 合成. . .連想計算. GETA. .. −7−. 加. 基本演算. 連想計算. 支. 連想. 実現. 44 巻 12 号 情報処理 2003 年 12 月. 自. 実現. .行. 行. 選択. .. 対象. 列. ,単語. 再検索(適合性. 同 ,行. 単語. 相互参照機能 上. 面. 入力. 特徴. 文書. 汎用連想計算 」. 再検索. 対応. 行列. 把. 文書 文書. 可能. 大規模. 結果 検索. 入. 全体像. 検索. 再検. .. 見. 読. , 選. 世界. 表示. 同時. .逆. ). , 検索意図 「合致 評価. 合性. 中.  . ,柔軟. ,検索結果. , 単語. ,. 得. .特. 選択 単語空間. 文書検索用. .. 絞. ,気. 世界. 形. 文書. .. 文書. 語. 関連. 1. 多面的. 検索結果. 概要 密接. 場合,「水」 「不足」. HiRDB. 逆. 右. .. ( 図 -8).. ,左. ,1. 統計情報. 説明 ,今. 立脚. 2面. 握. 双対. 思 双対. 相互. .. 概念検索. 製品. 事前. ,以下. 説明. 問題. 連接文字列. .「検索. 機能. . 出現確率. 双対. 実現. 特長.  画面. 文. 新. 認識. .. 避. 関係. 概念. ,. 問題. 複合語 「水不」. ,単独文字.  . ,語. ,. 対話機能. 概念検. 未知語. 特徴. 実現. 出. ( 図 -7).. 用. , 「水不足」. 2 方向. 後,重要性. 10). 開発. ,. 検索. 複雑. 用. 索引付. 意識. ,検索条件 評価. 2 面性」 意味. 対応. ,. 日本. 単語. 問題. 方式. 語. 対応. 文書. 特徴. 類似度. 日本語解析. 比喩的 「双方向的. 性」 抽象. 作成. 特徴. 半 書. .. 表. 単語. .彼. 解決. 類似. 検索処理. 「概念検索」. 多田・松林.  概念検索 語解析. 自然文. 検索. .. .文書. 問題. 説明. 条件. 難. 除去. .. 文書. 開発本部. 判断. 検索 結果. 図-7 n-gramインデクスによる概念検索. 図-6 インクリメンタルn-gramインデクス方式. 場合. 適合度算出. ). ,. . 文書 文書. 検索 選 2 段階. .. 関連文書検索 連想計算. ,連想計算. 行 検.

(8) 日本の情報処理技術の足跡 国内 1970:特許庁特許情報検索システム 開発開始 1972:日本特許情報センター (JAPATIC):特許情報検索シス テム PATOLIS サービス開始 1976:日本科学技術情報センター (JICST) オンライン文献検索 JOIS-I 稼働(カタカナ情報) 1978:JAPATIC PATOLIS 日本語検索サー ビス開始 1979:日本科学技術情報センター (JICST):漢字が使えるオンラ イン文献検索 JOIS-K 実験サー ビス開始 1981:JICST オンライン文献検索サー ビス JOIS-II 稼働 1983:東京大学文献情報センター設 立 1984:特許庁特許検索システム F タ ーム検索採用 1986:学術情報センター設立 1990:特許庁ペーパレスシステム稼 働・電子出願開始 JICST オンライン文献検索サー ビス JOIS-III 稼働 1991:神奈川県議事録検索システム 稼働. 図-8 DualNAVIの双対ビューインタフェース. 1999:特許庁:全文検索システム稼 働. 索結果. 得. ,. 対応. 得 一段階単語側 多様. 連想計算. 機能. 単語. 文書群. 行. 1 種類. 組合. 右側. ,検索結果. .. ,. 連想計算. 実現. 転置. 特長. .. 始. 組. 日本語情報検索技術 紹介. 日立. 取. .自然言語処理,統計的情報処. 理,. 実装. 方 専門家. 研究者. 発想. 重要. .過去. ,素朴. 問題. 直視. 時. 有効  . 専門性. ,一. 解決. 人 情報環境. 多. ,. 言. 検索. 流. 問題. .個. 解決. .. .. , 今後. 謝辞 本稿. 取. Web. 上位概念 大. 重要. . 分野. 意味的 技術的 執筆. 検索. 進歩. 組. ,. 実現. 期待. 当. 分野. ,日立製作所. . . 旭寛治,. 鳥居哲郎,今城哲二,多田勝己,丹羽芳樹,森本康嗣, 間瀬久雄,永野勝也,細矢良智,日立 小池建夫 感謝. 意. 表. 各氏. 協力. 1978:日立漢字情報処理システム KEIS 製品化. 1983:光ディスクファイリング装置 HITFILE 製品化 1984:知的ファイリングの研究開始 1986:テキストサーチマシン TSM-I 試 作開始 1988:HITFILE650 あいまい検索の搭載 テキストサーチマシン試作機 TSM-I 完成 1992:高速全文検索システム Bibliotheca 製品化 1994:超高速全文検索システム Bibliotheca v.2 製品化 1997:大規模高速全文検索システム Bibliotheca2 1999:文書管理システム DocumentBroker 製品化 HiRDB 概念検索プラグイン製品 化 日立デジタル平凡社「ネット で百科」 1999-2001:汎用連想計算エンジン GETA の開発(情報処理振興事 業協会 (IPA)「独創的情報技術 育成事業」). 表 -1 年表. そして将来へ  1970 年代. 日立社内 1970:漢字ドキュメント編集システ ム HDES の開発 1971-74:速記を漢字仮名混じり日本 文に変換するシステムの開発 1975:自動インデクシングの研究開 始. 参考文献 1) 絹 川 博 之 : 情 報 検 索 の た め の 日 本 語 解 析, 情 報 処 理,Vol.20, No.10, pp.907-910 (Oct. 1979). 2) 藤 澤 浩 道, 絹 川 博 之 : 情 報 検 索 に お け る 自 然 言 語 処 理, 情 報 処 理, Vol.32, No.10, pp.1259-1265 (Oct. 1993). 3) 絹川博之,木村睦子 : 日本語文構造解析による自動インデクシング方式, 情報処理学会論文誌,Vol.21, No.3, pp.200-207 (May 1980). 4) 藤澤浩道 : 概念ブラウザと個人情報ベース−概念知識の体系化のための メディア・スペース,コンピュータ科学,Vol.2, No.1, pp.39-45 (1992). 5) 加藤寛次,藤澤浩道,川口久光,大山光男他 : 大規模文書情報システム 用テキストサーチマシンの研究,情報学基礎 14-6,pp.1-8 (July 1989). 6) 高野明彦,西岡真吾,丹羽芳樹他 : 汎用連想計算エンジンの開発と大規 模文書分析への応用,IPA 2001 年度成果報告集 . 7) 梶 博行,森本康嗣,相薗俊子 : テキストコーパスのトピック階層の抽 出,情報処理学会論文誌,Vol.44,No.2,pp.405-420 (Feb. 2003). 8) 間瀬久雄,辻  洋,絹川博之,石原正博 : 特許テーマ分類方式の提 案とその評価実験,情報処理学会論文誌,Vol.39,No.7,pp.2207-2216 (July 1998). 9) 川下靖司,岡本卓哉,多田勝己他 : 構造化文書対応全文検索システム Bibliotheca2/TextSearch の開発 (1) ∼ (4) ,情報処理学会第 55 回全国大会, 4N-3 ∼ 6,pp.3-107 ∼ 3-114 (Sep. 1997). 10) 松林忠孝,多田勝己,菅谷奈津子他 : 知識指向文書管理基盤の開発 (5) n-gram に基づく概念検索,情報処理学会第 59 回全国大会,5P-11 ,pp. 3-145 ∼ 3-14 (Sep. 1999). (平成 15 年 10 月 6 日受付). .. .. IPSJ Magazine Vol.44 No.12 Dec. 2003. −8−. 1283.

(9)

参照

関連したドキュメント

「系統情報の公開」に関する留意事項

(ECシステム提供会社等) 同上 有り PSPが、加盟店のカード情報を 含む決済情報を処理し、アクワ

SFP冷却停止の可能性との情報があるな か、この情報が最も重要な情報と考えて