業務・システム最適化
と最新検索技術
特技懇編集委員
次世代検索システム体験記
去る11月4日特許庁近くの某ビル内、ついに私達の 目の前に、審査関連次世代検索システムがその姿を現 しつつありました。今回、次世代検索システムについ ての調査研究を担当していただいている日立製作所の 方々のご厚意により、なんと次世代検索システムの検 証用プロトタイプを一足先に体験する機会を得ること ができたのです。
今回体験させていただいたのは、次世代検索システ ムの新機能のうち、日立製作所の方々が開発をご担当 されている、特に『データマイニング』、『概念検索』、『新 分類体系作成支援』の三機能。最前線の開発者から、 マニュアルからは得難い、新検索システムのコア部分 (実現したいこと、思想)についてわかり易く手ほどき を受けつつ、それぞれのプロトタイプを体験すること ができました。三機能とも、現在特実
審査官が用いている検索システムに は無い、多くの魅力が詰まっていまし た。この記事の掲載号発行の頃には、 庁内でも検証用モデルがリリースさ れ、特実審査官の方々は既にこのプロ トタイプの機能を体験済かもしれま せんが、実際に最前線で次世代検索シ ステムの開発に携わっている方々か ら直接説明していただいた貴重な機 会を体験記として報告させていただ きます。
なお、データマイニングや概念検索 といった各検索技術自体については、 本特集内で別途ご紹介させていただ いております。是非、そちらの記事も ご一読ください。
1. データマイニング
1.1. 新機能、ついに起動
次世代検索システムへのログイン後、ついに待望の 新機能の一つ『データマイニング』が画面に姿を現し ました。膨大な審査関連情報から、関連の高い分類や キーワード(データ)を掘り出す(マイニング)機能 とのことなので、早速『自転車』というワードをマイ ニング条件として関連するワードを掘り出していただ きました。数秒後に画面が更新されると、なんといっ ても私達の目を惹いたのは、同時に表示された画面右 下のツリー表示でした(図1)。
従来の検索システムでは見たこともないそのウインド
左下欄の文献は、ワード『自転車』を含むという条 件で検索された結果の文献集団だそうで、確かに自転 車関連の文献が多く表示されています。右下のツリー 表示は、これらの文献の中から頻度の高い情報(今回 の場合はワード)を取り出して頻度順に上から並べた 図とのことで、各ボックスは最も関連の高い他の要素 と線で結ばれていました(図2)。この場合だと、『自転 車』に関連して『駐輪場』・『盗難』・『駅』といった単
検索キーワードに関連しそうな情報を抽出することに よって、検索式の拡張・補充に利用できそうですね。 しかも、ツリー表示中で選択したボックスの情報は 瞬時に左下欄の文献群に反映され、その情報を含む文 献に★マークが付与されます。この★の数で整列させ ることも可能で、それによって、審査官の関心対象の 情報を多く含む文献にアクセスしやすい(スクリーニ ングもできました。)という点は、非常に便利であると 感じました(図3)。
1.3. 検索式の発想をアシストする
マイニング条件は、ワードに限らず分類や自然文に よっても行うことができるようです。日々の先行技術 調査において、「こういった思想のものをサーチしたい が、テキスト・分類がいまいちよくわからない。どの ように検索対象を絞ってよいのかわからない……」と いう悩みは尽きないと思います。そんなときに、例え ば「駅前での自転車の盗難を防止する。」、そんな抽象 的な条件でも関連する分類や検索語を集めてくれる機 能があれば助かりますよね。これは担当分野以外の発 図2 ツリー表示部
図3 文献整列
業務・システム最適化
と最新検索技術
しくは関連文献を拾って技術背景の理解に役立て る(→ 検索式発想に幅が増える)。
検索式作成の発想支援とはまさにこのこと。本機能 の威力が十分に発揮され、審査官の頭で行われている 検索式発想と同様の思考過程がデータマイニングによ るアシストでも達成されれば、当機能は先行技術調査 における審査官の負担を大いに軽減してくれる、頼れ る存在となると感じました。
1.4. 次世代新検索システムへの導入に向けて
今回入力したワードのような明細書に元々ある情報に よるマイニングだけではなく、検索履歴等の審査関連情 報などを元にしたマイニングも可能とのこと。例えば、 本願に関連する出願の審査の際に、どのようなワードや 分類が検索式として用いられる傾向があるか等、特実審 査官の審査ノウハウの発掘・共有においてもデータマイ ニングは威力を発揮するのではないでしょうか。 検証用モデルでの難を言えば、マイニング結果表示 までに時間がかかる、ブラウザの「戻る」機能がある と良い(履歴を使って戻るのは若干手間)、「単語連想」 の精度が若干不透明、といった点はありましたが、検 証用モデルリリースによる試行段階を経て、それらの 点も改善されていくと考えられます。
次世代新検索システムへの導入の際には、マイニング 対象とする文献の拡充(検証段階では平成6 ~ 15年の 国内の特許公報(実用は除く)が対象)の他、例えばマ 明を審査するときに当該分野で良く使われている分類
やテキストを知ることができるなど、かなり期待が持 てる機能なのではないでしょうか。
特実審査官は、ワードや分類の掛け合わせによる検 索を通じて先行技術調査を行っていますが、一つの検 索式で調査を終えることはまずありません。調査中に 派生してきた関連ワードや関連分類をも検索式に組み 込み、試行錯誤しながら常に調査範囲を変化させてい きます。こういったリアルタイムの思考変化での発想 を支援するためにも、ツリーで表示されたボックスの 関連情報や文献自体をマイニング条件にして、一つの 結果からさらに派生した関連情報を表示させるような 機能もしっかり用意されていました(図4)。
以上をまとめてみると、データマイニングを使えば、 自力で関連ワード・分類等を集めて検索式に用いると いう従来型の検索から、以下のように検索式構築のバ リエーションが増えていくのではないでしょうか。
① まずデータマイニングを使ってワード・分類・自 然文等を使って関連する情報を掘り出してみる。 ②-1 関連ありそうなワードが掘り出されるので、それ
らを検索式に組み込んでサーチしてみる (→ 従来 型検索式構築の負担軽減)。
②-2 掘り出された結果中に表示された、本願に近そう な文献・ワードが気になったので、これらをマイ ニング条件として設定し、より類似した文献や関 連ワードの漏れを掘り出す。掘り出された関連ワー ド・分類等を検索語として検索式に補充する、も
図4 文献からの連想
説明を聞いてみると、①本願からデータマイニング と同様に特徴語を抽出、②特徴語に対して自動的に重 みが設定される(図7)、③重みの設定された特徴語が、 どの程度『請求項』に含まれるか、という基準で検索 している、とのこと。つまり、本願の内容に概念的に 近いものが上位に表示される、そういった検索のよう ですね。
従来の特実検索システムだと、このような検索結果 のランキング表示自体が不可能なので、「本願発明の思 想により近いものからスクリーニングしたい」、という ときに非常に便利かと思います。従来にも確かに類似 文献表示機能はあったのですが、どのような概念に基 づいて『類似』と判断されているのかわからず、精度 も若干不透明でしたし……。
今回の概念検索プロトタイプでは、クエリ等を変更 することでどの部分の情報に重点を置くかを審査官が 次に私達が目にすることができたのは『概念検索』
でした。巷でも、一般的な概念検索については最近耳 にしますし、その言葉通り、概念で検索する、と説明 されれば何となく理解できそうなものです。とすると、 導入予定の概念検索と、巷の概念検索や従来型の検索 との違いは何でしょうか。そう考えを巡らせていると、 早速概念検索の画面が立ち上がりました(図5)。 画面を見ると何やら本願の書誌情報と共に『パラメー タ設定』なる欄があり、どうやら、『本願』と概念的に 近い文献を、この『パラメータ設定』によって拾って くる、という点にこの概念検索の特徴があるようです。
2.2. 本願に近いものを、ランキング表示
今回は、検索範囲を『請求項』と設定したときの検
業務・システム最適化
と最新検索技術
今回の概念検索の導入により、本願発明の概念と近 いものを高精度で抽出できるのでは、と期待が高まり ます。
2.3. 概念検索から見えてくること〜技術分野毎にも特徴が〜
興味深いことに、概念検索を行ってみると、技術分 野毎に望ましいパラメータ設定に傾向があるかもしれ ない、というお話でした。例えば、技術分野によっては、 実施例に重点を置いてランキングするとか、Fタームや FIを限定した上で検索を実行する、等の条件を設定し た方が高精度の検索結果が得られる場合があるという ことです。
今回の検証用モデル段階では、これらのパラメータの チューニング機能が付いた状態でリリースされる予定と の話でしたが、ある程度の情報が蓄積されれば、次世代 新検索システムへの導入の際には、それこそパラメータ 設定すら不要となるかもしれません。つまり、特実審査 官は、本願番号を入力するだけで本願発明と思想が近い 文献が(高精度で?)自動的に得られる、という将来像 もあり得るといえます。
設定することができる上、単語や自然文を検索条件と して追加する機能や、本願の特徴語の重み(どれだけ 重要視するか)を補正する機能も付けられていました (※検証用モデルでリリースされるバージョンでは付け
られるか否か不明とのことでした)。
図6 文献一覧表示画面(ウインドウ)
3. 自動分類付与
3.1. 整備された分類情報は検索の大黒柱
審査官向けに先日リリースされた検証用モデルでは 『データマイニング』、『多言語横断検索』、『概念検索』
の機能が体験できたものと思いますが、それらの様々 な検索においても、特許文献の先行技術調査の際には、 発明の分類情報が非常に大きなウェイトを占めると いっても過言ではありません。一方、技術の進歩に応 じて発明の分類は細分化・変化しており、従来の分類 情報だと絞りきれない、といったケースが徐々に顕在 化しています。
最後に『分類付与支援』と『新分類体系作成支援』 いえないでしょう。そのためにも、本願(又は他の出願)
の審査で既に用いられた引用文献について、概念検索 を行った文献ランキング中で何位にあったのか、といっ た情報表示の機能があります(図8の右下欄 ※検証用 モデルでのリリースにおいて本機能はありません)。こ の機能により、得られた結果を元にパラメータ設定を 調整し、(技術分野毎の)精度向上を図って検索に用い る、ということが可能となります。
2.5. クラスタ検索との連携
今回体験することはできませんでしたが、特実審査 官が使うクラスタ検索との連携も非常に魅力的である と考えられます。従来のクラスタ検索では、ランキン グ表示のような機能はありませんでしたが、概念検索
業務・システム最適化
と最新検索技術
文献を再分類するのは、非常に多くの負担を伴うもの であり、実際のところあまり頻繁に行うことはできま せん。導入予定の新分類体系作成支援及び分類付与支 援については、精度がどの程度であるのかが大きなポ イントとはなりますが、この技術により過去文献に対 しても半自動的に再分類することができれば、これま での負担は非常に軽減され、技術進歩に伴った発明分 類が随時可能となるのではないかと期待が持てました。
4. インタビュー
今回の次世代検索システム見学では、実際に開発に 携わられた日立製作所の方々や研究所の方々に直接イ ンタビューさせていただく機会も得ました。
○企業の検索システムにおいても概念検索やデータマ イニングなどは行われていますが、特許庁の検索シ ステムはどのような点が違うのでしょうか。
今回のシステムは、企業で用いられるシステム(例 えば特許マップ作成の手法)等を応用して開発してい ます。データマイニングを利用して検索式を作る、と いう点は企業も特許庁も同じですが、発明の内容に応 を紹介いただきました。分類付与支援は、概念検索技
術を分類付与に適用した技術とのことで、上記問題点 を解消する有力なツールであるとのことでした。『分類 付与支援』とは、分類を付与したい対象文献と類似す る文献を概念検索で抽出し、類似文献に既に付与され ている分類を付与候補として表示できる、という機能 です。この自動分類付与が可能となるだけでも、特許 出願等の分類付けの際に、非常に処理負担を軽減でき るものと思われます。
さて、『新分類体系作成支援』に話を戻しますと、こ れは、内容の似た特許文献同士を集めた塊(クラスタ) を作成する、クラスタリングという技術を応用した技 術であり、分類改正の支援を目的としています。以下 のように、既存の分類を統合したり、分類1,2,…… を分類a,b,……という観点で分類し直したり、といっ た分類改正のシミュレーションが可能となります(図 9)。
3.2. バックログ解析・分類再付与の期待の星か
現状でも新しく分類を作成・変更したい等の要望は 多くあるようですが、過去の文献まで遡ってすべての
図9 分類統合・再分割フロー画面図
例:偏りのある既存分類の再分類
履歴表示
1回目:分類の統合
献や関連情報を抽出してくれるので、それをクラスタ 検索へ展開することによって、サーチ範囲を拡充して いくという目的にも有用かと思います。
○特許庁の検索システムを検討・開発して、初めて気 づいた点はありますか。
審査官の考え方や検索における思考過程について理 解を深めることができたので、どのような検索システ ムが有用なのか、より深いレベルで考えることができ たことも印象的です。
5. おわりに
以上、検証用モデルについて体験記を報告させてい ただきましたが、最後に、この場をお借りして、今回 の取材にご協力いただきました日立製作所の須藤毅様 を始めプロジェクトメンバーの皆様、及び庁内関係者 の皆様に深く御礼を申し上げます。
検索対象とするという点も非常に有用で、共有化され た審査ノウハウを活かした検索が可能、という点も特 許庁内の環境を活かした機能であるといえます。 一般的に、概念検索は、こうすれば類似文献がヒッ トできるだろう、と思って検索してもそう簡単にうま くいくものではありません。特許庁での概念検索の場 合、特許出願に特有の文章の構造や、重要語が文章の どこにあるかを考慮すれば検索精度が(飛躍的に)向 上する可能性もあるので、検証用モデルでの試用段階 を通じて精度向上を図っていく予定です。
○将来的に概念検索等は従来のクラスタ検索を代替す るものとなる、ということでしょうか。
概念検索等は、これによって従来の審査(テキスト、 FI,Fタームを用いたクラスタ検索)が置き換わるので はなく、従来の検索を補完するもの、という位置付け となると思います。適切な場面で概念検索等を利用す ることによって、従来の審査で時間をかけて一つ一つ
日立製作所の開発チームの方々