(1)

機械学習による予備検索を考慮した効率的な特許調査

文書のベクトル化方法、文書分類の特許調査への応用

○安藤俊幸^１）

花王株式会社^１）

〒131-8501 東京都墨田区文花2-1-3 Tel: 03-5630-9538 FAX: 03-5630-9712 E-mail: [email protected]

Efficient patent search considering preliminary search by machine learning

Document vectorization method and application of patent classification to patent search

ANDO Toshiyuki¹⁾ Kao Corporation¹⁾

2-1-3, Bunka, Sumida-ku, Tokyo 131-8501 Japan Phone: +81-3-5630-9538 Fax: +81-3-5630-9712 E-mail: [email protected]

【発表概要】

特許調査の上流工程である予備検索課程に特許調査と機械学習の観点から着目して自分でできる調査の効率化の基礎検討を行うものである。ブラックボックス化を避ける為にも特許調査は、最近のAIシステムに丸投げという方向性は目指さず、「人」が行うべきところと機械学習で行った方が良いところを仕分けする。性能評価方法の考え方は商用のシステムの性能評価にも応用可能である。

特許調査の観点からは予備検索は調査範囲の確定と検索キー（特許分類、特徴キーワード）の抽出が重要である。検討対象としては過去にも検討を行い正解が分かっているガスバリア性フィルムの分野の問題を対象とした。

機械学習の観点からは、文書のベクトル化手法としてBag of Word(BoW)モデル、

TF・IDFモデル、分散表現ベクトルのモデルとしてAve-word2vec、doc2vec、 Ave-fastTextを検討した。文書ベクトルのソースとして大別してテキスト（タイトル、要約、請求項）と特許分類（特にFターム）による文書ベクトルを作成・比較した。

機械学習による文書分類の手法としてはXGBoost(eXtreme Gradient Boosting) パッケージを利用した。XGBoostの他に7種類の文書分類アルゴリズムを検討した。

文書のベクトル化手法と文書分類モデルの性能は交差検証した。結果は概ねTF・ IDF文書ベクトルを用いてXGBoostによる文書分類モデルが良い傾向を示した。

【キーワード】

予備検索、分散表現，doc2vec，word2vec，fastText，機械学習，文書分類，次元圧縮，

特許調査，先行技術調査，特許情報解析，可視化

(2)

１．はじめに

最近、人工知能（AI:Artificial

intelligence）の使用を謳っている特許調査システムが商用ベースで複数提供されている。ただ内部処理はブラックボックスの場合が多い。またAI応用の特許調査システムの訴求ポイントも様々でありエンドユーザーには性能評価も敷居が高い。

近年、AI の中心技術である各種機械学習のオープンソースライブラリが容易に入手可能である。特許調査担当者の実務的な観点から機械学習を用いた効率的な特許調査の可能性について検討してきた¹⁾ 。word2vecのような単語の分散表現手法やそれを文書のベクトル化に拡張したdoc2vec等の有用性が注目されている。

本報では文書のベクトル化方法とそのベクトルを用いた機械学習による文書分類と特許調査への応用を検討した。文書分類の検討には正解公報の分かっているガスバリア性フィルムの分野の調査を対象とした。

２．目的

機械学習の特許調査への応用の目的として下記の三つの目的を設定した。

① 先行技術調査

予備検索を行い調査対象範囲を確定させることで調査の効率化、調査漏れ防止を検討する。

②技術動向調査

文書・単語ベクトルを次元圧縮して全体像を直感的に把握して関心がある特許公報にインタラクティブ（対話的）にアクセスできるような俯瞰・可視化マップを検討する。

③SDI調査

予め人手で付与した社内分類等を教師データとして学習させておき定期的に発生する新規公報に対してどの程度の精

度・再現率で分類できるか確認する。

④類似語・類似文書の抽出支援ツール注目語・文書の類似語・類似文書の抽出を支援するツールとして使用できるか検討する。

３．検討方法

単語のOne hotベクトル表現とは文書に出現するすべての単語に固有の「その単語の有無」を表すベクトルを割り当てて表現する。単語の出現（種類）数の次元を要する。単語の出現数が増えると数万次元におよぶこともある。「単語」の分かち書き方法は形態素、専門用語、N グラム等がある。

下記①～③に本研究で使用したデータベースと関連ツール類を記す。

① 商用特許データベース

サイバーパテント株式会社CyberPatent Desk を日本特許のタイトル、要約、請求項、FI、Fタームのデータソースとして csv形式でダウンロードして使用した。

CyberPatent Deskの概念検索、日立 Shareresearchの概念検索、Questel社 Orbit.comのセマンティックサーチ、クラリベイト・アナリティクスのDerwent

InnovationのSmart Searchを予備検索ツールとして使用した。

② 機械学習

機械学習のオープンソースライブラリとしてscikit-learn 0.22.1^２）、gensim3.8.0^3）、 XGBoostを使用した。Python3.7.7環境構築はAnaconda⁴⁾を使用して行った。商用の単語の分散表現作成ツールとして NTTデータ数理システムのText Mining Studio 類義語アドオンツール⁵⁾を試用した。

③ パテントマップ作製・解析ツール商用のパテントマップ作製ツールとしてインパテック社のパテントマップEXZ、特

(3)

許情報の解析ツールとしてQuestel社 Orbit Intelligenceのオプションの分析モジュールを使用した。

単語の分散表現：Distributed Representationあるいは単語埋め込み：

word embeddingと呼ばれる手法を用いて単語を比較的低次元（50～500）の実数ベクトル化して利用する研究は様々な分野で行われている。

図１．特許文書のベクトル化概要

図１に特許文書のベクトル化処理の概要を示す。分散表現学習によるword2vec による単語の分散表現学習、doc2vecによる文書の分散表現学習も同様に行った。

４．検討・分析結果

４－１．予備検索検討（課題抽出）

先行技術調査、SDI調査、技術動向調査を念頭に特許調査の観点から商用データベースの概念検索（類似検索）、

セマンティックサーチ、Smart Searchを予備検索ツールとして検討した。

図２に特許調査の検討対象を示す。こ

れは「特許検索競技大会過去問２０１６」として工業所有権協力センター

（IPCC）より出版されている過去問の 2016年の化学・医薬分野の問２である。

先行技術に該当する正解公報49件が記載されている。請求項1を上述の予備検索ツールの入力クエリ①とした。

図２．特許調査の検討対象

最初に特許調査の観点から予備検索により調査範囲の確定と検索キー（特許分類、特徴キーワード）の抽出を検討した。

図３．構成要素分析（模範解答）

図３に検索競技大会の構成要素分析の模範解答例を示す。

検索集合検索入力検索対象分野（IPC）指定

セクションメインクラス含む正解

* クエリ① 請求項全分野

*E クエリ① 要約全分野

* クエリ① 要約 % B全体

* クエリ① 要約 % %

* クエリ② 請求項全分野

* クエリ② 要約 % B全体

* クエリ② 要約 % %

表１ CyberPatentの概念検索結果表１にCyberPatentの概念検索結果を示す。クエリ①は、図２の請求項である。

(4)

クエリ②は、図２に示した層構成に関する明細書中の説明部分である。

CyberPatentの概念検索はIPCのセクションを指定して検索対象範囲を限定することができる。またIPCのメインクラスを指定して更に対象を限定できる。正しく検索対象範囲を限定することで検索集合

（上位1000件）に含まれる正解公報数が増加する。また検索クエリとして請求項

（クエリ①）より詳細な説明であるクエリ② の方が正解公報が多く含まれる。

CyberPatentの概念検索は同じクエリ① で2017年に検索した結果より格段に含まれる正解公報数が増えている。

検索集合検索入力対象集合件数含む正解

G5 クエリ① 全文 377 16

G7 クエリ① 要約 494 8

G8 クエリ① 請求項 373 4

G10 クエリ② 全文 377 16

G15 クエリ② 全文 360 18

G17 クエリ② 全文 373 20

表２． Shareresearchの概念検索結果

表２にShareresearchの概念検索結果を示す。Shareresearchの概念検索は公報の検索対象を要約、請求項、全文と指定することができる。全文を対象にクエリ

②の詳細な層構成の説明部分を入力した方が良い結果が得られている。

図４．Shareresearchの分かち書き結果

図４にShareresearchのクエリ①のデフォルトの分かち書き結果を示す。特徴タームを追加・修正・削除したり重み付けを1 から1000の範囲で変更できる。

クラリベイト・アナリティクスDerwent InnovationのSmart Searchのデフォルト

の分かち書き結果を次に示す。「"層" "

酸化ケイ素蒸着層" "熱可塑性樹脂フィルム基材層" "ポリビニルアルコール系樹脂と粘土鉱物を含む塗膜層" "が他の層を介して又は介さずにこの順に積層されてなることを特徴とするガスバリア性包装用フィルム"」一部に分かち書きが不適切と考えられる部分がある。

４－2．文書のベクトル化検討

文書のベクトル化手法として表３の5 種類を検討した。BoWモデルは古典的な非常にシンプルなモデルで出現単語にIDを付け文書の各単語の有無だけを集計する。単語の出現順や頻度は考慮しないOne hotベクトルである。

文書ベクトル化方法

略号モデル名称

① BoW Bag of Word

② TF・IDF TF・IDF

③ Ave-word2vec average word2vec

④ doc2vec doc2vec

⑤ Ave-fastText average fastText 表３．文書ベクトル化方法

TF・IDFモデルは単語頻度と単語が出現する文書頻度を考慮して重み付けする。Ave-word2vecモデルは文書に含まれる単語の分散表現ベクトルの平均値を使う。doc2vecモデルはword2vecを文書に拡張したものである。

Ave-fastTextは、word2vecの代わりに fastTextを使用した。表3の③～⑤が分散表現による文書ベクトルモデルである。

word2vec、doc2vec fastText、のベクトルの次元数（サイズ）は300、分かち書きした単語を取り込むWindow幅は5、取り込み最小単語数は1とした。doc2vec の取り込みモデルを選択するパラメータ dm=1で単語の語順を考慮するモデル

(5)

である。公報文書の分散表現ベクトルのデータソースとしてはタイトル、要約、請求項とした。また文書ベクトルのデータソースとしてFタームによる文書ベクトルも検討した。各文書ベクトルを用いて文書分類精度への影響、次元圧縮による各文書の俯瞰可視化マップも検討した。

表１のCyberPatentの概念検索結果の集合G2+G3+G11+G12の合計1064 件（正解公報38件）を母集団として文書ベクトル化、文書分類を検討した。

図5．TFIDF文書ベクトルの次元圧縮

図5にTF・IDF文書ベクトルのt-SNE による次元圧縮結果を示す。

t-SNE:t-distributed Stochastic Neighbor Embedding（t分布型確率的近傍埋め込み）は、高次元データの可視化に適している次元圧縮アルゴリズムである。濃い紺色のドットが正解公報である。

図6．Fターム文書ベクトル

図6にデータソースがFタームの文書ベクトル（②TF・IDF）のt-SNEによる次元圧縮結果を示す。

４－3．文書分類検討

機械学習による文書分類の手法として表2の8種類の分類アルゴリズムを検討した。

XGBoostはBoostingとRandom Forestsを組み合わせて集団学習させるものでPython用XGBoostパッケージを使用した。他はscikit-learn の実装を利用した。

表４．文書分類アルゴリズム

文書分類検討にあたり最初に正解／ノイズの２値分類を検討した。文書分類アルゴリズムはXGBoostが良かった。

図7．XGBによる交差検証結果

図7にXGBによるデータソースがテキストの５種類の文書ベクトルの交差検証結果を示す。縦軸が上から①～⑤の文書

(6)

ベクトルである。交差検証による正解率

（accuracy）は①BoW×①XGBが 0.966であった。

図8．Fタームベクトルの交差検証結果

図8にFターム文書ベクトルの交差検証結果を示す。②TF・IDF×①XGBが 0.963であった。

④GNB分類アルゴリズムは①BoW、

②TF・IDF文書ベクトルに対しては有効であるが③④⑤の word2vec、doc2vec、 fastTextの分散表現ベクトルに対してはあまり有効ではない。

データソースがテキストの文書ベクトルは各単語の出現頻度に応じた重み付けがなされるがFターム文書ベクトルは特許公報に付与される各Fタームの数が１であることに留意する必要がある。

５．今後の展望

本報では前半で「人」による特許調査の観点から予備検索について調査範囲の確定と検索キー（特許分類、特徴キーワード）の抽出を検討した。後半では「機械学習」の観点から文書のBoW、TF・

IDFベクトル、分散表現ベクトルを更に教師データ有りの機械学習の入力データとして文書分類を検討した。各学習モデルのパラメータチューニングはほとんど行っておらずデフォルト値を使用している。パラメータチューニング、データソースのテキストとFタームの組み合わせと重み付け等の設計で改善の余地は大きいと考える。

６．結論

文書のベクトル化と次元圧縮で文書集合の俯瞰可視化による概要把握が可能となる。教師ありの文書分類を組み合わせることでSDI調査や動向調査の効率化の可能性を示せた。

７．おわりに

筆者は2008年頃より断続的にテキストマイニングによる効率的な特許調査手法を研究してきた。最近は機械学習を用いて効率的な特許調査に取り組んでいる。

まだまだ改善の余地は大きいと考えている。今後の検討が楽しみである。

「謝辞」

本報告は２０20 年の「アジア特許情報研究会」のワーキングの一環として報告するものです。研究会のメンバーの皆様には様々な協力をしていただきました。

ここに改めて感謝申し上げます。

８．参考文献

[1] 安藤俊幸；桐山勉．分散表現学習を利用した効率的な特許調査：

文書のベクトル化方法と文書分類への応用．情報プロフェッショナルシンポジウム予稿集．2019，vol.2019，p.31-36．

https://doi.org/10.11514/infopro.2019.

0_31, (参照2020-04-10) [2] scikit-learn

http://scikit-learn.org/stable/ , (accessed 2020.04.10)

[3] gensim

https://radimrehurek.com/gensim/

accessed 2020.04.10 [4] Anaconda

https://www.anaconda.com/, (accessed 2020-04-10)

[5]Text Mining Studio 類義語アドオン https://www.msi.co.jp/tmstudio/TMSSy nonymAddon.pdf, (参照2020-04-10)