• 検索結果がありません。

 

N/A
N/A
Protected

Academic year: 2022

シェア " "

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

機械学習による予備検索を考慮した効率的な特許調査

文書のベクトル化方法、文書分類の特許調査への応用

○安藤俊幸1)

花王株式会社1)

〒131-8501 東京都墨田区文花2-1-3 Tel: 03-5630-9538 FAX: 03-5630-9712 E-mail: [email protected]

Efficient patent search considering preliminary search by machine learning

Document vectorization method and application of patent classification to patent search

ANDO Toshiyuki 1) Kao Corporation 1)

2-1-3, Bunka, Sumida-ku, Tokyo 131-8501 Japan Phone: +81-3-5630-9538 Fax: +81-3-5630-9712 E-mail: [email protected]

【発表概要】

特許調査の上流工程である予備検索課程に特許調査と機械学習の観点から着目 して自分でできる調査の効率化の基礎検討を行うものである。ブラックボックス化を避 ける為にも特許調査は、最近のAIシステムに丸投げという方向性は目指さず、「人」が 行うべきところと機械学習で行った方が良いところを仕分けする。性能評価方法の考 え方は商用のシステムの性能評価にも応用可能である。

特許調査の観点からは予備検索は調査範囲の確定と検索キー(特許分類、特徴キ ーワード)の抽出が重要である。検討対象としては過去にも検討を行い正解が分かっ ているガスバリア性フィルムの分野の問題を対象とした。

機械学習の観点からは、文書のベクトル化手法としてBag of Word(BoW)モデル、

TF・IDFモデル、分散表現ベクトルのモデルとしてAve-word2vec、doc2vec、 Ave-fastTextを検討した。文書ベクトルのソースとして大別してテキスト(タイトル、要 約、請求項)と特許分類(特にFターム)による文書ベクトルを作成・比較した。

機械学習による文書分類の手法としてはXGBoost(eXtreme Gradient Boosting) パッケージを利用した。XGBoostの他に7種類の文書分類アルゴリズムを検討した。

文書のベクトル化手法と文書分類モデルの性能は交差検証した。結果は概ねTF・ IDF文書ベクトルを用いてXGBoostによる文書分類モデルが良い傾向を示した。

【キーワード】

予備検索、分散表現,doc2vec,word2vec,fastText,機械学習,文書分類,次元圧縮,

特許調査,先行技術調査,特許情報解析,可視化

(2)

1.はじめに

最近、人工知能(AI:Artificial

intelligence)の使用を謳っている特許調 査システムが商用ベースで複数提供さ れている。ただ内部処理はブラックボック スの場合が多い。またAI応用の特許調 査システムの訴求ポイントも様々でありエ ンドユーザーには性能評価も敷居が高 い。

近年、AI の中心技術である各種機械 学習のオープンソースライブラリが容易 に入手可能である。特許調査担当者の 実務的な観点から機械学習を用いた効 率的な特許調査の可能性について検討 してきた1) 。word2vecのような単語の分 散表現手法やそれを文書のベクトル化 に拡張したdoc2vec等の有用性が注目 されている。

本報では文書のベクトル化方法とその ベクトルを用いた機械学習による文書分 類と特許調査への応用を検討した。文 書分類の検討には正解公報の分かって いるガスバリア性フィルムの分野の調査 を対象とした。

2.目的

機械学習の特許調査への応用の目 的として下記の三つの目的を設定した。

① 先行技術調査

予備検索を行い調査対象範囲を確定さ せることで調査の効率化、調査漏れ防止 を検討する。

②技術動向調査

文書・単語ベクトルを次元圧縮して全体 像を直感的に把握して関心がある特許 公報にインタラクティブ(対話的)にアク セスできるような俯瞰・可視化マップを検 討する。

③SDI調査

予め人手で付与した社内分類等を教師 データとして学習させておき定期的に発 生する新規公報に対してどの程度の精

度・再現率で分類できるか確認する。

④類似語・類似文書の抽出支援ツール 注目語・文書の類似語・類似文書の抽 出を支援するツールとして使用できるか 検討する。

3.検討方法

単語のOne hotベクトル表現とは文書 に出現するすべての単語に固有の「そ の単語の有無」を表すベクトルを割り当 てて表現する。単語の出現(種類)数の 次元を要する。単語の出現数が増えると 数万次元におよぶこともある。「単語」の 分かち書き方法は形態素、専門用語、N グラム等がある。

下記①~③に本研究で使用したデータ ベースと関連ツール類を記す。

① 商用特許データベース

サイバーパテント株式会社CyberPatent Desk を日本特許のタイトル、要約、請 求項、FI、Fタームのデータソースとして csv形式でダウンロードして使用した。

CyberPatent Deskの概念検索、日立 Shareresearchの概念検索、Questel社 Orbit.comのセマンティックサーチ、クラリ ベイト・アナリティクスのDerwent

InnovationのSmart Searchを予備検索ツ ールとして使用した。

② 機械学習

機械学習のオープンソースライブラリとし てscikit-learn 0.22.12)、gensim3.8.03)、 XGBoostを使用した。Python3.7.7環境 構築はAnaconda4)を使用して行った。商 用の単語の分散表現作成ツールとして NTTデータ数理システムのText Mining Studio 類義語アドオンツール5)を試用し た。

③ パテントマップ作製・解析ツール 商用のパテントマップ作製ツールとして インパテック社のパテントマップEXZ、特

(3)

許情報の解析ツールとしてQuestel社 Orbit Intelligenceのオプションの分析モ ジュールを使用した。

単語の分散表現:Distributed Representationあるいは単語埋め込み:

word embeddingと呼ばれる手法を用い て単語を比較的低次元(50~500)の実 数ベクトル化して利用する研究は様々な 分野で行われている。

図1.特許文書のベクトル化概要

図1に特許文書のベクトル化処理の概要 を示す。分散表現学習によるword2vec による単語の分散表現学習、doc2vecに よる文書の分散表現学習も同様に行っ た。

4.検討・分析結果

4-1.予備検索検討(課題抽出)

先行技術調査、SDI調査、技術動向 調査を念頭に特許調査の観点から商用 データベースの概念検索(類似検索)、

セマンティックサーチ、Smart Searchを予 備検索ツールとして検討した。

図2に特許調査の検討対象を示す。こ

れは「特許検索競技大会 過去問201 6」として工業所有権協力センター

(IPCC)より出版されている過去問の 2016年の化学・医薬分野の問2である。

先行技術に該当する正解公報49件が 記載されている。請求項1を上述の予備 検索ツールの入力クエリ①とした。

図2.特許調査の検討対象

最初に特許調査の観点から予備検索 により調査範囲の確定と検索キー(特許 分類、特徴キーワード)の抽出を検討し た。

図3.構成要素分析(模範解答)

図3に検索競技大会の構成要素分析の 模範解答例を示す。

検索集合 検索入力 検索対象 分野(IPC)指定

セクション メインクラス 含む正解

* クエリ① 請求項 全分野

*E クエリ① 要約 全分野

* クエリ① 要約 % B全体

* クエリ① 要約 % %

* クエリ② 請求項 全分野

* クエリ② 要約 % B全体

* クエリ② 要約 % %

表1 CyberPatentの概念検索結果 表1にCyberPatentの概念検索結果を 示す。クエリ①は、図2の請求項である。

(4)

クエリ②は、図2に示した層構成に関す る明細書中の説明部分である。

CyberPatentの概念検索はIPCのセクシ ョンを指定して検索対象範囲を限定する ことができる。またIPCのメインクラスを指 定して更に対象を限定できる。正しく検 索対象範囲を限定することで検索集合

(上位1000件)に含まれる正解公報数が 増加する。また検索クエリとして請求項

(クエリ①)より詳細な説明であるクエリ② の方が正解公報が多く含まれる。

CyberPatentの概念検索は同じクエリ① で2017年に検索した結果より格段に含 まれる正解公報数が増えている。

検索集合 検索入力 対象 集合件数 含む正解

G5 クエリ① 全文 377 16

G7 クエリ① 要約 494 8

G8 クエリ① 請求項 373 4

G10 クエリ② 全文 377 16

G15 クエリ② 全文 360 18

G17 クエリ② 全文 373 20

表2. Shareresearchの概念検索結果

表2にShareresearchの概念検索結果を 示す。Shareresearchの概念検索は公報 の検索対象を要約、請求項、全文と指 定することができる。全文を対象にクエリ

②の詳細な層構成の説明部分を入力し た方が良い結果が得られている。

図4.Shareresearchの分かち書き結果

図4にShareresearchのクエリ①のデフォ ルトの分かち書き結果を示す。特徴ター ムを追加・修正・削除したり重み付けを1 から1000の範囲で変更できる。

クラリベイト・アナリティクスDerwent InnovationのSmart Searchのデフォルト

の分かち書き結果を次に示す。「"層" "

酸化ケイ素蒸着層" "熱可塑性樹脂フィ ルム基材層" "ポリビニルアルコール系 樹脂と粘土鉱物を含む塗膜層" "が他の 層を介して又は介さずにこの順に積層さ れてなることを特徴とするガスバリア性包 装用フィルム"」一部に分かち書きが不 適切と考えられる部分がある。

4-2.文書のベクトル化検討

文書のベクトル化手法として表3の5 種類を検討した。BoWモデルは古典的 な非常にシンプルなモデルで出現単語 にIDを付け文書の各単語の有無だけを 集計する。単語の出現順や頻度は考慮 しないOne hotベクトルである。

文書ベクトル化方法

略号 モデル名称

① BoW Bag of Word

② TF・IDF TF・IDF

③ Ave-word2vec average word2vec

④ doc2vec doc2vec

⑤ Ave-fastText average fastText 表3.文書ベクトル化方法

TF・IDFモデルは単語頻度と単語が 出現する文書頻度を考慮して重み付け する。Ave-word2vecモデルは文書に含 まれる単語の分散表現ベクトルの平均値 を使う。doc2vecモデルはword2vecを 文書に拡張したものである。

Ave-fastTextは、word2vecの代わりに fastTextを使用した。表3の③~⑤が分 散表現による文書ベクトルモデルである。

word2vec、doc2vec fastText、のベクト ルの次元数(サイズ)は300、分かち書き した単語を取り込むWindow幅は5、取 り込み最小単語数は1とした。doc2vec の取り込みモデルを選択するパラメータ dm=1で単語の語順を考慮するモデル

(5)

である。公報文書の分散表現ベクトルの データソースとしてはタイトル、要約、請 求項とした。また文書ベクトルのデータソ ースとしてFタームによる文書ベクトルも 検討した。各文書ベクトルを用いて文書 分類精度への影響、次元圧縮による各 文書の俯瞰可視化マップも検討した。

表1のCyberPatentの概念検索結果 の集合G2+G3+G11+G12の合計1064 件(正解公報38件)を母集団として文書 ベクトル化、文書分類を検討した。

図5.TFIDF文書ベクトルの次元圧縮

図5にTF・IDF文書ベクトルのt-SNE による次元圧縮結果を示す。

t-SNE:t-distributed Stochastic Neighbor Embedding(t分布型確率的 近傍埋め込み)は、高次元データの可視 化に適している次元圧縮アルゴリズムで ある。濃い紺色のドットが正解公報であ る。

図6.Fターム文書ベクトル

図6にデータソースがFタームの文書ベ クトル(②TF・IDF)のt-SNEによる次元 圧縮結果を示す。

4-3.文書分類検討

機械学習による文書分類の手法とし て表2の8種類の分類アルゴリズムを検 討した。

XGBoostはBoostingとRandom Forestsを組み合わせて集団学習させる ものでPython用XGBoostパッケージ を使用した。他はscikit-learn の実装 を利用した。

表4.文書分類アルゴリズム

文書分類検討にあたり最初に正解/ノイ ズの2値分類を検討した。文書分類アル ゴリズムはXGBoostが良かった。

図7.XGBによる交差検証結果

図7にXGBによるデータソースがテキス トの5種類の文書ベクトルの交差検証結 果を示す。縦軸が上から①~⑤の文書

(6)

ベクトルである。交差検証による正解率

(accuracy)は①BoW×①XGBが 0.966であった。

図8.Fタームベクトルの交差検証結果

図8にFターム文書ベクトルの交差検証 結果を示す。②TF・IDF×①XGBが 0.963であった。

④GNB分類アルゴリズムは①BoW、

②TF・IDF文書ベクトルに対しては有効 であるが③④⑤の word2vec、doc2vec、 fastTextの分散表現ベクトルに対しては あまり有効ではない。

データソースがテキストの文書ベクトルは 各単語の出現頻度に応じた重み付けが なされるがFターム文書ベクトルは特許 公報に付与される各Fタームの数が1で あることに留意する必要がある。

5.今後の展望

本報では前半で「人」による特許調査 の観点から予備検索について調査範囲 の確定と検索キー(特許分類、特徴キー ワード)の抽出を検討した。後半では「機 械学習」の観点から文書のBoW、TF・

IDFベクトル、分散表現ベクトルを更に教 師データ有りの機械学習の入力データと して文書分類を検討した。各学習モデル のパラメータチューニングはほとんど行っ ておらずデフォルト値を使用している。パ ラメータチューニング、データソースのテ キストとFタームの組み合わせと重み付 け等の設計で改善の余地は大きいと考 える。

6.結論

文書のベクトル化と次元圧縮で文書 集合の俯瞰可視化による概要把握が可 能となる。教師ありの文書分類を組み合 わせることでSDI調査や動向調査の効率 化の可能性を示せた。

7.おわりに

筆者は2008年頃より断続的にテキスト マイニングによる効率的な特許調査手法 を研究してきた。最近は機械学習を用い て効率的な特許調査に取り組んでいる。

まだまだ改善の余地は大きいと考えてい る。今後の検討が楽しみである。

「謝辞」

本報告は2020 年の「アジア特許情報 研究会」のワーキングの一環として報告 するものです。研究会のメンバーの皆様 には様々な協力をしていただきました。

ここに改めて感謝申し上げます。

8.参考文献

[1] 安藤俊幸;桐山勉.分散表現学習 を利用した効率的な特許調査:

文書のベクトル化方法と文書分類への 応用.情報プロフェッショナルシンポジウ ム予稿集.2019,vol.2019,p.31-36.

https://doi.org/10.11514/infopro.2019.

0_31, (参照2020-04-10) [2] scikit-learn

http://scikit-learn.org/stable/ , (accessed 2020.04.10)

[3] gensim

https://radimrehurek.com/gensim/

accessed 2020.04.10 [4] Anaconda

https://www.anaconda.com/, (accessed 2020-04-10)

[5]Text Mining Studio 類義語アドオン https://www.msi.co.jp/tmstudio/TMSSy nonymAddon.pdf, (参照2020-04-10)

参照

関連したドキュメント

この 文書 はコンピューターによって 英語 から 自動的 に 翻訳 されているため、 言語 が 不明瞭 になる 可能性 があります。.. このドキュメントは、 元 のドキュメントに 比 べて

しかし,物質報酬群と言語報酬群に分けてみると,言語報酬群については,言語報酬を与

本論文での分析は、叙述関係の Subject であれば、 Predicate に対して分配される ことが可能というものである。そして o

つまり、p 型の語が p 型の語を修飾するという関係になっている。しかし、p 型の語同士の Merge

なお︑この論文では︑市民権︵Ω欝窪昌眞Ω8器暮o叡︶との用語が国籍を意味する場合には︑便宜的に﹁国籍﹂

て存在するかのように見せられているが、実際はHD上の位置が頻繁に書き換

 さて,日本語として定着しつつある「ポスト真実」の原語は,英語の 'post- truth' である。この語が英語で市民権を得ることになったのは,2016年

BPSD 評価尺度は、 BPSD を客観的に得点化す る。多くは重症度で得点化するが、一部の BPSD 評価尺度では症状の出現頻度で得点化する。負担