働き方改革に貢献する
「ドキュメントキャプチャーサービスへの取り組み」
株式会社
PFU
サービスインテグレーションビジネスユニット
ドキュメントサービス戦略担当
豊田康英
本社 (石川県かほく市)
PFU会社概要
代 表 者 代表取締役社長 長谷川 清 売 上 高 1,306億円(2016年度連結決算) 社 員 数 4,497名(PFUグループ、2017年3月31日現在) 資 本 金 150億円 株 主 富士通株式会社(100%) 関 係 会 社 国内11社、海外8社【 国内関係 11社 】
PFU北海道(株)、PFU東日本(株)、PFU西日本(株)、 PFUクオリティサービス(株)、PFUテクニカルコミュニケーションズ(株)、 PFUテクノワイズ(株)、 PFUテクノコンサル(株)、 PFUビジネスフォアランナー(株)、PFUライフエージェンシー(株)、 PFUヒューマンデザイン(株)、PFUクリエイティブサービス(株)【営業拠点 全国7拠点】
• 横浜本社/営業部 • 北海道支店 • 東北支店 • 北陸支店 • 東海支店 • 関西支店 • 九州支店 保守拠点 全国 約120拠点プロフィール
ProDeSセンター (石川県かほく市) 横浜本社 (神奈川県横浜市)【 海外関係 8社 】
PFU上海計算機有限公司、上海必優信息系統有限公司、江蘇南通必優信息系統有限公司、PFU America Group Management, Inc.、 Fujitsu Computer Products of America, Inc.、KnowledgeLake, Inc.、 PFU (EMEA) Limited、PFU Asia Pacific Pte. Ltd.
事業内容
• コアテクノロジー研究開発 • 組込みコンピュータ • 情報KIOSK • セキュリティ・アプライアンス製品 • ドキュメントソリューション • ICTインフラソリューション • セキュリティソリューション • サービスインテグレーション • イメージスキャナ • イメージ処理技術 • イメージングソフトウェア • ICTインフラサービス • マルチベンダー構築/運用/保守 • 標的型サイバー攻撃対策支援サービス • IT-LCM技術の追求と、相互の連携。
Smart Communicationを実現する、
4つのビジネスドメイン。
PFUの働き方改革向けサービス
PFUはイメージスキャナのイメージング技術の活用
や、15年以上に渡るドキュメントソューションの提
供実績、社内実践をベースに、ICTの積極的な活用
と実践的なドキュメントの運用をサポートします。
PFUのドキュメントイメージングサービス
クラウドサービス化
活用・破棄
蓄積
出力
OCR
識別
取込み
ドキュメントキャプチャー
サービス
ドキュメントセキュリティ
サービス
イメージファイリング
サービス
-業務プロセス-
入出力対象 定型・準定型帳票OCR 本人確認証OCR 手書きOCR 全文OCR処理 (Recognition Server) 定型・準定型帳票認識 (FlexiCapture) カメラスキャナOCR■お客様のビジネス文書の利活用シーンに合わせて,業務の電子化をベース
として日常業務作業の効率化に寄与します。
ドキュメントイメージングサービス
入力デバイス
スキャナ MFP・FAX スマートフォン タブレット・カメラ 請求書 見積書 領収書 証明書 クラウド (BOX,Office365、 各種クラウド)RPA連携
基幹システム ECM連携サービス連携
文書セキュリティ 特 定 業 務 帳 票 一 般 業 務 帳 票 ワークフロー ファイルサーバ メール・クラウド出力先
取 込 み 結 果 出 力 連 携 メールBOX ・ ・ ・■紙文書の取り込み,帳票仕分,定型/準定型OCR,出力機能を提供
ドキュメント キャプチャー サービス
キャプチャー
OCR
(DynaEye)
OCR
(ABBYY)
画
像
処
理
取
り
込
み
仕
分
帳
票
識
別
結
果
チ
ェ
ッ
ク
結
果
出
力
クラウド BOX,Office365 RPA 連携 基幹システム ECM連携連携先
ファイルサーバ メール/クラウド Office365出力先
スキャナ MFP/FAX スマートフォン タブレット・カメラ入力元
機能 フロー 説明 • 帳票イメージ登 録 • OCR向け画像処 理 • 帳票を識別し仕 分 • OCR処理に画像 を渡す OCR処理を行い 文字データを抽 出 • OCR結果を確認 • 元画像と比較 • 誤り修正、確定 OCR結果を元画像 と共に出力 • フォーマット変換 • 連携I/Fにて結果 を連携 詳細 ◆取り込みデバイ ス ・スキャナ ・カメラ ・複合機(MFP) ・フォルダ監視 ◆フォーマット ・画像、PDF ◆画像処理 ・傾き台形補正 ・ノイズ除去 ・2値化 ◆識別方法 ・帳票ID ・タイトル ・レイアウト ・仕切紙 ・ページ数 ◆帳票種別 ・定型 ・準定型 ・非定型 ◆OCR対象 ・活字 ・手書英数 ・手書日本語 ・バーコード ◆確認 ・画像/矩形表 示 ・画像拡大/縮 小 ・画像回転 ・文字秘匿 ◆修正 ・文字修正 ◆確定 ・ダブルチェッ ク ・結果確定 ◆出力先 ・一時保存領域 ◆テキストデータ ・CSV ◆画像フォーマッ ト ・元画像 ・PDF化(画像の み) ・PDF化(Text 付) ◆連携先 ・業務システム ・RPA/RDA ・ECM ・ワークフロー ・外部クラウド ・API連携 ①取り込み 画像処理 ②識別 仕分 ③OCR ④確認 修正 ⑤結果出力 処理 ⑥データ連携ご参考:帳票種類の定義
種類
定型帳票
準定型帳票
非定型帳票
定義
フォーマットが同じ帳票
フォーマットは異なるが記載項目に高い
規則性がある帳票
フォーマット、記載項目に規則性が低い帳票
特徴
・同一フォーマット帳票のみに対応
・帳票1種類に対して1定義
・抽出対象項目の位置が決まっている
・フォーマットは一致している必要性なし
・記載項目に高い規則性がある
・抽出対象項目のルール化が可能
・フォーマットは一致している必要性なし
・記載項目にも規則性なし
・抽出対象項目のルール化ができない
帳票例
申込書
調査書
アンケート
テスト
領収書
保険証券
健康診断書
住民票
契約書
レター
報告書
帳票
イメージ
OCR
処理方法
定型帳票OCR
→定型帳票の定義体を使った方式
準定型帳票OCR
→項目名から項目値を取得する方式
定型帳票OCR
→全文OCRで記載情報をテキスト化する
帳票種類に応じたOCR処理方式を選択
Captureニーズの変化
自由度の拡大(定義レス)
入力デバイスの拡大
ScanSnap
fiスキャナ
スマホカメラ
定型帳票
非定型帳票
人力定義
セミオート定義
フルオート定義
帳票種類に応じた項目名と 項目値を自動抽出深層学習による認識
メーター・ナンバープレート
タブレットカメラ
帳票項目
抽出技術
対象帳票の拡大
準定型帳票
医療領収書
保険証券・健康診断書
契約書
報告書・・・
項目名を指定し、 項目値は自動抽出手書き数値
(フリーピッチ)
日本語手書き文字
カメラスキャン
キャプチャー・OCR技術への取り組み
お客様の課題解決に向けて、様々なOCR技術開発に積極的に取組み続けています。
①入力デバイスの拡大(スキャナからタブレットカメラへ)
②OCR読取定義の自動化(人力定義、セミオート定義、フルオート定義への進化)
③読み取り対象を拡大(本人確認証、準定型帳票、視覚のデジタル化への展開)
入力デバイス
画像処理
OCRエンジン
ターゲット帳票
スキャナ
タブレットカメラ
Windows iOS Androidスキャナ用画像処理
カメラ用画像処理
・状態検知撮影技術 ・アスペクト比変換技術 ・モバイル二値化技術 ・カメラスキャン技術人力定義
(どの帳票の何処の何を
読みたいか)
定型帳票
DynaEye EX
セミオート定義
(どの帳票のどの項目を
読みたいか)
フルオート
(どの帳票を読みたいか)手書き日本語OCR
(フリーピッチ数値)本人確認証
運転免許証、 マイナンバー、在留カード、 特別永住者証明書、保険証準定型帳票
保険証券、医療領収書 レシート・領収書 凡例) 既存の技術 現在注力している技術 今後の取り組み非定型帳票
契約書、報告書視覚のデジタル化
メーター ナンバープレート技術開発の取組み
カメラスキャナの機能概要
タブレットのカメラを使って、帳票に
かざすだけで
スキャンします。
A4サイズのような帳票でも、素早くきれいに撮影できます。
■カメラスキャナの特徴
特長①:状態検知撮影
特長②:アスペクト比変換
優先2
nd不定形なレイアウト対応
高解像度の撮影で、小さい文字まで可読することが可能
※A4で200dpi以上、8ptはクリアに文字が読める。但し、解像力はデバイスに依存する。タブレットで撮影
撮影画像
特長③:モバイル二値
「かざしてスキャン」
状態検知撮影(手ブレ検知・ボケ判定)
特許出願済
手ブレ検知・ボケ判定により撮影状態を判定し、高画質な撮影を行う
静止画:高解像度
Step1
動画撮影
Step2
状態判断
Full HD 1920x1080
動画:低解像度
8M 3840×2160
Step3
静止画撮影
手ブレ検知
原稿が動いていないか
ボケ判定
各点のボケ量を算出
静止画撮影での手ブレをいかに
抑えるか
課題
解決手段
複数の状態判定をリアルタイム
に検出することで実現
小さい文字でも綺麗に
ボケなく撮影することが可能
特長
主要なカード型本人確認書類を自動認識
本人確認書類で活用ニーズの高い下記3種を自動判別し、
高精度に文字認識。
<運転免許証>
氏名、氏名フリガナ、生年月日、住所、
免許番号、交付日、有効期限、
免許の色、免許種類、免許の条件等、
取得日(二/小/原、他、二種)、
公安委員会、顔写真位置
<マイナンバーカード>
氏名、住所、生年月日、性別、
有効期限
【裏面】 個人番号(QRコード)
<在留カード>
番号、氏名、居住地、生年月日、性別、
有効期限、国籍、交付日、満了日
出力項目
① 1製品の購入だけでOK(複数製品不要)
② アプリケーション開発が簡単(書類判定の開発不要)
メリット
※認識対象書類としては「通知カード」「特別永住者証明書」もサポート
カメラスキャンにより関連書類も併せてスキャン
本人確認書類以外の関連書類のスキャンをサポート。
文書として最適な画像を生成。
<仕様>
• A4サイズまで
• 10ポイントの文字の判読性を確保
メリット
① タブレット活用用途の拡大
② カメラスキャナの購入不要
クロッピング
台形補正
台形での
映り込み
技術開発の取組み
準定型帳票OCRの概要
No 項目名
1
氏名
2
診療の区分
3
請求期間
4
負担割合
5
点数合計
6
患者負担額
7
手術料
8
放射線治療料
9
先進医療技術料
従来手法のような帳票の位置で認識するのではなく、
帳票に記載されている「認識したい項目」を定義することで認識を実現
図1.認識したい項目
図2.帳票の項目と抽出したい値
定義した
項目名(青枠)
を帳票から見つけ、
関連する値(赤枠)
を自動的に抽出
• 事前に全ての帳票レイアウトは不要
• レイアウトが異なる帳票ごとに定義不要
レイアウトが異なる帳票を認識可能
メリット
PFU技術特長①:二値化技術
(地紋・網掛け除去機能)
課題
地紋がある帳票・網掛け帳票では、「項目名」や「項目値」の文字認識が困難。
ノイズ・カスレの無い文字を抜き出す二値化技術が必要。
地紋除去
地紋のある原稿
他社結果
PFU二値
スキャナ向けに自社開発したPaperStream IPの
二値化技術を採用
PaperStream IP 二値化技術:感度、太さ、かすれ補正などの 豊富な文字再現オプションにより帳票にあった二値化を実現効果:地紋のある原稿でも、ノイズの発生を抑え、
文字を良好に再現
網掛け除去
他社結果
PFU二値
帳票から網掛けを自動検出、網掛けを除去
医療系領収書には網掛けが多く、一般的な二値化では文字を 抽出できない効果:網掛けがある帳票でも文字だけ二値化
OCRに適した二値画像を生成することで、文字認識精度を向上
技術開発の取組み
手書き文字認識への取組み
設備点検等の作業現場において、手書きで記入している
帳票のデータを活用したいが、タブレット導入の敷居は高い。
このため、現状の紙での運用を活かしつつ、データ化を
効率化したい。
●課題
・フリーピッチに対し
「文字の抽出」「つながり文字」「クセ」
への対応が困難、かつ住所・氏名等の項目に限られ、精度が低い。
・数値については「はしご枠」を定義して、1文字ずつ記載する
必要あり。
背景
従来手法の課題
従来のOCR技術では、自由手書き文字(フリーピッチ:1文字毎に
罫線で区切られない表記)の認識は下記課題より困難。
新しい技術による「手書き文字認識」の取組みが必要
手書き数値(フリーピッチ)OCRの特徴
技術開発の取組み
メーターOCR(メーターの測定値認識)
「視覚のデジタル化技術」により「設備点検の効率化」を図ります。
• タブレットカメラをメーターへかざすだけで数値読み取り
→人手を排除することにより入力・転記ミスを抑制
• エビデンス(写真)を残すことで再点検時の訪問不要
技術説明
ビジネス開発の取組み
ⅴ.クラウドサービスビジネス
Cloudサービスへの取り組み
~ScanSnap Cloud~
ScanSnapがオフィスや家庭でインターネットにつながり、PCやスマートデバイスを介さずに
クラウドサービスへ直接連携できるサービスです。スキャンするだけで、電子化されたデータ
が自動的に最適なクラウドサービスにつながるので、仕事やくらしがもっと便利になります。
※ScanSnap Cloudは、オフィスや家庭でのWi-Fi環境を前提としたサービスとなります。公衆無線LANサービスは 未サポートです。外出先では、モバイルルーターやスマートデバイスのテザリング機能でご利用いただけます。ScanSnap Cloudと連携するクラウドサービス
様々なクラウドサービスと連携
ビジネス系クラウドサービスとの連携を強化。ScanSnap Cloudのサービス
拡充に向けて、さらなるパートナー連携を実現していきます。
PFUの新たな取り組み
PFUのCloud Capture Service
・お客様が手軽に使えるキャプチャー処理をクラウドサービスとして提供
・RPAに連携する請求書や納品書から医療領収書などの高度な帳票OCRに対応
特長
・スキャナでアップロード ・モバイルアプリでアップロード ・Webアプリでアップロード (Web-API,EX.S-Cloud) ・複合機でスキャンしてアップロード 共有フォルダAI Capture Platform
汎用OCR
専用OCR
(医療領収書、保険証券、本人確認・・・)
結
果
出
力
出力先 Office365 メール/クラウド ファイルサーバBPOサービス
データ入力画
像
処
理
取
り
込
み
仕
分
帳
票
識
別
修
正
確
認
・
Speed
:手軽にお試しできるので事前に導入効果が確認可能
・
Low Cost
:紙文書を扱う入力業務の効率化を低コスト・短期間で開始
・
Value Added
:RPA活用連携によるさらなる作業の効率化,生産性向上
・
Advanced Technology
:先進のAI-OCRにより難しかった帳票の定義設定を容易に
クラウド (BOX, 各種サービス) RPA連携 基幹システム ECM連携 連携先 キャプチャー処理プロセス 初期サービス 運用サービス(ヘルプデスククラウドファイルサーバ連携,お客様業務システム連携,他)