リーフファイル品質チェックツール
PharmaDoc LeafCheckerの紹介
プラネットファーマソリューションズ株式会社 2018年06月01日
注意事項
本資料の説明内容に含まれるAcrobatの挙動に関しま しては、弊社担当者の推測並びに意見が含まれますので、 ご留意ください
3
目次
LeafCheckerの紹介 最新バージョン(Ver.5.0/5.1)の紹介とデモ 今後の開発予定 調査報告 PDFの非表示テキストとは PDFのコピー&ペーストで文字化けする文字とは 調査報告に関しまして興味のあるお客様は、当日アンケートの質問No.20 の 調査報告書の送付希望にチェックを入れてください。後日送付しますPharmaDoc LeafChecker とは
製薬会社、医療機器メーカー、CRO等で作成されたリー フファイルの品質チェックを行い、チェック結果を出力する Acrobatプラグインです リーフファイル上に直接、不具合箇所の指摘を行う機能も あります5
PharmaDoc LeafCheckerの
67
のチェック項目チェック項目の推移
0 10 20 30 40 50 60 70Ver.1.0 Ver.2.0 Ver.3.0 Ver.4.0 Ver.5.1
合計 eCTD QC点検
7
チェック結果の出力先
チェック出力先フォルダーの例 7 指摘注釈 指摘テキスト チェック結果レポートチェック結果
3ファイルに分けて実行結果を出力します ①チェック結果レポート フォントサイズな どの問題箇所 を注釈で指摘 しおりリンク切れ やページ単位で 問題箇所を指摘 ②指摘注釈 ③指摘テキスト 指定したフォルダー配下の すべてのリーフファイルの 問題傾向をざっくり把握9 各ファイルの指摘の詳細確認を行うにはリンクで開きます リーフファイルの問題傾向が○✕で確認できます
チェック結果レポート
1ファイルのチェック結果を 1行に出力 チェック項目のチェック結果は 縦方向に○×で出力指摘注釈
-リーフファイルに直接指摘
問題箇所をAcrobatの注釈でピンポイントに指摘します リーフファイル上の問題箇所を 注釈で指摘します。目視では分 からない ・隠し注釈箇所 ・フォントの埋め込み忘れ箇所 ・隠しテキストの存在ページ 等を指摘可能です11 問題箇所をリーフファイル単位で指摘します チェックレポート チェックした時間等の記録 とリーフファイルに関する 情報を出力します 検出された問題点 ページ順に問題箇所を指摘 します。チェック項目順に 指摘することもできます
指摘テキスト
- リーフファイルごとの詳細指摘
Ver.5.0 (2018年2月リリース)
新機能 JavaScript JPEG2000圧縮 フォルダー名、パス名 開始ページ、終了ページ、開くページ番号、連続ページ PDFバージョンヘッダー、PDFバージョン差異 コピー&ペーストで文字化け 改良点 開いているPDFをチェック 処理速度の向上 既存チェックの改良13 PDFファイル中にJavaScriptが存在すると指摘します 指摘後の修正は、プリフライトの「すべてのJavaScriptア クションを破棄」、「すべてのJavaScriptsを破棄」をフィッ クスアップすることでJavaScriptを削除します。フィックス アップの順番は問いませんが、必ず、2つのフィックスアップ を実行してください (参考)ESTRIのRecommendation:http://estri.ich.org/recommendations/PDF_V2_0.pdf
JavaScript
JPEG2000圧縮
PDFファイル中にJPEG2000圧縮の画像が存在すると指摘しま す Acrobatの「ファイル>その他の形式で保存>最適された PDF」メニューを選択します 「PDFの最適化」ダイアログの「画像」のオプションで「カラー画 像」及び「グレース ケール画像」を「ZIP圧縮」にすることで、 JPEG2000画像をZIP形式に再圧縮することができます15
フォルダー名、パス名
フォルダー名、パス名のチェックを行います フォルダー名の最大長は64文字であること。 a-z(小文字のみ), 0-9,"-"のみを用いること パスの最大長はファイル名と拡張子を含み230文字以内である こと。 「191024001\0000\...」というフォルダー構成で提出 するので、「191024001」を含めて230文字であること ※「コモン・テクニカル・ドキュメントの電子化仕様 (Version 3.2.2).pdf」より抜粋紙印刷と同じページ番号にしたなどの理由で、 2ページ以降のページ番号が開始ページとして 設定された場合に指摘します 開始ページ・終了ページ:PDFの先頭ページのペー ジ番号、最終ページのページ番号を出力します 開くページ(既存):Acrobatの「ファイル>プロパティ >開き方>開くページ」が先頭ページでない場合に 指摘します 開くページ番号:先頭ページ番号(文書の最初の ページ)が1でない場合に指摘します 連続ページ:ページサムネールのページ番号が 連続していない場合に指摘します 参考文献などで多く発生します 開始ページ、終了ページ、開くページ番号、連続ページ
17 「コモン・テクニカル・ドキュメントの電子化仕様 (Version 3.2.2).pdf」 付録7: 申請資料フォーマットの仕様 電子文書全体のナビゲートは、その文書とPDFファイルのページ番 号が同じであると容易である。これを達成するためには、文書の最 初のページ番号を1とし、それに続く全てのページ(付録と添付書類 を含む)に、アラビア数字で連続番号を付ける この規則に対する唯一の例外は、文書のサイズが大きい(例えば、 100 MB を超える)ために分割した場合、2 番目または後続のファ イルには1 番目または先行するファイルから連続番号を付ける 開始ページ、終了ページ、開くページ番号、連続ページ
Acrobatの文書のプロパティのPDFバージョンと、PDFファイ ルの1行目に記述されたPDFバージョンが異なる場合があり ます。次バージョンでは、次の3種類の出力が行えます 文書のプロパティのPDFバージョンを出力(Ver.4.3と同じ) PDFファイルの1行目のPDFバージョンを出力(新規) 2種類のPDFバージョンに差異があれば指摘します(新規)
PDFバージョンヘッダー、PDFバージョン差異
19
コピー&ペーストで文字化け
文字列が正しく表示されているにも関わらず、テキスト検索 ができず、文字列をコピーしてメモ帳や注釈コメントにペース トすると文字化けする文字をピンポイントで指摘します PDFを再PDF化すると、フォントデータ/メタデータ/構 造情報等が失われることがあるのが原因のひとつです プリフライトの「テキストをUnicodeにマッピングできない」で 文字化けする文字列を検出できますが、ファイル毎に行う 必要があり、実用的ではありません LeafCheckerは、フォルダー指定で簡単に検出できます!Ver.4.3 (旧バージョン)では フォルダーやファイルを指定する必要がありました Ver.5.0 (新バージョン)では 開いているPDFファイルに対してそのままチェックが行えます 指摘は開いているPDFファイルに直接付与します チェック結果の出力先は従来通り 操作性が向上します!
開いている
PDFをチェック
21 最初にコピーしないことで 指摘のないPDFが多い場合は コピー時間が大幅改良になります ページ順でのチェック時間を大幅改良しました ファイル名、ファイルサイズはPDFを開かずにチェックします 使用フォント、フォント埋め込み、非推奨フォント埋め込み の処理速度の向上 リンク元表示、リンク切れの処理速度向上
処理速度の向上
LeafCheckerの処理速度について
調査対象 Ver.4.3.1 および Ver.5.0 調査対象文書 ・フォルダー数 :4 ・合計PDFファイル数 :118 ・1ファイルあたりの平均値 ファイルサイズ :18.6 MB ページ数 :1521 (目視)帳票ページ数 :70.3 しおり数 :43.6 リンク数 :70.3 画像数 :46.2処理速度測定環境 ・CPU:Intel(R) Core(TM) i5 CPU 2.40GHz
・実装メモリ(RAM):8.00GB
・OS:Windows7 Pro 64bit
23 前バージョンとの処理時間の差異 *1 Ver.4.3.1のチェック項目を個別に計測し、その累計時間 Ver.4.3.1のページ順はメモリ不足により計測不能でしたが、Ver.5.0では改良により計測できました。 Ver.5.0の処理時間 *2 Ver.5.0のチェック項目を個別に計測し、その累計時間 ページ情報や文字情報を共有することで、複数チェック時の処理速度を向上しました
処理時間に関する調査結果
118ファイルの処理時間 指摘注釈上限1000件 Ver.5.0 ページ順 チェック項目順 すべてをチェック 8時間32分04秒 8時間59分11秒 個別チェックの累計 *2 2日11時間11分53秒 2日13時間42分48秒 118ファイルの処理時間 指摘注釈上限1000件 Ver.5.0 Ver.4.3.1 ページ順 チェック項目順 チェック項目順 個別チェックの累計 *1 2日5時間26分05秒 2日7時間52分58秒 2日16時間14分31秒 各チェック項目毎の処理時間(118ファイル指定時)
1~7秒
個別のチェック項目の処理時間の目安(Ver.5.0)
25
既存チェックの改良(1)
プロパティ内容の表示 チェック Ver.4.3 (旧バージョン)では タイトル、作成者、サブタイトル、キーワード欄のすべてが空欄で ないと指摘していました タイトル、作成者のみ空欄であれば○とすることができませんでした Ver.5.0 (新バージョン)では チェック対象を個別に指定できます タイトル、作成者のみ空欄であれば○ とすることができます既存チェックの改良(2)
スキャンPDF解像度、画像解像度 チェック Ver.4.3 (旧バージョン)では 下限値のみ指定ができました 上限値の指定ができないため、高解像度の指摘が行えません でした Ver.5.0 (新バージョン)では 上限値も指定できます 300~600dpiと許容範囲を指定することができます27
Ver.5.1 (2018年6月6日リリース予定)
新機能 チェック結果レポートのExcel出力対応 Webリンク 設定ダイアログ 改良点 チェック実行ダイアログの改良 既存チェックの改良 指摘PDFフォルダー、指摘テキスト、指摘PDF、チェック対 象PDFは、セル内のリンクをクリックすると開きます。 指摘個所を容易に判読できるよう、赤字セル背景色を設 定しました。 Excelテンプレートの変更で、出力書式を変更できます。
チェック結果レポートの
Excel出力対応
29
Webリンク
Webリンク文字列を指定して、Webリンク箇所を検出しま す
チェック結果レポートの出力フォーマットの選択 日付書式や長さの単位の選択 指摘PDFファイル名への接尾辞の付与
設定ダイアログ
チェック項目パターン作成 ダイアログは廃棄しました31
チェック実行ダイアログの改良
設定ファイルを指定フォ ルダーにコピーできます ドラッグ&ドロップに対応 しました既存チェックの改良
ページレイアウト "/PageLayout"の後ろにPDF仕様ではない想定外の文字列があった場合 は、Acrobatの動作と同じように"デフォルト"と解釈します。 隠しテキスト チェック結果を反転できる (EMA向け対応) 隠しテキストが存在しない場合に指摘することもできるようにしました。この機 能を有効にするには、チェックルールの変更が必要です コピー&ペーストで文字化け Acrobatのプリフライトの「テキストをUnicodeにマッピングできない」と同じ解 釈もできるようにしました リンク元表示 誤指摘の軽減 リンク枠内の両端に接する括弧やピリオドなどの文字が黒字のために誤指摘 していました 除外文字を指定することで、誤指摘しないようにしました33
動作環境
Ver.5.0
Windows 7/8/8.1/10
Adobe Acrobat X/XI/DC 2015/2017/DC Continuous
Ver.5.1
Windows 7/8/8.1/10
Adobe Acrobat X/XI/DC 2015/2017/DC Continuous
Microsoft Excel 2010/2013/2016 Microsoft .NET Framework
今後の開発予定
(1)
LeafChecker 5.2 (2018年12月予定) しおり・リンクの飛び先座標のチェック ページを回転した際に、縦だった時の飛び先がページ外になることがあります。 リンクの飛び先座標がページ表示範囲内でない、ページの右端・下端の場 合に指摘します 図表しおりの連続性のチェック 図1-1, 図1-2, 図1-4の場合に、図1-3が存在しないことを指摘します 行頭禁止文字のチェック 行頭が"mg"などの場合に指摘します 指摘注釈の出力をチェック項目毎に制御 チェック実行ダイアログで指摘注釈の出力制御を行います グローバル対応(表示言語、.NET対応、サロゲートペア対応)35
今後の開発予定
(2)
LeafChecker 6.0 (2019年7月予定) PharmaDoc eCTDSupportersとの連携 カラーページのチェック 文書の縦横チェック 白紙ページの改良PharmaDoc eCTDSupportersとの連携
指摘をeCTDSupportersで加工する しおりリンク切れ、しおりズーム設定維持⇒しおりの飛び先編集へ リンク切れ、リンク先ズーム設定維持⇒リンクの飛び先編集へ リンク元表示⇒リンク枠編集ツールへ 指摘を自動修正します 開く設定、Web最適化 プロパティ概要のクリア ページラベルの初期化 しおり作成階層、しおり表示階層、しおりズーム設定維持 リンク元表示、リンク先ズーム設定維持 添付ファイルの削除37
最新バージョン(
Ver.5.1)のデモ
フォルダ指定でチェック実行
指摘を修正
開いているファイルをチェック実行
設定ファイルのコピー・参照機能のご説明
設定ダイアログのご説明
[調査報告]
PDFの非表示テキストとは
PDFのコピー&ペーストで文字化けする文字とは
プラネットファーマソリューションズ株式会社 2018年06月01日
39
[調査報告] PDFの非表示テキストとは
PDF内にデータは存在しますが、目視出来ないテキストです。 Acrobatでは、以下のテキストが非表示テキストして認識されます。 透明なテキスト 図形と重なったテキスト 隠れテキスト(図形の奥にテキスト) 同色テキスト(図形の前にテキスト) 極小のテキスト非表示テキストの検出および修正方法
No. 非表示テキストの分類 PharmaDoc LeafChecker
(フォルダー指定での検出が可能) (1ファイル毎に Acrobat 処理が必要) 隠しテキスト v5.0/5.1 v5.2以降 隠しテキスト 非表示情報を検索して削除 1 透明なテキスト 〇*1 〇*1 〇 2 図形と重なったテキスト - 〇*2 〇 3 極小のテキスト - 〇*3 〇*4 LeafCheckerで一括検出し、Acrobatでファイル毎に修正すると楽になります! *1 非表示フラグが設定されたテキストを指摘します *2 テキストと図形が重なる場合に指摘します。テキストが目視できても指摘します *3 極小のテキストの指摘は、隠しテキストのチェックルールでフォントサイズを 指定します。デフォルトは3ptです。 *4 極小のテキスト(1.5pt)でも指摘されない場合あり テキストが図形の奥に存在 テキストが図形の前に存在
41 [調査報告] PDFのコピー&ペーストで文字化けする文字とは Acrobat上で表示された文字と、コピー&ペーストした文 字が異なる 意味不明な記号が表示される A;SIF&@!&G@0AF0A,& 「(豆腐文字) 」 が表示される
OS(Windows等)
PDFから文字をコピー&ペーストする仕組み
Acrobat PDF内部情報 PDF表示領域 文字情報 ・文字列 ・使用フォント/サイズ ・表示方法/表示位置 etc フォント情報 ・フォント名など ・エンコーディング ・文字コレクション ・文字抽出用の変換表有無 etc ①コピー ② この例の大まかな流れ 文字情報に対するフォント 情報が取得出来れば、メモ 帳へのコピー&ペーストが可 能となる。 ③ ④ペースト OK43
文字化けしない条件
No. 条件 詳細 PDFの例
1 ToUnicode CMapが存在する PDF内にToUnicodeエントリが含まれる <</BaseFont/DPTLLG+CambriaMath/DescendantFonts [8 0 R]/Encoding/Identity-H/Subtype/Type0/ToUnicod e 9 0 R/Type/Font>> 2 エンコーディングがPDF仕様の標準 エンコーディングが以下の何れか ・MacRomanEncoding(Mac OS用) ・MacExpertEncoding(Mac OS用) ・WinAnsiEncoding(Windows OS用) ・StandardEncoding(上記を自動解釈) <</BaseFont/Times-Roman/Encoding/WinAnsi Encoding/Subtype/TrueTyp e/Type/Font>> 3 文字コレクションがPDF仕様の標準 文字コレクションが以下の何れか ・Adobe-GB1 ・Adobe-CNS1 ・Adobe-Japan1 ・Adobe-Korea1 <</BaseFont/NGLMPB+M S-Mincho-90ms-RKSJ-H/CIDSystemInfo<</Orderi ng(Japan1)/Registry(Adobe
)/Supplement 0>>/CIDToGIDMap/Identit y/DW 1000/FontDescriptor 11 0 R/Subtype/CIDFontType2/T ype/Font/W[3[500]]>>
参考:PDF 1.7 テクニカルリファレンス 9.10.2 Mapping Character Codes to Unicode Values
コピー&ペーストで文字化けする文字の検出方法
No. 文字化け分類 条件(概要) PharmaDoc LeafChecker
(フォルダー指定で検出) (1ファイル毎にAcrobat 検出) コピー&ペースト プリフライト v5.0 v5.1 v5.2 1 豆腐文字 ToUnicode CMapが存在しない 〇 〇 〇 〇 〇 〇 ToUnicode CMapが存在するが、 Unicodeの値が不正 〇 〇 - 〇 - - ToUnicode CMapが存在するが、 Unicodeの値が特殊 - - - 〇 - - 2 意味不明な文字 エンコーディングがPDF仕様の標準でない 文字コレクションがPDF仕様の標準でない 〇 〇 〇 〇 〇 〇 LeafCheckerは一括で検出できます。 LeafCheckerをお持ちでない場合は、Acrobatでファイル毎に検出できます。 LeafCheckerは、プリフライトよりも正確な文字化け文字のチェックが行えます。 v5.1以降は、正確なチェック、プリフライトと同じチェックが選択できます。
45
参考
本資料を作成するにあたり、以下の文献を参考にしました PDF 1.7 テクニカルリファレンス ※ISO 32000-1標準文書と同等の技術内容が記載されている。 https://www.adobe.com/devnet/pdf/pdf_reference.html (PDF32000_2008.pdf)9.10.2 Mapping Character Codes to Unicode Values
PDF 1.3 日本語訳書籍
(タイトル:PDFリファレンス 第2版、発行:株式会社ピアソン・エデュケーション)
CID(文字コード)について
https://ja.wikipedia.org/wiki/CID_(文字コード)
Adobe - Font and Type Technology Center
http://www.adobe.com/devnet/font/#ckf
The Adobe-Japan1-6 Character Collection