• 検索結果がありません。

全文検索型 PDFデータ ベース 構築 要件定義ガイド

N/A
N/A
Protected

Academic year: 2021

シェア "全文検索型 PDFデータ ベース 構築 要件定義ガイド"

Copied!
12
0
0

読み込み中.... (全文を見る)

全文

(1)

全文検索型 PDF データベース構築

要件定義ガイド

A

文書の整理

B

コード体系の設計

C

ファイル管理表の作成

D

PDF データの作成

E

単葉 PDF の編集

F

冊子 PDF の編集

G

製本 PDF の編集

H

総索引 INDEX の生成

I

注釈テキストの保守

J

適用業務の構築

K

電子署名

L

セキュリティ

M

その他(タイムスタンプ)

(2)

A. 文書の整理

A-1 電子化する文書の選別 A-1-1 対象となる文書全体から「見本」を抽出 A-1-1-① 紙のものはコピーをとる A-1-1-② 電子データしかないものは紙に印刷する。 A-1-2 「見本」を紙ベースで整理・検討する。 A-1-2-① 電子化必要優先度を決める A-1-2-② 電子化の処理レベルを決める。 A-2 電子化対象に決まった文書の分類(見本ではなく実体) A-2-1 媒体 A-2-1-① 紙 A-2-1-② 電子データ(WORD.EXCEL..CAD) A-2-2 色(白黒 2 値・256 色・フルカラー) A-2-3 サイズ A-3 文書の内容項目の分析 A-3-1 管理項目 A-3-1-① コード番号 A-3-1-② 文書番号(図番、地図番号) A-3-1-③ ナンバリング(SEQ.№、総連番) A-3-1-④ 文書名(台帳種別、本編・資料編) A-3-2 実体項目 A-3-2-① 所属部署(管内) A-3-2-② 路線名(ルート番号、上り下り) A-3-2-③ キロポスト(距離程) A-3-2-④ 構造物種別(道路・橋梁・トンネル) A-3-2-⑤ 付属設備・機器種別(換気、ポンプ) A-3-2-⑥ 工事種別(.調査・施工・検査) A-3-2-⑦ 実施年度

(3)

B. コード体系の設計

B-1 既存のコードの体系を文書化 B-1-1 A の文書整理の作業でコードにマーキングをしておく B-1-2 他部署で使われている共通コードの調査分析 B-2 コードのないものについては、新規にコード体系を決める B-2-1 A の文書整理の作業でコード化する項目リストを作る。 B-2-2 項目の内容を分析して項目コードを設計する。 (コードには漢字かなは使わない) B-3 項目コードを組み合わせて「複合コード」を設計する。 B-3-1 組合せの順列の設計(AAA_111_h16_001) B-4 コード表の作成 B-4-1 コード体系表を EXCEL で作成する。 B-4-2 コード体系表を印刷する。

(4)

C. ファイル管理表の作成

C-1 電子化する文書の一覧表を作成する。 C-1-1 冊単位のものは 1 冊 1 タイトル (設計計算書・報告書など) C-1-2 単葉のものは 1 枚 1 タイトル (地図・図面・総括表など) C-1-3 タイトル単位でコード体系に従って文書コードを付ける C-2 EXCEL でファイル管理表を入力する。 C-2-1 「手書き用ファイル管理表記入シート」を作成して 文書の分類作業のときに書き込んでおく。 C-2-2 ファイル名・SHEET 名を分類体系に合わせる形で EXCEL の「ファイル管理表」シートを設計する。 C-2-3 「ファイル管理表」シートにデータ入力する。 (全文検索の基礎データとなる。) C-2-4 「ファイル管理表」シートを印刷する。 (スキャナー作業管理表として利用する) C-3 「作業管理表」を作成する。 ファイル管理表に冊子として登録されている文書については 1 ページ1行単位でページ管理する C-3-1 標準「作業管理表」シートを印刷する C-3-2 冊子に総連番を付ける (欠番のないようにナンバリングする) C-3-3 「作業管理表」に冊子の構成内容を記入する。 C-3-3-① 表紙・序文 C-3-3-② 総目次・目次 C-3-3-③ 中扉(章・節) C-3-3-④ 内容ページ・空ページ C-3-3-⑤ 奥付け C-3-4 「作業管理表」にページの種別を記入する。 C-3-4-① 用紙サイズ C-3-4-② 色(白黒 2 値・256 色・フルカラー)

(5)

D. PDF データの作成

D-1 紙文書をスキャナーで読み取る。 D-1-1 読み取り機器の選択 D-1-1-① 平板置き型スキャナー D-1-1-② 用紙移動型スキャナー D-1-2 読み取り条件設計 (代表的なページを選んでシュミレーション) D-1-2-① イメージタイプ(白黒 256 色・写真) D-1-2-② 解像度(dpi) D-1-2-③ イメージ制御(露出・ガンマ・ハイライト) D-1-2-④ 濃度補正 D-1-2-⑤ カラー調整 D-1-3 読み取りデータ格納フォルダー作成 D-1-4 スキャニング作業 D-1-4-① ファイル名・開始№をセット D-1-4-② スキャニング実行 D-1-4-③ ファイル名を変更して登録 D-2 スキャナーデータを精錬(Photoshop) 内容の改ざんは許されないので、汚れの除去と退色の補正 に限定した作業を繰り返して、原本に忠実に電子化する。 D-2-1 回転(角度調整) D-2-2 濃淡・鮮明度の調整 D-2-3 色の調整 D-2-4 全体の精白 D-3 スキャナーデータを PDF に変換 D-3-1 処理条件別フォルダに分類 D-3-2 PDF 変換条件設計 D-3-3 PDF 変換(個別処理) D-3-4 PDF 変換(バッチ処理) D-3-5 PDF を一つのフォルダ(PDF-Bulk)にまとめる。

(6)

E 単葉PDFの編集

E-1 ファイル管理表の内容を組み立てて「注釈」テキストを作成 E-1-1 EXCEL の別 SHEET に転写して編集

CONCATENATE 関数などを利用してテキストを結合 E-1-2 EXCEL から複写して WORD に貼り付け

E-1-3 WORD の編集機能で仕上げ フォントの種別、色、サイズの変更 E-2 PDF に「注釈」テキストを貼り付ける。(Acrobat) E-2-1 トップページに注釈を付加 原則としてページ最上段の左側の場所に書き込む E-2-2 文書のプロパティに注釈を付加 E-2-2-① 文書のタイトル E-2-2-② キーワード E-2-2-③ 文書メタデータ E-2-3 文書のプロパティの「開き方」を設定 E-2-3-① しおりパネルとページ E-2-3-② 単一ページ E-2-3-③ 全体表示 E-2-3-④ 文書タイトル表示 E-2-4 PDF を別名で保存する。 E-2-4-① PDF ファイル名 D-3-5 で作成された PDF のファイル名はスキャナーで読取した 「総連番」様式の仮の名前になっている。 正式のファイル名に変更してフォルダ(単葉PDF)に格納する。

(7)

F 冊子PDFの編集

単葉 PDF をバインドして冊子の形の PDF ファイルを作る。 冊子 PDF を PBS(PDF Booking Sheet)で編集することにより 全てのページに対応リンクした「ページしおり」を設定するのと合わせて 各ページの左上にページ番号と一致した「ページ注釈」を追記する。 F-1 C-3-3 で作成した「作業管理表」の記入内容に準拠して、 単葉 PDF をグループ別の分類フォルダーに格納する。 C-3-3-① 表紙・序文 C-3-3-② 総目次・目次 C-3-3-③ 中扉(章・節) C-3-3-④ 内容ページ・空ページ C-3-3-⑤ 奥付け F-2 グループ別バインダ PDF ファイル作成 F-2-1 Acrobat「複数ファイルからの PDF 作成」機能を使って グループ別にバインドして複数ページ PDF を作成する。 F-3 全ての内容ページに「しおり」と「注釈」を付加する。 F-3-1 冊子 PDF の用紙サイズに合わせて PBS ファイル (PDF Booking Sheets)を選択する。 F-3-2 MBS ファイルのページ内容を冊子 PDF のページ内容の 実体に置き換える。 F-3-3 置換済みの PBS ファイルから余分のページを削除して 冊子 PDF として別名保存する。 F-4 ノンブル{「ページ注釈」の位置を調整する。。 F-4-1 用紙サイズに合わせてノンブルの位置を調整する。 F-4-2 冊子全体が変則サイズの場合は一括変更を利用する * I-2-2 規格外サイズの PDF の FDF ファイルを変更する。 F-5 冊子 PDF のプルーフリストを印刷する。 F-5-1 印刷条件 F-5-1-① 「文書と注釈」 F-5-1-② 「割り付け・4 ページ/A4」

(8)

G 製本 PDFの編集

グループ別に冊子化されたバインダ PDF ファイルを結合して、原本の 体裁に準じた製本 PDF ファイルを作る。 G-1 目次 INDEX の作成 G-1-1 目次ページを PDF OCR でテキスト変換する。 G-1-2 目変換テキストを WORD に転写し、「スタイル」機能で 見出し 1、見出し 2、見出し 3 のレベルを付ける。 G-1-3 WORD を PDF Maker で変換して目次「しおり」付きの PDF を作成 G-2 PDF データの製本 G-2-1 冊子 PDF を結合。 G-2-2 表紙・目次ページの挿入 「目次しおり」のリンク先設定 G-2-3 双方向リンクの追加 G-2-3-① INFDEX へもどる G-2-3-② ファイル名・文書タイトル G-2-3-③ 目次 G-3 製本 PDF に「注釈」テキストを貼り付ける。(Acrobat) G-3-1 トップページに「ファイル名・文書タイトル」注釈を付加 G-3-2 文書のプロパティに注釈を付加 G-3-2-① 文書のタイトル G-3-2-② キーワード G-3-3 文書のプロパティの「開き方」を設定 G-3-3-① しおりパネルとページ G-3-3-② 単一ページ G-3-3-③ 全体表示 G-3-3-④ 文書タイトル表示 G-3-4 PDF を別名で保存する。 G-3-4-① PDF ファイル名

(9)

H. 総索引 INDEX の生成

H-1 フォルダー単位でカタログ INDEX を生成 H-1-1 検索目的に適応したカタログ INDEX の設計 H-1-1-① INDEX ファイル名の設計 H-1-1-② INDEX 別フォルダー一覧表作成 (何を含んで何を除外するか) H-1-1-③ 仕上がり「カタログ INDEX」の格納場所 (検索の流れにあわせてフォルダーを決める) カタログ INDEX は、デフォルト条件のままであれば、その INDEX で 検索されるフォルダーと同じフォルダーに格納されるが、作成時に 「格納先フォルダー」を指定すれば、別フォルダーに格納できる。 (インデックスのリンクには全く支障は起こらない。) H-1-2 (カタログ INDEX の原資テキスト) H-1-2-① PDF 管理ファイル ファイル管理表の登録内容テキスト H-1-2-② PDF 実体ファイル PDF ファイル名 原本の本文テキスト(全ページ) 製本済 PDF に付加されている「注釈」 製本済 PDF に付加されている「しおり」 H-1-2-③ FDF 管理ファイル FDF ファイル管理表の登録内容テキスト (注釈の履歴管理) H-1-3 (カタログ INDEX の成果品) H-1-3-① INDEX フォルダー(ファイル名とアドレス) H-1-3-② INDEX_PDX(天眼鏡アイコン) H-1-3-③ カタログ作業実行 log

(10)

I. 注釈テキストの保守

I-1 PDF の注釈テキストを FDF ファイルとして管理する。 I-1-1 PDF ファイルと FDF ファイルのツリー構造を設計する。 I-1-1-① 部門別履歴 I-1-1-② 暦年別履歴 I-1-2 FDF ファイル管理表を作成する I-1-2-① FDF ファイル名のコード体系 I-1-2-② 履歴内容のタイトル I-1-2-③ 母艦となる PDF ファイルの情報 (ファイル管理表のファイル名) I-1-3 FDF ファイル管理表のデータベースを作成する。 I-1-3-① EXCEL シートの設計 I-1-3-② EXCEL シートに入力 I-1-3-③ PDF に変換 I-2 PDF のノンブル「ページ注釈」を FDF ファイルとして管理する。 I-2-1 PBS(PDF Booking Sheet)の PDF ファイルから

定型規格サイズの FDF ファイルを書き出す。 I-2-1-① A4、A3、他 I-2-1-② B5、B4、他 I-2-2 規格外サイズの PDF の FDF ファイルを変更する。 I-2-2-① 定型の MBS の FDF でページングする。 I-2-2-② FDF ファイルを変更して入れ替える。

(11)

J. アプリケーション(適用業務)の構築と保守

J-1 カタログ機能で作成した全文検索用 INDEX と PDF Booking Sheets 製本された PDF のしおり機能を 組み合わせることにより、利用目的に応じた双方向型 閲覧のできるデータベースを構築できる。 「しおり」設計 「注釈」設計 「双方向リンク体系」構造設計 J-2 カタログ機能は複数のフォルダーを対象として実行できる。 フォルダー体系の中で必要なものだけを取捨選択して 全文検索用 INDEX を生成する。 J-3 フォルダーの構成を設計するときに 利用者の目的や権限を考慮したツリー構造にしておけば 多種多様な全文検索用 INDEX を簡単に生成できる。 フォルダーに含まれる PDF の追加削除などの変化に応じて カタログ機能を再実行するだけで、最新の全文検索用 INDEX が再生成される。 フォルダーのツリー構造の設計 複数のカタログ INDEX による絞込み操作機能の設計

結び (A~J)

個別のシステム設計要件を列記したが、それぞれの設計作業は相互に 連関した内容を含んでいるため、システムの基本となるデータベースは 変化に対応できるフレキシブルな構造でなければならない。 この作業を「先にデザインをしてから」ではなく「データを電子化しながら」 最適の構造を構築することが「システム設計」の作業内容となる。 PDF を利用したデータベース設計の最大の利点は、PDF ファイルの構造 そのものがフレキシブルなものであるため、データベースの構築の試行錯誤 が可能であるということにある。 出来上がったデータベースの維持管理においても、この点が将来への展望 につながる支えとなる。

(12)

K 電子署名

L セキュリティ(パスワード)

M その他(タイムスタンプ)

文書の電子化の目的は「正しい記録」の保証と保存、及び公開が 簡潔明瞭に実行できる環境の実現にある。 A から J の作業工程により作成した電子文書が「正しい記録」として 利用できるようになるためには、電子署名、タイムスタンプ、パスワード などで保護された形にしなければならない。 この分野の技術は既に確立しており、利用分野も広がっている。 PDF 形式の電子文書は、これらの要件に対応できる構造になっているため PDF データベースとして構築されている内容を利用して、後から追認する形で 電子署名、タイムスタンプ、パスワードを付加することができる。

以 上

参照

関連したドキュメント

の観察が可能である(図2A~J).さらに,従来型の白

そのような状況の中, Virtual Museum Project を推進してきた主要メンバーが中心となり,大学の 枠組みを超えた非文献資料のための機関横断的なリ ポジトリの構築を目指し,

機能名 機能 表示 設定値. トランスポーズ

口腔の持つ,種々の働き ( 機能)が障害された場 合,これらの働きがより健全に機能するよう手当

耐震性及び津波対策 作業性を確保するうえで必要な耐震機能を有するとともに,津波の遡上高さを

創業当時、日本では機械のオイル漏れを 防ぐために革製パッキンが使われていま

荒天の際に係留する場合は、1つのビットに 2 本(可能であれば 3

○水環境課長