4.1.1制御コード
ワープロ本文中の制御コードのうち、改行コード以外の制御コードは削除します。
4.1.2定義外文字
抽出先の符号化方式で使われる基本文字集合にない文字は類似の文字(1 文字また
は1 文字の組合せ)にマップします。
類似の文字が無い場合は、"〓"(2 バイト)、"?" (1 バイト)に書き換えて出力し ます。
4.1.3 ユーザ外字
抽出先の符号化文字集合で、ユーザ定義文字を使用できない場合は、アプリケー ションのユーザ外字は、"〓"(2 バイト)、"?" (1 バイト)に書き換えて出力しま す。
抽出先で指定した文字集合に合わせてコードを変換します。例えば抽出元データ
が Shift-JIS で、ファイルの中にユーザー外字領域 F040 に割り当てられた文字
が含まれていた場合、抽出先に UTF-8 を選択した上で処理を行うと Shift-JIS F040 が Unicodeの 0xE001 に変換されて出力されます。
このため、Unicode の 0xE001 に文字が登録されていればテキストは表示可能と なります。
4.1.4 OLEオプジェクト抽出
本ライブラリは、OLEオプジェクトの3階層まで抽出できます。3階層以上の場 合、エラーコード4005を返します。
本ライブラリは、リンクされるオブジェクトは抽出できません。
次の表に、主なアプリケーションについて、OLEの対応を示します。表の列は、
OLEの親文書。行は、OLEで埋め込まれる文書を示します。たとえば、列がExcel 2003で、行がWord 2003の場所には○が付いているので、Excel 2003にWord 2003を埋め込んだ場合は、抽出可能となります。
暗号化されたMicrosoft Officeファイルが、その中にOLEで埋め込まれたものを 含む場合、OLEで埋め込まれたものは、抽出できません。
主要アプリケーションのOLE対応表
Word 2003
Excel 2003
PowerPoint 2003
Word
2007/2010/2013 /2016/2019
Excel
2007/2010/20313 /2016/2019
PowerPoint 2007/2010/2013 /2016/2019
PDF 一太郎
2004-2019
Word 2003 ○ ○ ○ ○ ○ ○ ○ ○
Excel 2003 ○ ○ ○ ○ ○ ○ ○ ○
PowerPoint
2003 ○ ○ ○ ○ ○ ○ ○ ○
Word
2007/2010/2013 /2016/2019
○ ○ ○ ○ ○ ○ ○ ○
Excel
2007/2010/2013 /2016/2019
○ ○ ○ ○ ○ ○ ○ ○
PowerPoint 2007/2010/2013 /2016/2019
○ ○ ○ ○ ○ ○ ○ ○
PDF ○ ○ ○ ○ ○ ○ ○ ○
一太郎
2004-2019 ○ ○ ○ ○ ○ ○ ○ ×
OASYS × ○ × × × × ○ ×
DocuWorks × × × × × × ○ ×
OpenOffice.org 3.1/3.2/3.3, Libre Office 3.3/3.4
Writer
× × × × × × ○ ×
OpenOffice.org 3.1/3.2/3.3 Libre Office 3.3/3.4
Calc
× × × × × × ○ ×
OpenOffice.org 3.1/3.2/3.3 Libre Office 3.3/3.4
Presentation
× × × × × × ○ ×
OA SYS
DocuWorks OpenOffice.org 3.1/3.2/3.3 Libre Office 3.3/3.4 Writer
OpenOffice.org 3.1/3.2/3.3 Libre Office 3.3/3.4 Calc
OpenOffice.org 3.1/3.2/3.3 Libre Office 3.3/3.4 Presentation
Word 2003 × ○ × × ×
Excel 2003 × ○ × × ×
PowerPoint
2003 × ○ × × ×
Word
2007/2010/2013//20 16/2019
× ○ × × ×
Excel
2007/2010/2013/20 16/2019
× ○ × × ×
PowerPoint 2007/2010/2013/20 16/2019
× ○ × × ×
PDF × ○ × × ×
一太郎
2004-2019 × ○ × × ×
OASYS × ○ × × ×
DocuWorks × ○ × × ×
OpenOffice.org 3.1/3.2/3.3 Libre Office 3.3/3.4 Writer
× × × × ×
OpenOffice.org 3.1/3.2/3.3 Libre Office 3.3/3.4 Calc
× × × × ×
OpenOffice.org 3.1/3.2/3.3 Libre Office 3.3/3.4 Presentation
× × × × ×
4.1.5 圧縮ファイルからの抽出
パスワードで保護したファイルからテキスト抽出はできません。
OASYS分離形式ファイル(*.doc, *.fmt)のテキスト抽出には、圧縮ファイル中の
ファイルを一つづ解凍→テキスト抽出→解凍されたファイルを削除という処理を している為に、テキスト抽出はできません。
圧縮ファイル内のファイルに対してプロパティ抽出、ページ抽出、PDFのパスワー ド文書の抽出には対応していません。
LZH形式は、LHa5/LHa6/LHa7をサポートしております。
自己解凍形式の圧縮ファイルには対応しておりません。
4.1.6 ストリームへの抽出
ストリームからのテキスト抽出はできません。
パスワードを要求するPDFやMicrosoft Officeファイルのストリームへの抽出は できません。
Windows x64 版でストリーム使用する場合は、setlocale()にてロケールの設定を
行ってください。
【制限事項】
抽出されたテキストの順番は必ずしもレイアウトの表示結果と一致しません。