トリプルインデックスとは / その使い方について - 目次目次 Semantics Developer s Guide 1.0 MarkLogic におけるセマンティックの概要用語リン

IRI、および空白ノードが含まれます。トリプルデータは、異なる並び順のトリプルを、

ドキュメントIDおよびポジションとともに保持します。トリプルデータは、トリプル値をIDで参照するため、参照が非常に効率的になります。トリプルデータはディスク上で圧縮されて格納され、トリプル値は別の圧縮値ストアに格納されます。トリプルインデックスと値ストアのどちらも、圧縮された4KBのブロックに格納されます。

トリプルデータが必要になると（例えば参照時）、関連性のあるブロックがトリプルキャッシュまたはトリプル値キャッシュにキャッシュされます。他のMarkLogicキャッシュとは異なり、トリプルキャッシュやトリプル値キャッシュは拡大したり縮小したりするため、メモリを消費するのはキャッシュへの追加が必要なときだけです。

注：トリプルストアのホスト用のトリプルキャッシュおよびトリプル値キャッシュのサイズは、「キャッシュのサイズ設定」（61 ページ）の説明に従って設定できます。

4.1.1.1 トリプルキャッシュとトリプル値キャッシュ

トリプルキャッシュは、ディスクからの圧縮トリプルのブロックを保持します。このブロックは、LRU（least-recently-used：最近最も使用されなかったもの）アルゴリズムを使用してフラッシュされます。トリプルキャッシュ内のブロックは、辞書からの値を参照します。トリプル値キャッシュは、トリプルインデックス辞書からの非圧縮値を保持します。トリプル値キャッシュも、LRUのキャッシュです。

トリプルインデックス内のトリプルは、クエリのタイムスタンプおよびトリプルが属していたドキュメントのタイムスタンプに応じて除外されます。トリプルキャッシュは、

フィルタリングが発生する前に生成された情報を保持するため、トリプルを削除しても、トリプルキャッシュには反映されません。ただし、マージ後、古いスタンドは削除される場合があります。スタンドが削除されると、そのブロックすべてがトリプルキャッシュからフラッシュされます。

トリプルインデックスブロックが最後に使用されてから、MarkLogicサーバーでそのブロックをキャッシュに保持する時間は、キャッシュタイムアウトで制御します（別のブロックのための空間を作るためにフラッシュされていない場合）。不定期で実行されるクエリに対してキャッシュを維持したい場合に、キャッシュタイムアウトを大きくすることが有効な可能性があります。不定期のクエリが再実行される前に、頻繁に発生する他のクエリによりブロックがキャッシュから押し出されることがあります。

4.1.2 トリプル値とタイプ情報

値は、ディスク上の別の値ストアに「値の等価性」のソート順で格納されます。つまり、

ある特定スタンドにおいて、値IDの順序は値の等価性の順序と同等ということになります。

値の中の文字列は、レンジインデックスの文字列ストレージに格納されます。タイムゾーンや生成されたタイプ情報など、値の等価性と関係のない部分は格納される値から

タイプ情報は別に格納されるため、トリプルはトリプルインデックスから直接返すことができます。この情報は、SPARQLの単純含意で必要なRDF固有の「sameTerm」比較に使用することもできます。

4.1.3 トリプルポジション

トリプルポジションインデックスは、cts:triplesのcts:triple-range-query

およびitem-frequencyオプションを使用するクエリを正確に解決するために使用さ

れます。また、トリプルポジションインデックスは、cts:near-queryおよび

cts:element-queryコンストラクタを使用する検索を正確に解決する目的でも使用

されます。トリプルポジションインデックスは、フラグメント内でのトリプルの相対位置をそのフラグメント内に格納します（通常、フラグメントはドキュメントです）。トリプルポジションインデックスを有効にするとインデックスのサイズが大きくなり、

ドキュメントの読み込み速度が低下しますが、ポジション情報を必要とするクエリの精度は向上します。

例えば以下のようになります。

xquery version "1.0-ml";

cts:search(doc(), cts:near-query((

cts:triple-range-query(sem:iri("http://www.rdfabout.com/

rdf/usgov/sec/id/cik0001075285"), (), ()),

cts:triple-range-query(sem:iri("http://www.rdfabout.com/

rdf/usgov/sec/id/cik0001317036"), (), ()) ),11), "unfiltered")

cts:near-queryは、指定された距離内でマッチしているクエリのシーケンスを返し

ます。ここで指定する距離は、2つのマッチングクエリの間の単語数です。

フィルタリングされていない検索では、指定されたcts:queryを満たす候補であるインデックスからフラグメントを選択し、ドキュメントを返します。

4.1.4 インデックスファイル

メモリを効率的に使用するため、トリプルおよび値ストアのインデックスファイルは、メモリに直接マッピングされます。タイプストアは、全体がメモリにマッピングされます。

トリプルおよび値ストアのどちらも、64バイトのセグメントで構成されたインデックスファイルを持ちます。それぞれの最初のセグメントは、チェックサム、バージョン番号、および（トリプルまたは値の）件数が含まれたヘッダです。その後は次の要素が続きます。

• トリプルインデックス：ヘッダセグメントの後に続くトリプルインデックスには、最初の2つの値のインデックスと、各ブロック内の最初のトリプルの異なる並び順（順列）のインデックスが、64バイトのセグメントに編成されて格納されます。これは、トリプルからの値に基づいて指定された参照の回答を返すために必要なブロックを検索する目的で使用されます。現在、トリプルは序数でアクセスできないため、序数インデックスは必須ではありません。

• 値インデックス：ヘッダセグメントの後に続く値インデックスには、各ブロックの最初の値のインデックスが、64バイトのセグメントに編成されて格納されます。値インデックスは、値に基づいて指定された参照の回答を返すために必要なブロックを検索する目的で使用されます。値インデックスの後には、各ブロックの開始序数のインデックスが続きます。このインデックスは、値IDに基づいて指定された参照の回答を返すために必要なブロックを検索する目的で使用されます。

注：トリプルインデックスは、triple positionsがオンの場合にポジションを格納します。「トリプルインデックスの有効化」（58 ページ）を参照してください。

タイプストアには、格納されるタイプごとにタイプデータファイルに対するオフセットを格納するインデックスファイルが含まれています。これもメモリにマップされます。

次の表は、トリプルインデックスおよび値ストアで使用する情報を格納し、メモリにマップされるインデックスファイルについて説明したものです。

インデックスファイル説明

TripleIndex

TripleValueIndex

TripleDataおよびTripleValueDataのブロックインデッ

クス TripleTypeData

TripleTypeIndex

トリプル値のタイプ情報 StringData

StringIndex AtomData AtomIndex

文字列ベースのレンジインデックスでも使用されます。

TripleValueFreqs

TripleValueFreqsIndex

トリプルに関する統計情報。トリプルインデックスは、データベースに保持されている各値のトリプルに関する統計情報を保持します。

4.1.5 順列

順列として、元のトリプル内の値を異なる並び順で保持します。異なるソート順で、

またトリプルの各部分を効率的に参照できるように、3つの順列（並び順）で格納しています。順列は、3つのRDF要素（主語（Subject）、述語（Predicate）、目的語

（Object））のイニシャルから構成された略語として表現され、例えば{ SOP, PSO, OPS }のようになります。

オプションで次のいずれかのソート順を指定するには、cts:triples関数を使用します。

• order-pso：述語、主語、目的語の順に並んだ結果を返します。

• order-sop：主語、目的語、述語の順に並んだ結果を返します。

• order-ops：目的語、述語、主語の順に並んだ結果を返します。

ドキュメント内目次目次 Semantics Developer s Guide 1.0 MarkLogic におけるセマンティックの概要用語リンクトオープンデータ MarkLogic における RDF 実装 MarkLogic での RDF (ページ 62-66)