ファイル置き場日本Cassandraコミュニティ

(1)

Lucandra を使ってみる〜第 2 回〜

☞ Solandra _{を動かすまで}

2010/8/19

株式会社ぐるなび佐藤史彦　

(2)

Agenda

➲ _{前回までのおさらい}

➲ _Solandra _を動かす

➲ _{今回のまとめ}

(3)

- 前回までのおさらい -

➲ _Lucandra _とは？

➲ _Index _構成

➲ _特徴

➲ _注意点

(4)

Lucandra _{とは ?}

Cassandra ベースの Lucene バックエンド Lucene の Index を Cassandra にストア

(IndexWriter/Reader の Cassandra 対応 ) 対応する Lucene のバージョンは 2.9.1

Cassandra _{は 0.6 系}

(5)

Disk Java

Application

HitsHits ^DocumentDocument Document Document

Lucene

Document Document

Field Field

インデックス作成

QueryParser QueryParser Document

Document Document Document

Document Document

検索

Analyzer Analyzer

Query Query

Lucene Index Lucene Index IndexReader

IndexReader

IndexWriter IndexWriter Analyzer

Analyzer IndexSearcher

IndexSearcher

(6)

Cassandra Java

Application

HitsHits ^DocumentDocument Document Document

Lucandra

Document Document

Field Field

インデックス作成

QueryParser QueryParser Document

Document Document Document

Document Document

検索

Analyzer Analyzer

Query Query

Lucene Index Lucene Index IndexReader

IndexReader

IndexWriter IndexWriter Analyzer

Analyzer IndexSearcher

IndexSearcher

(7)

Keyspace : Lucandra

Index _構成

ColumnFamily : Document

Key : インデックス名のハッシュ + ドキュメント ID Column Name : _{フィールド名}

Value :_{フールド値}

SuperColumnFamily : TermInfo

Key :( インデックス名 + フィールド名 ) のハッシュ + フィールド名 + 単語 SuperColumn : _{ドキュメント ID}

Column Name : Frequencies

Value :当該文書中の当該単語の出現頻度 Column Name : Norms

Value :当該単語における文書のノルム Column Name : Offsets

Value :当該文書中の当該単語のバイト位置オフセットColumn Name : Position

Value :当該文書中の当該単語の出現位置インデックス生

成時のオプションによって、作られるカラムが決まる(Lucene _{と同じ )}

(8)

特徴

➲ _{Lucene API} がほぼそのまま利用可能

➲ _Index のスケーラビリティは Cassandra 依存

➲ Partitioner に OrderPreservingPartitioner を使う（と、フル機能が使える）

➲ _{できること}_☞_{次スライド}

(9)

README より Lucandra でできること

1 Real-Time indexing

(documents become available almost immediately)

2 No optimizing 3 Search

4 Sort

5 Range Queries 6 Delete

7 Wildcards and other Lucene magic 8 Faceting/Highlighting

4,5,7 -> RandomPartitioner _では不可

(10)

注意点

➲ RandomPartitioner _{ではできないことがあ} る（レンジスキャンを必要とするもの）

➲ OrderPreservingPartitioner _{だと、単一イン} デックスで大量のドキュメントを扱う場合にデータが偏りがちになると予想される

→　 InitialToken _{の調整で対応？}

(11)

注意点

➲ _Analyzer で複数単語の Query が生成されるもの（ N-gram など）を使用する場合

は、 TermInfo の Position カラムを作成する必要がある（ここは Lucene とは違うところ）

指定例：

doc.add(new Field("name", name, Store.YES,

Index.ANALYZED,

Field.TermVector.WITH_POSITIONS));

(12)

- Solandra _{動かす -}

➲ _Solandra _{とは ?}

➲ _ビルド

➲ _設定

➲ _起動

➲ _{データストア}

➲ _検索

(13)

Solandra _{とは ?}

Cassandra ベースの Solr バックエンド Solr の Index を Cassandra にストア

(IndexWriter/Reader の Cassandra 対応 ) 対応する Solr のバージョンは 1.4.0

(14)

Solandra _{とは ?}

Solr が Lucene ベースの検索サーバであるように、 Solandra は Lucandra がベースというだけ

ちなみに、 Solr の特徴は

- XML/HTTP や JSON, Ruby, Python の API　 - 検索ヒット箇所のハイライト機能

- _{ファセット検索} - _{キャッシュ機能}

- _{レプリケーション機能} - Web _{管理インタフェース}

(15)

ビルド

lucandra.jar に solandra も含まれているの

で、 Lucandra をビルドしていれば必要なし

solr-example/ に Solr(+Jetty) 一式があります

$ tar xztf tjake-Lucandra-c632677.tar.gz

$ cd tjake-Lucandra-c632677

$ ant lucandra.jar

$ cd solr-example

(16)

設定 (solrconfig)

solrconfig.xml にて、 Cassandra(Thrift) の設定をします

(1) SolandraIndexWriter _の部分

$ vi solr/conf/solrconfig.xml

 <updateHandler class="solandra.SolandraIndexWriter"> <str name="cassandraHost">192.168.56.101</str>

<int name="cassandraPort">9160</int>

<bool name="cassandraFramed">false</bool> </updateHandler>

(17)

設定 (solrconfig)

(2) SolandraIndexReaderFactory _の部分

この通り、 Writer/Reader に指定するクラス Solandraが固有のものになっていることが

わかります

<indexReaderFactory name="IndexReaderFactory" class="solandra.SolandraIndexReaderFactory"> <str name="indexName">solrshopsearch</str>

<str name="cassandraHost">192.168.56.101</str> <int name="cassandraPort">9160</int>

<bool name="cassandraFramed">false</bool> </indexReaderFactory >

(18)

設定 (solrconfig)

ここでは Cassandra 接続の設定が効いているかどうか確認するために、単一ノードだがあえて外部サーバの Cassandra を使用した

実際、エラーが出て結構はまってしまったのだが Lucandra では設定ホストに初回接続後、 describe_ring で取得した end-point に対してランダムに接続する実装が含まれている

（ lucandra.CassandraProxyClient ）

上記はメソッドの引数で「ランダム」か「単体直」かを指定できるのだが、そのメソッドを呼んでいる部分が

「ランダム」でハードコーディングされている

(19)

設定 (solrconfig)

SolandraIndexWriter

コレ

(20)

SolandraIndexReaderFactory

設定 (solrconfig)

コレ

(21)

設定 (solrconfig)

ちなみに、エラーが出た理由は、 Cassandra が単一ノードでノード間接続の ListenAddress が localhost だったため、

describe_ring で取得される end-point が 127.0.0.1 だった

storage-conf.xml: <!--

~ Address to bind to and tell other nodes to connect to. You _must_ ~ change this if you want multiple nodes to be able to communicate! ~

~ Leaving it blank leaves it up to InetAddress.getLocalHost(). This ~ will always do the Right Thing *if* the node is properly configured ~ (hostname, name resolution, etc), and the Right Thing is to use the ~ address associated with the hostname (it might not be).

-->

<ListenAddress>localhost</ListenAddress>  <StoragePort>7000</StoragePort>

(22)

設定 (schema)

次に、 schema.xml にて Index の設定をします

ここでの設定は Solr でスキーマ定義をする場合と一緒です（あまり詳しくはないけど）

$ vi solr/conf/schema.xml

(23)

設定 (schema)

今回は第 1 回の Lucandra で使った日本語サンプルと同様に、某飲食店検索 API から取得したデータを使うことを想定します

- id 店舗 ID （ユニークキー） - name _店舗名称

- url _{店舗ページ URL} - address _住所

- tel _電話番号 - budget _平均予算

(24)

設定 (schema)

(1) スキーマ名（＝インデックス名）を変更

※現行では複数定義できないのがいまいち

(2) schema/types/fieldType _を追加

（ CJKAnalyzer を使う fieldType を定義）

<schema name="solrshopsearch" version="1.2">

<fieldType name="text_cjk" class="solr.TextField"> <analyzer

　　class="org.apache.lucene.analysis.cjk.CJKAnalyzer"/>

</fieldType>

(25)

設定 (schema)

(3) schema/fields/field _{の内容を今回のデータ} に合わせて変更します

<field name="id" type="string" indexed="true" stored="true" required="true" />

<field name="name" type="text_cjk" indexed="true" stored="true" termPositions="true" />

<field name="url" type="text" indexed="false" stored="true" />

<field name="address" type="text_cjk" indexed="true" stored="true" termPositions="true" />

<field name="tel" type="text" indexed="true" stored="true" termPositions="true" />

<field name="budget" type="int" indexed="true" stored="true" />

(26)

設定 (schema)

(4) 全文検索用のフィールド (name="text") を CJKAnalyzer _{に対応させます}

(5) schema/uniqueKey _{（ユニークキー} フィールド）を設定します

（今回はデフォルトのまま）

<field name="text" type="text_cjk" indexed="true" stored="false" multiValued="true"

termPositions="true" />

<uniqueKey>id</uniqueKey>

(27)

設定 (schema)

(6) schema/defaultSearchField _{（デフォルト} の全文検索用フィールド）を設定します

（こちらも今回はデフォルトのまま）

(7) schema/copyField _{で全文検索対象にする} フィールドをコピーする指定をします

<defaultSearchField>text</defaultSearchField>

<copyField source="id" dest="text"/>

<copyField source="name" dest="text"/>

<copyField source="address" dest="text"/>

<copyField source="tel" dest="text"/>

(28)

起動

Jetty _{を起動します}

ブラウザから管理ツールを確認します http://localhost:8983/solr/admin/

$ java -jar start.jar

(29)

起動

(30)

データストア

exampledocs/ にデータポスト用のスクリプト（ post.sh ）があります

あらかじめ作っておいた某飲食店データの XML （ data.xml ）を投入します

$ cd exampledocs

$ ./post.sh data.xml

(31)

データストア

ちなみに、データはこんな感じです

$ head data.xml

<add> <doc>

<field name="id">a683900</field>

<field name="name">CAFE & BAR _{ＤＯＮＱＭＡＲＵ} ＮＯＵＣＨＩ </field>

<field

name="url">http://r.gnavi.co.jp/a683900/</f ield>

<field name="address"> 〒 100-0005 東京都千代田区丸の 内 2-1-1 明治安田生命ビル丸の内マイプラザ B2</field>

<field name="tel">03-5219-5481</field> <field name="budget">2500</field>

</doc> <doc>

(32)

検索

管理ツールからクエリを投げてみます

中段にある QueryString にクエリを記述して Search ボタンをクリックします

(33)

検索

こんな結果が返ります

(34)

検索

JSON もあります（ wt=json を指定）

(35)

- _{今回のまとめ -}

➲ _Solandra _{の動かし方を確認した}

➲ 途中からうっすら気づいていたように、後半はほとんど Solr の話しかしていない

➲ つまり、 lib に lucandra.jar を入れて solrconfig の IndexWriter/Reader を

Solrandra に変更すれば、既存の Solr 環境にも適用できる

(36)

ファイル置き場 日本Cassandraコミュニティ

Lucandra を使ってみる 〜第 2 回〜

Agenda

- 前回までのおさらい -

Lucandra とは ?

Lucene

Lucandra

Index 構成

特徴

注意点

注意点

- Solandra 動かす -

Solandra とは ?

Solandra とは ?

ビルド

設定 (solrconfig)

設定 (solrconfig)

設定 (solrconfig)

設定 (solrconfig)

設定 (solrconfig)

設定 (solrconfig)

設定 (schema)

設定 (schema)

設定 (schema)

設定 (schema)

設定 (schema)

設定 (schema)

起動

起動

データストア

データストア

検索

検索

検索

- 今回のまとめ -

Thanks!

ファイル置き場日本Cassandraコミュニティ

Lucandra を使ってみる〜第 2 回〜

Lucandra _{とは ?}

Index _構成

- Solandra _{動かす -}

Solandra _{とは ?}

Solandra _{とは ?}

- _{今回のまとめ -}