Extraction and Management of
Spatiotemporal Term from Field Notes
and Data Structuring for its Sharing in
Area Studies
Taizo Yamada
Historiographical Institute,
The University of Tokyo, JAPAN
Contribution
Extraction of place name from field note
–
using SVM (Support Vector Machine)
–
Precision: 0.76
Characterize text in field note
–
Term extraction and categorization using topic
model
Outline
Background, purpose
Methodology
–
Place name extraction
–
text categorization
–
data structure
Background
Field note
–
consists of an observation note, a drawing and an image of a field.
–
one of an important resource to understand the field.
There are a huge amount of field notes, but a small set of the field
notes only can be used.
Various databases concerning Area Studies such as a catalogue, an
image, a movie, an audio and so on have been constructed and
published.
There are scarcely databases concerning text of field note.
–
Reason: there are no discussions or investigations for the efficient data
usage or sharing of the field note data.
Purpose
Establishing a method or constructing a search
System for promoting usage of field note and
for knowledge discovery from field note.
–
For efficient searching or mining the text data
Data Structure of Field note
マングローブ
(en: mangrove)
ココヤシ
(en: coconut)
Scene A
(
text
:
① マングローブ。前面の海にはバガン( 魚取り用の櫓) いくつも
ある。
(en: Mangrove. There are many Bagans which are scaffold to
catch a fish in the front of the sea.)
② ココヤシ多い。この下に少し家ある。
(en: There are many coconuts. There are a few houses in the
below.)
③ チョウジの多い斜面。
(en: The slope has many cloves.)
Place:
Bakauhimi;
Date:
Oct. 19. ‘84;)
Scene B
(
<text>; <place>; <date>;
)
…
Scene A
(
topic
:
<
マングローブ
,
海
,
バガン
, …>,
<
チョウジ
,
斜面
, …>,
…;
place
: Bakauhumi;
date
: Oct. 19. ‘84;)
Scene B
Field note
Determination
of unit
Term extraction
Latent topic
detection
Morphological
analysis
(Mecab + IPAdic)
Using topic model
Target
Example: Koichi Takaya,
“The Field note collection2
Sumatra” (in Japanese)
–
1984. 10. 19 ― 1985. 1. 18
–
Overall Sumatra Island
–
Characters : 165,757
Text Structure
Scene
(analysis unit)
date
Term extraction
morphological analysis
–
mecab+ipadic (morphological analyzer; dictionary)
マングローブ。前面
の海にはバガン( 魚
取り用の櫓) いくつも
ある。
Text (a scene)
マングローブ 名詞,一般
。
記号,句点
前面
名詞,一般
の
助詞,連体化
海
名詞,一般
に
助詞,格助詞,一般
は
助詞,係助詞
バガン
名詞,一般
。
記号,句点
魚
名詞,一般
取り
名詞,接尾
用
名詞,接尾
の
助詞,連体化
櫓
名詞,一般
。
記号,句点
いくつ
名詞,代名詞,一般
も
助詞,係助詞
ある
動詞,自立
。
記号,句点
EOS
Result of morphological analysis
“名詞”: Noun,
“助詞”: postpositional particle,
“記号”: Symbol,
“動詞”: Verb
Bakauhumi:1
マングローブ:1
前面:1
海:1
バガン:1
魚取り用:1
櫓:1
ココヤシ:1
下:1
家:1
チョウジ:1
斜面:1
Bag-of-Words
Extraction target:
only noun
Extracting term and
counting term freq
Using topic model
LDA (Latent Dirichlet Allocation)
:
–
D.M. Blei, et al. “Latent Dirichlet Allocation”, 2003.
• A scene (text) has one or
more latent topic(s).
• Latent topic is calculated
by
term co-occurrence
in a
scene, and
• Latent topic has one or
more terms.
• Outputting
• Relation between a
scene and a topic,
• Relation between a
Result: detection of Latent topics(1)
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 1 集落:8 島:10 Loc:8 Bengkalis:8 チガヤ:4 多い:94 松:12 きれい:6 池:28 町:30 Sultan:6 ゴム:59 地区:11 中国人:103 木:16 2 乳液:6 多い:8 北進:4 土手:6 Tembilahan:3 オカボ:92 悪い:7 広大:5 水田:25 店:17 pres:5 水田:44 丸太:7 人:103 炭:10 3 女:4 周辺:6 島:3 墓:5 急:3 トウモロコ シ:86 湖:7 ゴム園:4 魚池:16 市場:9 森:5 ゴム園:21 会社:6 自分:82 窯:10 4 新しい:4 ton:5 苗木:3 オランブニヤ:4 松林:3 広い:80 平坦:6 広い:4 魚:13 北:7 簡単:4 Minangkabau: 19 レジン:5 無い:79 炭焼き小屋:8 5 灌木:4 松林:5 Pekanbaru:2 乾季:4 煉瓦:3 コーヒー:52 所々:6 ヨシ原:3 小池:6 Arsad:5 Ungku Tugut:3 suku:16 分かれ:5 家:78 直径:7 6 箱:4 実:4 Rokan:2 井戸:4 草地:3 焼畑:37 崖:5 Sungai Lala:2 稚魚:6 Kapsa:5 村:3 焼畑:16 山:5 ココヤシ:76 幅:6 7 盆地:3 Talawi:3
Tembirahan側
:2 作期:3 Batak:2 斜面:33 高い:5 coir:2 Loc:5 丘:5 班:3 人口:14 umo:4 Rp:74 壁:5 8 Kampar川:2 シラス:3 baris:2 分かれ:3
Makanan
Padang:2 周り:31 急:4 cungkilan:2 helong:5 植:5 Blast ing:2 オカボ:13 Transmigrasi:3 Melayu:68 灌漑水路:4 9 Transmigrasi:2 丘地帯:3 karet:2 川:3 Medan:2 シナモン:30 村:4 gulungan:2 上流:5 金:4
Tanjung
enim:2 集落:12 ft:3 土地:51 長い:4 10 balai adat:2 川沿い:3 ホテル:2 満潮時:3 ドラム缶:2 クミリ:29 村長:4 ばら:2 囲い:5 Dumai:3
Tengku Syarid:2 トウモロコ シ:10 昼夜水:3 多い:49 クーポン券:3 V16 V17 V18 V19 V20 V21 V22 V23 V24 V25 V26 V27 V28 V29 V30 1 オカボ畑:5 サゴ:91 オランダ:33 ゴム:142 バガン:19 水田:108 魚:43 家:77 多い:227 左:4 Banjar:49 草:108 牛:16 コショウ:19 ココヤシ:103 2 Buatan:4 工場:59 下:16 広い:90 Tebing Tinggi:6 広い:84 網:28 多い:59 家:118 下り:3 Bugis:37 鍬:98 長い:16 ドリアン:12 木:75 3 松:4 tual:44 ムラユ:14 ゴム園:41
Tanjung
Datuk:5 稲:65 長い:26 右:40 コーヒー:95 川口:3 Sapat:37 田:95 クビキ:8 根元:7 自分:58 4 Amuntai:3 サゴヤシ:35 Raja Kecil:12 タッピング:27
Tanjung
Pinang:5 多い:61 inch:23
マングロー
ブ:29 ココヤシ:91 昼食:3 Tembirahan:29 多い:86 土:8 中心:5 良い:42 5 Loc:3 水:34 間:9 丘:24 核:5 幅:61 エビ:18 集落:24 村:61 湿地:3 稲:27 水田:72 犂先:7 成木:5 泥炭:41 6 マラヤ:3 Rp:33 kota:8 植:12 内皮:4 棚田:60 depa:14 左:23 ゴム:59 長大:3 Java:21 無い:72 草原:6 コーヒー:4 サゴヤシ:36 7 尋:3 濡れサゴ:23 人達:8 悪い:8 原:4 川:43 目:14 ニッパヤシ:15 周り:54 雑魚:3 Parit:19 苗代:72 犂柄:5 持主:4 水路:34 8 小村:3 ton:20 王:8 サゴヤシ:6 Huk Teicu:3 谷地田:35 深い:13 大変:14
ランブータ ン:39
Tungku