九州大学学術情報リポジトリ
Kyushu University Institutional Repository
組合せ的文字列分解
杉本, 志穂
https://doi.org/10.15017/1928634
出版情報:Kyushu University, 2017, 博士(理学), 課程博士 バージョン:
権利関係:
(別紙様式2)
氏 名 : 杉本 志穂
論 文 名 :
Factorizing Strings into Combinatorial Objects
(組合せ的文字列分解)
区 分 : 甲
論 文 内 容 の 要 旨
文字列分解
(string factorization)
とは,与えられた制約の下で文字列を非空文字列(項)の列に分解 する問題である.たとえば,Lyndon分解は,「各項がLyndon文字列」「項の列が辞書式順序に関し て単調非増加」という二つの制約を満たす分解であり一意に定まる.一方,LZ77圧縮法の中核をな すLZ
分解は,「各項が既出」という制約を満たす項数最小の分解の一つである.ここで,項が既出 であるとは,項と同一の文字列が項の左方に出現するときをいう.LZ分解は,「各項が既出」という
制約を「各項が右極大な既出文字列」と強めることで一意性を獲得しつつ,強めない場合の最小項 数と同じ項数をもつ.Lyndon分解とLZ分解の項数は,文法圧縮における文法サイズの下界を与える
ことが知られている.また,様々な文字列処理の問題において,前処理として入力文字列にこれら の分解を施すことでアルゴリズムの高速化に成功した事例も数多く報告されている.このように,文字列分解の研究は,文字列組合せ論分野と文字列アルゴリズム分野の双方へ貢献することが期待 できる.
本論文では,既存あるいは新たに定義した文字列分解問題に対し,その組合せ的性質を究明し,
効率的なアルゴリズムを開発した.
第 一 に ,逆 向 き
LZ分 解 問 題 お よ び そ の 変 種 に 対 し 省 領 域 な オ ン ラ イ ン ア ル ゴ リ ズ ム を 開 発
し た .逆 向 きLZ
分 解 と は ,「 各 項 は 右 極 大 な 逆 向 き 既 出 文 字 列 」と い う 制 約 を も つ 分 解 で あ る . こ こ で ,項 が 逆 向 き 既 出 で あ る と は ,項 を 反 転 し た 文 字 列 が 項 の 左 方 に 出 現 す る と き を い う .O(n logσ)
時 間 ・O(n logn)
ビ ッ ト 領 域 を 要 す るKolpakov-Kucherovア ル ゴ リ ズ ム に 比 べ , 提 案 ア
ル ゴ リ ズ ム はO(n log
2n )
時 間 ・O(nlog σ)ビ ッ ト 領 域 で 動 作 し 省 領 域 で あ る . こ こ で , n
は 入 力 長 ,σ は ア ル フ ァ ベ ッ ト サ イ ズ を 表 す .ま た ,自 己 参 照 付 き 逆 向 きLZ
分 解 と い う 変 種 を 定 義 し , 上 記 と 同 じ 計 算 量 を も つ 二 つ の オ ン ラ イ ン ア ル ゴ リ ズ ム を 示 し て い る .第 二 に , 項 数 最 小 回 文 分 解 お よ び そ の 変 種 を 求 め る オ ン ラ イ ン ア ル ゴ リ ズ ム を 開 発 し た . こ こ で , 項 数 最 小 回 文 分 解 と は , 「 各 項 が 回 文 」 と い う 制 約 の 下 で 項 数 を 最 小 に す る 分 解 を い う .本 論 文 で は 項 数 最 小 回 文 分 解 の 一 つ を
O(n log n)
時 間 ・O(n)
領 域 で 計 算 す る オ ン ラ イ ン ア ル ゴ リ ズ ム を 開 発 し た .ま た , 「 各 項 が 極 大 回 文 」 と い う 制 約 の 下 で 項 数 最 小 の 分 解 を 求 め る 項 数 最 小 極 大 回 文 分 解 問 題 に 対 し て 最 初 の オ ン ラ イ ン ア ル ゴ リ ズ ム を 与 え た .計 算 量 は 前 述 の 項 数 最 小 回 文 分 解 ア ル ゴ リ ズ ム と 同 じ で あ る . 一 方 , 「各 項 が 回 文 」 「 全 て の 項 が 異 な る 」 と い う 制 約 を も つ 素 回 文 分 解 を 定 義 し こ の 問 題 がNP完 全 で あ る こ と を 示 し た .
第 三 に , 閉 文 字 列 分 解 を
O(n)
時 間 で 計 算 す る ア ル ゴ リ ズ ム を 開 発 し た . 閉 文 字 列 分 解 と は ,「 各 項 が 右 極 大 な 閉 文 字 列 」と い う 制 約 を 満 た す 分 解 で あ り 一 意 に 定 ま る .こ こ で ,文 字 列wが 閉 文 字 列 で あ る と は , 文 字 列 u
(|u|<|w|) が 存 在 し て , u
がw
の 接 頭 辞 か つ 接 尾 辞 で あ り , か つ ,u が こ の2回 を 除 い て w
中 に 出 現 し な い と き を い う .第 四 に , ア ー ベ ル 同 値 性 に か か わ る 問 題 を 取 り 上 げ , 連 長 分 解 を 前 処 理 と し て 用 い る 効 率 的 ア ル ゴ リ ズ ム を 開 発 し た .文字列