The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 1 -
物語生成
ョ
ョ
作品 文体比較
English title
大塚 裕子
*1藤倉 仁
*1Hiroko OTSUKA Hitoshi FUJIKURA
*1
公立
来大学
Future University Hakodate
The purpose of this study is to make of knowledge for short-short stories by automatic narrative generation. We think that the knowledge for short-short stories by automatic narrative generation is the distinctive words and text features, such as a ratio of a part of speech or a conversation, the number of a sentence, a conversation sentence. In this study, in order to clarify the knowledge that generates short-short story automatically, we analyzed the texts of the five typical writers of short-short story. As a result of analysis, as for the length of one sentence, it was revealed that there was not a difference by a writer. In addition, the number and the length of the conversation are understood a different thing by a writer.
1.
めに
研究 人工知能 作家
い , ョ ョ 作品 作家 作風や文体 違いを,
表現 種類や統計 ,あ い 付 文間関係
計算可能 要因 求 を目的 い .そ ,
稿 複数 ョ ョ 作家 作品 基礎的 分析結
果を報告 .
物語生成研究を大 捉え 場合,人工知能分 俳句
や和歌,川柳 自動生成研究 行わ い [土 2008].近
,物語生成研究 次段階 ,あ 程度制限 文字数
い 物語 完結 ョ ョ 自動生成 注目
い [松原 2013].作品数 多 ,物語 特徴 明確 あ
新一 作品 研究対象 注目 ,作品 物語
構造 関 研究[村井 2013]や,特徴的 語彙 関 研究
[村井 2011] 行わ い . 研究 , 新一 や
そ 作家 寄与 文体 表現 特徴を明
,作家 文字長 会話長や,会話 割合,品
詞割合等を分析 . 分析 先立 , OCR
電子 や,段落 文 会話文 付与 い 付
コ パ 作成 行う.
2.
ショ トショ トテキストコ パス
作成
文体比較 先立 ,分析 対象 基 を作成
.
2.1
対象と たショ トショ ト作品
研究 表/ 示 , 新一 4 作家 ョ
ョ 作品 文体特徴 い 比較 考察を行う.対象
作家 ,阿刀 高, ン, ,
新一,筒井康隆 あ .選択理 ,(1) 新一 ぶ ョ
ョ 作家 ,阿刀 高,筒井康隆 名前 挙
, (2)着目 ン作品 新一 翻
訳 あ ,(3) ・ ン ぶ海外 ョ ョ
作家 名前 見 , .
分析 , 新潮文庫 提供 い
新一 433 作品 無作為 抽出 20
,そ 4 作家 86 作品を電子 計106
を対象 .
表 対象と ショ トショ ト作品テキスト
著者 訳者 書籍 文庫 名 対象数 出版 出版社
阿刀 高 ン狂 13 2012 講談社文庫
ン著 新一訳 ン傑作
28 1982 サ ン SF
文語
著 口俊樹訳
あ 似 人 11 2013 ハ ワ文庫
新一 20*
筒井康隆 笑う 34 2012 新潮社文庫
*211 を対象 無作為 抽出
2.2 BCCWJ
コ パス基準に基 くタグ付け
研究 文体特徴 分析 , 現代日 語書 言葉
均 衡 コ パ (Balanced Corpus of Contemporary Written
Japanese,以後,”BCCWJ” 示 ) 電子
[山口 2010] 定基準 基 , へ 段
落 文 会話文 付 を行う.電子 様
,文章記述言語 XML,文字コ JISX0213:2004
指定 い .
BCCWJ 電子 示 各 意味を以
示 .
[paragraph]:文頭 半角空白 一字 行わ ,
文 改行 行わ い 場合
[sentence]:文 . . ! ? , & ' [ ]
{ { い 括弧 括
い 場合
[quote]: 括弧( ) 括 い 場合
2.3
コ パス
作成および分析手順
コ パ 作成 次 手順 行 .作家 電子
総文字数を計算 表0 結果を得
表 作家ごと 作品総文字数
OCRソ 電子
コ パ 作成
2-1 付 作成
2-2 付 コ パ 作成
分析 考察
3-1 付 コ パ を 対 象
文長 会話長等 分析
総文字数
阿刀 200714
ン 259171 158684 61160
筒井 105208
連絡先:大塚裕子,公立 来大学, 8 海道函館 市亀 中 町 , a@f ac
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 2 -
図 文数 会話文数 割合 図 文長 会話文長 割合
3-2 電子 を対象 ン
分析
阿刀 や筒井 網羅性 十分 い
,一般的 言わ い ョ ョ /作品文字数&約
8 字以 ' ,阿刀 /作品 長 , ,筒井
短 傾向 見 .
3.
文体比較
文体比較 文長 会話文長 会話率 比較&3.1' 品詞
着目 比較&3.2'を行 .
3.1
文長 会話文長 会話率 比較
表1 各作家 /作品 総文字数, 均文数, 均文
長&/文 長 均', 均会話文数, 均会話文長&/回
括弧内 文字 長 ' 均値 標準偏差 あ . ,図
/ 文数 会話文数 割合を,図0 文長 会話文長 割合を
示 あ . 結果 以 明
.
/文 長 , 作家 25|30字 大 差 い ,
述 作品 長 &総文字数' 相違 文数 生 い
いえ /作品あ 均文数 偏 ,
ン 作品 作品 長 &総文字数' ば あ
.
3.2
、品詞比較
ン KHコ 解析結果 見
,品詞 表 方 い 記 ,全体 一定 傾向
見 .
頻度 多い 動詞,名詞, 副詞&副詞B'
頻度 少 い 人名,地名,組織名を含 固有名詞.
,個々 品詞 着目 ,作家 特徴 見
例えば 形容詞 い 悪い い 評価形容詞 場合,
, 新一,筒井康隆 頻度割合 /位 高 ,
阿刀 高 20位以降 あ ,表 方 異 . 白い 赤
い 青い 黒い い 色彩形容詞, 大 い い 高
い 早い い 属性形容詞 表 方 相違 .
形容詞や時間 表現 用法 作品 印象要因
,作品 展開を読者 予測 あ [土
2003], い 引 続 詳細 分析 予定 あ
.
4.
おわりに
ョ ョ 作家 作品 文体や表現 特徴 関
基礎的分析を行 .今後 表現 対象や,表現間 関係
詳細 い 分析 課題 あ .
謝 辞 : 新 一 氏 作 品 利 用 快 諾 関 ,
新潮社 謝意を表 .
参考文献
[松原 2013] 松原仁, 藤理史,赤石美奈,角薫,迎山和司,中
島秀之,瀬戸英明,村井源,大塚裕子,コン 新一
う ョ ョ を創作 試 ,2013.
[村井2013] 村井源, 物語 ベ
構 造 検 討, 情 報 知 識 学 会 ,Vol23,No.2,pp.308-315,2013.
[村井2011] 村井源, 松 斉子, 藤知恵,徃 彰文物
語構造 計 分析 向 - 新一 ョ ョ 物
語構造 特徴-情報知識学会 , Vol. 21,No.1, 2011.
[土 2003] 土 知則,青柳悦子,伊藤直哉, 現代文学理論 ,
新曜社. 2003.
[土 2008] 土 尚子,尾原秀登,美濃 彦,松岡正剛,コン
俳句創作支援 , 像情報 学会
,Vol.62,No.2,pp.247-255,2008.
[山口2010]山口昌也,高 智和, 村 則,間渕洋子,大島一,
林正行,西部 , 現代 日 語書 言葉均衡コ パ
電子 ver.2.2, 特定領域研究 日
語コ パ 成22 度研究成果報告書,2010.
平均総文 字数
標準偏 差
平均文 数
標準偏
差 平均文長
標準偏 差
平均会話 文数
標準偏 差
平均会 話文長
標準偏 差
阿刀 高 15439.5 8181.5 221.8 78.1 32.0 18.9 93.9 40.9 23.9 27.6
ン 17873.9 9726.0 235.2 255.1 26.8 14.4 60.4 80.6 48.0 38.9
14425.8 6926.2 243.1 75.3 28.8 18.3 123.4 63.1 28.9 26.2
新一 3058.0 1372.9 66.4 35.8 26.1 11.5 27.3 16.4 45.5 34.2
筒井康隆 3094.4 2258.4 69.4 63.0 25.1 14.5 33.1 30.2 30.3 27.4
表 作家ごと
統計平均値と標準偏差
221 243
235 66 69
94 123 60 27 33
0% 20% 40% 60% 80% 100%
文数 会話文数
32
27 29 26 25
24
48 29 46 30
0% 20% 40% 60% 80% 100%