• 検索結果がありません。

論文QAのための画像処理〜グラフを読む〜

N/A
N/A
Protected

Academic year: 2021

シェア "論文QAのための画像処理〜グラフを読む〜"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会第 79 回全国大会. 3B-06. 論文 QA のための画像処理∼グラフを読む∼ 磯崎 秀樹 中野 仁登 浅川 護 荒木 良元 岡山県立大学 y 1.5 1.0 0.5 0. 1 はじめに 我々は、論文を対象とした質問応答システムの研究を. D S 0. 1. Anthology(http://aclweb.org/anthology/) の論文 3 万弱 を利用し、自然言語処理に関する質問に答えられること を目指している。 例えば以下のような質問に答えられることを目指し て、各モジュールの整備を行なっている。日本語の質問 を英語のクエリに変換するのは、日本語の論文などから. 2. 3. 4 x. マークあり折れ線グラフ. 行なっており、これを「論文 QA」[1] と呼ぶ。現在、ACL y 1.5 1.0 0.5 0. D D S. S 0. 1. 2. 3. 4 x. マークなし折れ線グラフ. 図1. 折れ線グラフのマークあり/なし. 自動生成した専門用語翻訳辞書 [2] を用いている。. 1. 線形計画法を初めて使った論文は? Lucene をベースにした検索エンジンで、論文の. 2 手法. 出版年が一番古いものを出力している。. 2.1 折れ線グラフ. 2. C-value の定義は? 深層学習を用いた数式画像抽出ツール [3] によっ て得られた数式画像を回答候補として、距離によ るスコアを与えている。. 折れ線グラフの中には、●▲■★などのマークがグラ フの各頂点に描かれているもの(マークあり)と、描か れていないもの(マークなし)がある(図 1) 。 マークありのグラフについては、伊藤 [8] が、グラフの. 3. 英語品詞タグづけの最高精度は? 数値を表す文字列を候補として抽出し、近傍の単 語など素性とした機械学習によって、精度を表す 数値でないものを除去している [4]。. 凡例部分からマークを切り出して、それをテンプレート としてテンプレートマッチングを行う手法を実装した。 しかし、マークなしの場合は、この手法を利用できない。 また、マークがある場合にも、周りにある線や文字な. 論文の中には、グラフが多数あり、これらが重要な意 味を持っていることが多い。. どの影響により、テンプレートがマッチングしないこと がある。その場合にも、線をたどることで、 、読み取れる. そこで本稿では、論文中のグラフを全自動で数値化す. 可能性がある。. る方法について説明する。グラフを数値化する手法と. そこで、マークのない折れ線グラフを読む手法を実. しては、人間が手伝う半自動的な手法と全自動で読み取. 装した。当初、OpenCV の HoughLines で線分を検出. る手法が考えられる。前者は簡単に実装できるが、論文. する手法を試したが、グラフの一部しか取れないので、. QA では何万もの論文を扱うので、全自動でやりたい。. scipy.misc.imrotate で画像を実際に回転させて線分. グラフを読み取る研究は視覚障害者への情報提示手法と. の向きごとのヒストグラムを作ることで線分を検出する. して研究が行われている [5]。. 方法に変更した。. いずれも、OpenCV(http://opencv.org) で画像処理を. これにより、実線は読み取れるようになったが、破線. 行い、 Tesseract-OCR(https://github.com/tesseract-ocr). が読み取れないので、布田ら [9] の手法を参考に破線を. で文字を読むアプローチを採用している。なお、グラ. つなぐと、読み取れるようになった。. フを読む研究は、chart recognition[6] あるいは chart. image recognition[7] と呼ばれることがある. 1-401. Copyright 2017 Information Processing Society of Japan. All Rights Reserved..

(2) 情報処理学会第 79 回全国大会. y 1.5 1.0 0.5 0. H G B P. Q. 3 おわりに 論文に関する質問応答システム「論文 QA」を作成し ている。本稿では、論文に含まれるグラフを自動で認. R. 識し、数値化するプログラムについて説明した。今後は 図2. データを増やして実験を行いたい。本研究は JSPS 科研. 積み上げ棒グラフ. 費 26330366 の助成を受けたものです。 30.0%. N 45.0%. 参考文献. G C. 10.0%. [1] 磯崎秀樹, 伊藤圭汰, 荒木良元:論文 QA のための. Others. 画像処理 表を読む , 言語処理学会年次大会, pp.. 15.0%. 139–142 (2015).. 図 3 円グラフの読み取り. [2] 中嶋達弥:論文 QA のための専門用語辞書の自動生 成, 岡山県立大学修士論文 (2016).. [3] 伊達信太郎, 磯崎秀樹:深層学習と OCR を併用した. 2.2 棒グラフ. 論文画像からの数式領域の検出, 電子情報通信学会. 色で塗り分けられた棒グラフを認識するのは難しくな いが、中には、図 2 の上のような「積み上げ棒グラフ」 もあり、処理が複雑になる。詳細は人工知能学会全国大 会で発表予定であり、割愛する。. NLC (2015). [4] 菊川貴志:論文 QA のための最良スコアの回答候補 抽出, 岡山県立大学修士論文 (2016).. [5] Greenbacker, C. F., Wu, P., Carberry, S., Mc-. 2.3 円グラフ. Coy, K. F., Elzer, S. and Demir, andDaniel Chester. 円グラフは大小比較が難しいとされ、科学技術論文 では使うべきでないとされているが、円グラフを含む 論文もある。例えば、ACL Anthology の W11-4106,. W14-3105, P08-3012 などが円グラフを含んでいる。 円グラフの読み取りは [7] などで議論されている。 我々は、OpenCV の Hough 変換によって円グラフの 中心の座標 (x, y) と半径 r を求めた。しかし、円グラフ の周りの文字などの影響により、本来の値とは若干ずれ た値になることがある。そこで、(x, y, r) の3次元空間 で、得られた値の周りの近くを探索して、実際に円グラ. Sand eniz D. D. M.: Improving the Accessibility of Line Graphs in Multimodal Documents, in Proceedings of the 2nd Workshop on Speech and Language Processing for Assistive Technologies, pp. 52–62 (2011). [6] Liu, Y., Lu, X., Qin, Y., Tang, Z. and Xu, J.: Review of Chart Recognition in Document Images, in Proc. of SPIE-IS&T Electronic Imaging (2013). [7] Weihua Huang, C. L. T. a. K. L.: Model-based Chart Image Recognition, in Graphics Recognition. Recent Advances and Perspectives, LNCS-. フの円周とぴったり重なる値を求めた。 これで得られた中心点から延びる実線を求めて、扇形 と扇形の境界線を求めた。ただし、この手法では、黒く 塗りつぶされた領域が全て境界線として得られるので、 これらをまとめる処理が必要である。 次に、凡例から塗りつぶしパターンを求めてテンプ レート・マッチングを行うことで、対応する領域を求. 3088 (2003). [8] 伊藤圭汰:質問応答のためのグラフ読み取り, 岡山県 立大学卒業論文 (2015).. [9] 布田寿康, 大町真一郎, 阿曽弘具:連結成分追跡によ る文書画像中の折れ線グラフの認識, 電子情報通信 学会論文誌 D-II, Vol. J86-D-II, No. 6, pp. 825–835. (2003).. めた。. 1-402. Copyright 2017 Information Processing Society of Japan. All Rights Reserved..

(3)

参照

関連したドキュメント

町の中心にある「田中 さん家」は、自分の家 のように、料理をした り、畑を作ったり、時 にはのんびり寝てみた

なお、保育所についてはもう一つの視点として、横軸を「園児一人あたりの芝生

   遠くに住んでいる、家に入られることに抵抗感があるなどの 療養中の子どもへの直接支援の難しさを、 IT という手段を使えば

賠償請求が認められている︒ 強姦罪の改正をめぐる状況について顕著な変化はない︒

①配慮義務の内容として︑どの程度の措置をとる必要があるかについては︑粘り強い議論が行なわれた︒メンガー

LUNA 上に図、表、数式などを含んだ問題と回答を LUNA の画面上に同一で表示する機能の必要性 などについての意見があった。そのため、 LUNA

なお、2011 年度のコスト削減額の実績は、緊急特別事業計画で掲げた 434 億円を 12 億円 上回る 446

神はこのように隠れておられるので、神は隠 れていると言わない宗教はどれも正しくな