機械学習を用いた編集業務の
生産性向上への取り組み
株式会社朝日新聞社 メディアラボ 田森 秀明
情報技術本部開発部 落合 隆文
自己紹介
• 落合 隆文 • 情報技術本部開発部技師 • 2007年4月朝日新聞社入社。情報システム部、 工程管理部などを経て2015年から開発部。 • 主にデジタルサービスの開発を担当。最近で はCMS(コンテンツ管理システム)の開発や 研究開発チーム「ICTRAD」でのプロトタイ プ開発を担当。 • 田森 秀明 • メディアラボ主査・博士(情報科学) • 2003年4月朝日新聞社入社。管制課、シス テム部などを経て2013年からメディアラボ。 • 2015年6月~2016年6月=スタンフォード 大学客員研究員として自然言語処理研究に従 事。メディアラボと情報技術本部
• 〈メディアラボ〉メディア環境の激変に立ち向かい、自らの殻を 突き破るための新組織として2013年に発足。5年、10年先 を視野に事業刷新と成長をめざし、新たなメディアの創造を含む 新商品・新事業の開発、最先端技術の研究に取り組む。 • 〈情報技術本部〉2015年、社内のIT技術者を統合して発足し た組織。新聞製作や社内業務、「朝日新聞デジタル」のシステム 開発、社内の業務革新を目的としたIT技術研究・開発、技術者育 成などを担当。本部横断のチーム(ICTRAD)で機械学習を用い た研究開発に取り組んでいる。今日話すこと
編集業務の生産性向上を目的とした、機械学習を用いた
アプリケーション開発や学術研究の事例、AWSの活用
方法についてご紹介します。
• Part1 業務アプリケーションの開発事例
• Part2 学術研究の紹介
• Part3 学術研究で得られた成果の実サービス展開
Part1
業務アプリケーションの開発事例
アプリケーションの開発事例
• 社内部門と連携してプロトタイプ開発
→ ニーズのあるものは本番サービス化へ
これまでの開発事例
• 編集部向けの記事分類サービス
• 関連記事・画像検索サービス
• 自動クイズ生成(進行中)
• 画像検索アプリ
・・・etc
例:画像検索アプリ (機械学習による力士の顔認識)アプリケーションの開発事例
• 社内部門と連携してプロトタイプ開発
→ ニーズのあるものは本番サービス化へ
これまでの開発事例
• 編集部向けの記事分類サービス
• 関連記事・画像検索サービス ←今回の事例
• 自動クイズ生成(進行中)
• 画像検索アプリ
・・・etc
©The Asahi Shimbun Company 2018
例:画像検索アプリ (機械学習による力士の顔認識)
関連記事・画像検索サービス
• 写真のない新聞記事をデジタル配信すると、 一覧に見出しだけで表示される • 写真のある記事の方が注目されやすいため、 写真をセットにして配信したい • しかし、探すのに手間がかかる という話を編集者から聞き、記事の内容を解析 して写真を提案するサービスを目指して、プロ トタイプの開発がスタートプロトタイプのサービス概要
• 社内向けのWEBサービスとして開発
→編集者が気軽に使えるように、ブラウザから利用できるようにした • 記事の本文を入力すると、記事の内容に合った画像を表示
©The Asahi Shimbun Company 2018
WEBブラウザ デジタル編集者
検索
プロトタイプのサービス概要
• 社内向けのWEBサービスとして開発 →編集者が気軽に使えるように、ブラウザから利用できるようにした • 記事の本文を入力すると、記事の内容に合った画像を表示 WEBブラウザ デジタル編集者 検索 記事の本文を入力 処理の流れ 1. 本文の内容を元に、検索クエリを生成する 2. 全文検索エンジンに対して検索を実行する 3. 検索結果を返す 機械学習の推論機能プロトタイプのAWS構成
• 最初のプロトタイプはEC2で実装(2016/12~2017/3)
• WEBサービスとして、編集者からのフィードバックを得て改善を繰り 返して開発
©The Asahi Shimbun Company 2018
EC2 Amazon S3 bucket Amazon S3 bucket 記事、画像データ WEBブラウザ 当初はEC2にWEBサービスとしての機能を実装 EC2 前処理・学習用サーバー (処理によって一部オンプレ) デジタル編集者 静的配信 学習済モデル
サービス化へ
プロトタイプの評価を経て、編集者向けの記事と画像の検索システムとして業務内で利用 されることになった • ニュースサイトの編集という業務要件から 24 時間 365 日の運用が必要となる • 運用が課題となり、EC2からサーバーレスでの開発に切り替え → サーバーレスであればインフラ管理、セキュリティ対策、運用保守が低負荷と判断 → 少人数でも機能開発に集中できる環境を作りたかったEC2 Elasticsearch Service Amazon S3 bucket API Gateway Lambda WEB ブラウザ デジタル編集者 • WEBフロント、機械学習の推論機能をAPI化して分離 →それぞれの機能に変更を加えやすい構成にして社内公開(2017/6) • 推論APIはEC2で稼働する構成 →推論APIが障害となってもサービスとして継続できるように実装で 工夫している WEBフロントAPI
©The Asahi Shimbun Company 2018
サービスの構成(WEBフロント・検索部分)
Amazon S3 bucket デジタル配信素材 (記事、画像データ) データ更新 タグ付け 全文検索エンジン 静的配信 EC2 推論APIEC2 Elasticsearch Service Amazon S3 bucket API Gateway Lambda WEB ブラウザ デジタル編集者 • クリックログを取得するAPIも開発 → サービスの使われ方の把握、機械学習の教師データを溜めることが狙い API Gateway Lambda Dynamo DB Amazon EMR Amazon S3 bucket クリックログ クリックログ登録API
サービスの構成(クリックログの取得)
Amazon S3 bucket EC2EC2 Elasticsearch Service Amazon S3 bucket API Gateway Lambda WEB ブラウザ デジタル編集者 • 取得したクリックデータや各種データを元に編集者とコミュニケーション → 利用状況を確認&直接編集者からフィードバックを得てサービスを継続改善 API Gateway Lambda Dynamo DB Amazon EMR Amazon S3 bucket 開発者 EC2
©The Asahi Shimbun Company 2018
サービスの構成(データ分析)
データ分析、可視化 学習処理
サーバーレス化の効果
• 少人数でも機能開発に集中できる → フロントがマネージドサービスなので、運用負荷が低い → スケールに悩まない → インフラに使う時間が減り、編集者とのコミュニケーションや機能開発に集中できる • 安い(フロント部分のコストはEC2を使用した場合の99%以上減) • 早い(設定ファイルを作成し、2時間もあれば新環境をデプロイできる) • マイクロサービス化できる → フロントと機械学習、それぞれの機能改修が容易になった → 記事検索APIを他のシステムにも機能提供するなど、柔軟な対応ができるようになった • 制約(Lambdaのコード容量制限・・・etc)もあるが、メリットの方がはるかに大き いというのが実感残る課題
• 推論APIはEC2で稼働しており、インフラ管理の負荷が残っていることが課題 → 推論処理もサーバーレス化したい → サーバーレス化へ向けて一部アプリのコンテナ化を始めているが、コンテナの管理がネック →(早く東京リージョンでFargateを使いたい) • 学習環境はEC2とオンプレ環境(GPUマシン)との混在 → GPUを使う場合はオンプレマシンがメインだが、同時に学習できる数に制約がある → オンプレマシンのOSが古くなり、最新の実行環境が入らない(OSアップデートが必要) → サービス化したものはAWS環境内で定期的にモデル更新し、自動化していきたい → GPUマシンの料金を考えると、費用は最小限にしたい → 学習部分も一部コンテナ化を検討 →(SageMakerを一部の記事分類のモデルのトレーニングで試験。マシンの管理が不要である点、 実行課金である点にメリットを感じている)Part2
「新聞業とはこういうもの」といった既成概念にとらわ
れない新しい商品やビジネスの開発を目指す「実験室」
です。
失敗を恐れずに挑戦を繰り返すための実験工房として活
動しています。
新規事業
出資・投資
研究・開発
2つのテーマ
• AR / VR / MR
2つのテーマ
• AR / VR / MR
• 人工知能(自然言語処理)
紙面に載せづらいQRコードの代替
新聞のスピード感にマッチ…印刷後でも登録可
コスト削減、広告などへの武器の1つとして
29
2つのテーマ
• AR / VR / MR
人工知能=自然言語処理研究
• ラボ設立当初から 2013年9月~
• エンジニア出身者3名、記者出身者1名
• 自然言語処理は全員未経験、
プログラミング経験はあり
• 基礎研究・新ビジネス開拓・社会への発信
• 社内エンジニアの技術力の向上
=社内への技術保有
• 優秀な技術者を集めたい
31 [email protected]Copyright 2017 The Asahi Shimbun Company.
目的
• 社内データベースに貯まっている
約30年分、約900万
記事を使って・・・
• 新規ビジネスを開発
アドバイザリー契約
• 東北大学 乾教授・岡崎准教授(現・東京工大
教授)
• 自然言語処理では非常に著名
• 今年で4年目
33 [email protected]Copyright 2017 The Asahi Shimbun Company.
との共同研究
• 2016年11月、株式会社プ リ フ ァ ー ド イ ンフ ラス ト ラ ク チャーからスピンアウトしたス タートアップ企業。「お客様の 課 題 を 最 先 端 の技 術で 解 決 す る」をミッションとしている。 自然言語処理、機械学習、深層 学習をコアテクノロジーとして、 コールセンターの問い合わせ分 析 や 回 答 支 援 など のソ リ ュ ー シ ョ ン お よ び 数多 くの ソ フ ト ウェアを提供している。• 記事データを共有、両者で研究
• 両社に利益
• 朝日のエンジニアが週3回派遣、
積極的技術共有
• 特許・学術論文:社会還元
進めていること
• 自動校正
• 単語ベクトルの公開
• 自動見出し生成・自動要約
• いずれも、朝日のエンジニアが独自に進めています
• 本日の発表内容はすべて開発できていて、ビジネス化
や社内システム導入を検討中です
自動校正
自動校正エンジン(特許出願中)
<文脈を捉えた同音異義語・動詞> 校正前:東京(品川)と名古屋の間は2027年に開業、名古屋から大阪までは45年に伸びる予定だ。 校正後:東京(品川)と名古屋の間は2027年に開業、名古屋から大阪までは45年に延びる予定だ。 <文脈を捉えた同音異義語・名詞> 校正前:県警は8日、熊谷署に100人体制の捜査本部を設置。 校正後:県警は8日、熊谷署に100人態勢の捜査本部を設置。 <固有名詞の訂正> 校正前:神通川第2ダムを超えると、まもなく木造の建物が見えてきた。 校正後:神通川第二ダムを越えると、まもなく木造の建物が見えてきた。 <助詞の訂正、他の名詞への代替案> 校正前:医療の進歩により、がんがなった後も以前と変わらぬ人生を送れる人が増えている。 校正後:医療の進歩により、がんになった後も以前と変わらぬ人生を送れる例が増えている。39
http://www.asahi.com/shimbun/medialab/word_embedding/
自動見出し生成
左右どちらのグループが、
自動見出し生成
左右どちらのグループが、
ディープラーニングで付けたものでしょうか?
コンピューターで付けた見出し
©The Asahi Shimbun Company 2018様々な長さの見出しを一気につける
• 上から10文字以下、13文字以下、26文字以下にコントロー
ル
(10文字)臨時国会 、#日召集
(13文字)臨時国会 、#日召集へ
(26文字)臨時国会 、#日召集#日に 衆参両院運営委理事会
(10文字)教員の長時間労働問題
(13文字)教員の長時間労働めぐり分担
(26文字)教員の長時間労働 、教員の分担見直し文部科学省方針
大事な文を自動で抽出する
• (本文)第#回芥川賞・直木賞の候補作が#日発表され、在日中国人女性の楊逸さん= 写真=が芥川賞候補に選ばれた。同振興会によると、中国籍の芥川賞候補者は初という。 楊さんは中国・ハルビン市出身。#歳で来日し日本語を学び、在日中国人向けの新聞社 で社長秘書として働きながら、中国語で詩やエッセーを発表してきた。日本語で構想・ 執筆した候補作「ワンちゃん」は、日本人と再婚した中国人女性を主人公に、人間模様 をユーモラスに描く。現在、東京都内で中国語講師を務めている。選考会は#日、東 京・築地の新喜楽で開かれる。候補作は次の通り。… • (人間が付けた要約) 東京都内で働く在日中国人女性の楊逸さんの小説「ワンちゃん」が、芥 川賞の候補作に選ばれた。中国籍の作家が候補になるのは初めて。日本 人と再婚した中国人女性を主人公に、人間模様をユーモラスに描いてい る。 • (自動で抽出した重要文) 第#回芥川賞・直木賞の候補作が#日発表され、在日中国人女性の楊逸 さん=写真=が芥川賞候補に選ばれた。 日本語で構想・執筆した候補作「ワンちゃん」は、日本人と再婚した中研究内容は国際レベル
研究環境
• 社内オンプレマシン • 高速計算用GPUサーバー x 2 • 主にディープラーニングの学習は社内サーバーで実施 • AWSの利用も検討したが、手元にあったほうがいいという判断 • 今後大量に学習させようとしたらクラウドメインに切り替えていくことが 必要だが、現状は社内サーバーがメイン • AWS • 推論用CPUインスタンス(GPUでの学習結果をCPUで推論するデモ環境) • 学習用GPUインスタンス(論文執筆のための実験が間に合わないときなど、 オンプレマシンの代わりに臨時で起動)→Deep Learning AMIを利用。必要に応じて環境を素早く立ち上げられ、ク ラウドを使うメリットを感じている
Part3
学術研究で得られた成果の実サービス展開
見出し生成のサービス化へ
• 先ほど紹介した見出し生成処理をAPI化
→ WEB向けのCMS(コンテンツ管理システム)向けに機能を公開 → 編集者が見出し候補を利用できる環境づくりに取り組み中
見出し生成APIのAWS構成
• 見出し生成APIはECS(Fargateで起動)で実装 →今後のデプロイの自動化などを考慮してマネージドサービス(CodeCommit, CodeBuild)を利用 AWS CodeCommit AWSCodeBuild Amazon ECR
Amazon ECS Application Load Balancer ECS container 見出し生成API(推論API) 編集者
©The Asahi Shimbun Company 2018
開発者 CMS画面 WEBブラウザ 学習済みモデル込みの コードをプッシュ コードをビルド、デプロイ Web API ※海外リージョンを使用 →見出し生成自体に数秒かかるため、レイテンシを許容できた