• 検索結果がありません。

前処理パターンの抽出と評価

N/A
N/A
Protected

Academic year: 2021

シェア "前処理パターンの抽出と評価"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

トップエスイー: サイエンスによる知的ものづくり教育プログラム

文部科学省科学技術振興調整費 産学融合先端ソフトウェア技術者養成拠点の形成 トップエスイー

~サイエンスによる知的ものづくり教育プログラム~

トップエスイー ソフトウェア開発実践演習

トップエスイー サイエンスによる知的ものづくり教育プログラム

前処理パターンの抽出と評価

株式会社富士通研究所 西村 駿人 [email protected]

開発における問題点 手法・ツールの適用による解決

機械学習応用システムの開発に おいて,データの前処理は重要

前処理は専門的なスキルである

非専門家においても,

データ前処理を容易に実施したい

 IT

技術者が利用可能な共通言語と して前処理パターンを抽出

前処理パターン集の利用により 前処理の容易な実施を目指す

前処理パターン Version 1 Kaggle Notebooks

『前処理大全』[1] ①抽出

前処理パターン Version 2

②洗練のための評価 構造化データの前処理を

取り扱った書籍

評価 前処理パターン抽出方法のアプローチ

③洗練

発表者が

3

段階の工程で,前処理パターンの抽出と洗練を実施(①②③の順)

抽出に利用していないKaggle コンペティションの Notebookで出現確認の実施

1: 本橋 智光,“前処理大全”,技術評論社,2018

実施結果

①抽出 では

11

種類

③洗練 では

16

種類

データ構造を対象とした前処理

(抽出,集約,結合,分割,生成,展開)を 起点に抽出を実施

Wikiシステムを利用し,

パターンをブラウザで編集・閲覧可能とした

ユーザーはパターン集を参照し前処理実施が可能

Vote数上位100件のうち,以下を満たす82件で人手で評価

構造化データ(CSVなど)を処理するもの

Pythonソースコードが記載されているもの

②評価 の結果を踏まえて

新たなパターン抽出や既存パターンの改版を実施

のパターンを抽出

Version2で新たに追加したパターンが出現

洗練活動が効果を発揮した

パターンの妥当性の確認のため,

各パターンの出現の有無を人手で確認

Vote数上位のNotebookで頻出していた 一部のパターンが非出現(データ確認関係)

2パターンを除いて,パターンの出現を確認

(②のデータセットを利用)

前処理パターン利用のための パターン

外部情報を使った データ変換パターン データの性質を記述情報で

確認するパターン

データの性質をグラフで 確認するパターン 特徴量に着目した表への

変換パターン

評価のためのデータ分割 パターン

ファイル形式変換パターン データ拡張パターン 列の抽出パターン データ縮小パターン データの結合パターン データ型変換パターン 行の抽出パターン 欠損値を補完するパターン スケールを変更するパターン 数値の変換を行うパターン

③洗練で抽出したパターン

(2)

トップエスイー: サイエンスによる知的ものづくり教育プログラム

文部科学省科学技術振興調整費 産学融合先端ソフトウェア技術者養成拠点の形成 トップエスイー

~サイエンスによる知的ものづくり教育プログラム~

トップエスイー ソフトウェア開発実践演習

トップエスイー サイエンスによる知的ものづくり教育プログラム

タイトル

所属 名前 メールアドレス(任意)

ポスターの構成

注意点

開発における問題点 手法・ツールの適用による解決

ここでは,今回の修了制作で解決した開発にお ける課題・問題点について述べる.例えば「XX システム開発の際に,セキュリティ上の攻撃と それに対する対策を系統的,網羅的に分析す る必要がある」といったもの.「YYアプリに機能A がなかった」等アプリケーション自体の問題点で はないことに注意する.

ここでは,左で挙げた問題について,どのような 手法・ツールの適用や提案によって解決したか を述べる.手法・ツールの名前を出すだけでなく,

性質を明示し問題との対応がわかるようにする.

例えば「達成目標を分析してシステムの構成要 素を導出する系統的な方法を定めた要求分析 手法KAOSを用いて・・・」といった感じ.

このフォーマットはA3になって いますが,実際にはポスター A0印刷,配布用A4印刷を行い ます.文字の大きさは最低13pt 程度としてください.

上の概要のタイトルも必要であれば変更し てください.人によっては「適用」ではなく

「拡張」「提案」「連携」等となると思います.

ある程度であればマスタの方の大きさを変 えていただいても構いません.

概要より下の部分の構成(スペースの分割 等)についてはお任せします.フッタは残し て下さい.

LMSから提出して下さい.

最終的には3月の修了式等のイベントにて,

(上司の方々や外部の来賓にも)掲示します.

・ こちらで印刷時の様子を見て多少レイアウト等 調整を行う可能性があります.

・ 印刷はNIIで(事務局が)行います.

提出

Webにてアクセス制限なく公開するものである ことに留意して下さい.

審査会での発表とは異なり,外部の方々・TopSE のツール・手法を知らない方々も対象となるため,

・ モデリング方針

・ ツールの設定 等の詳細よりも,

・ その手法・ツールは何ができるか

・ 端的には,その図は何を表しており,その図を 使って何をしたのか

といったことを概念的に説明することとなります.

参照

関連したドキュメント

『国民経済計算年報』から「国内家計最終消費支出」と「家計国民可処分 所得」の 1970 年〜 1996 年の年次データ (

パターン 1 は外航 LNG 受入基地から内航 LNG 船を用いて内航 LNG 受入基地に輸送、その 後ローリー輸送で

データなし データなし データなし データなし

■使い方 以下の5つのパターンから、自施設で届け出る症例に適したものについて、電子届 出票作成の参考にしてください。

具体音出現パターン パターン パターンからみた パターン からみた からみた音声置換 からみた 音声置換 音声置換の 音声置換 の の考察

Tone sandhi rule for pattern substitution in Suzhou Chinese: Verification using words beginning with a Ru syllable Masahiko MASUDA Kyushu University It is well known that in Wu

パターン1 外部環境の「支援的要因(O)」を生 かしたもの パターン2 内部環境の「強み(S)」を生かした もの

・性能評価試験における生活排水の流入パターンでのピーク流入は 250L が 59L/min (お風呂の