データの中身(cont.)
•
杜氏•
“日本酒の醸造工程を行う職人集団、すなわち蔵人 の監督者であり、なおかつ酒蔵の最高製造責任者 をいう”•
杜氏になるには、飯焚(かしき/ ままたき / めし
たき)から始め、全工程に習熟するまで数十年を 要したが、その仕事の内容にふさわしい敬意を払 われ、収入面でも恵まれ、「杜氏になれば御殿が 建つ」などと言われたものだから、戦前の貧しい 農漁村では青少年たちは競って杜氏を志した。手 がけた酒の評判が高まれば、どんどん恵まれた環 境への引き抜きがあるが、失敗すれば翌年の契約 はされないという厳しい実力主義の世界であった。ちょうど現代のベンチャー起業家のような側面を 持っていたといえる。
•
日本酒の長期的な消費低迷により、杜氏の数も劇 的に減少したが、1980年代以降、若者であらため て日本酒文化を見直し杜氏になろうとする人が増 えてきている。また流派ごとに専門学校や訓練所 を創設したり、石川県菊姫合資会社による酒マイ スター制度のように、蔵単位で後継者の育成に励 んでいるところもある。•
蔵元•
“酒・醤油・味噌・酢などの醸造元をいい、オー ナー家を指す総称”•
蔵元の主業は蔵物の委託販売である。蔵元は初め 諸藩の米穀を引受け、これを取り扱う蔵役人の称 呼で、藩吏がこれに当たっていたが彼等の無能な ことから、寛文年間(1661年-1673年)の頃より 蔵元の職を藩邸に出入りする町人に委ね、別に留 守居役を定詰または年番として蔵元および掛屋を 監督させた。•
江戸時代初期は、各藩から派遣された武士の蔵元 が多かったが、寛永年間(1624年-1644年)以降、しだいに町人蔵元が主流となり、寛文年間以降、
一般的なものとなった。初期の町人蔵元は、大名 や旗本など諸領主が主要都市の大阪・大津・堺な どに置いた年貢米の販売業者であった。
データの中身
•
杜氏•
“酒造りの最高責任者である杜氏は、蔵内の 管理はもちろん、原料の扱いから、酒しぼ り、貯蔵、熟成まで、全ての工程に目を 配っています。杜氏のもとで酒造りに携わ る蔵人は10名ほどで、作業別に役職が決め られています。杜氏の補佐役となる頭(か しら)は、実際の作業の指揮をとり、人員 の配置を担当します。麹造りの責任者は代 師(だいし)、酒母製造工程の責任者は、もと廻り、もと屋と呼ばれます。この杜 氏・頭・代師、あるいは頭・代師・もと廻 りの3人を三役と呼んでいます。
•
三役以下の役人(やくびと)としては、米 を洗ってから蒸すまでの作業を担当する釜 屋(かまや)、出来上がったモロミをしぼ る係を船頭(せんどう)、炊事の担当者は 広敷番、飯屋(ままや)と呼ばれます。酒 蔵に入りたての蔵人は炊事の仕事などから はじめ、厳しい作業に耐えながら仕事を一 つひとつ覚えていったのです。”http://www.gekkeikan.co.jp/enjoy/sake/industry/industry03.html
分析出来そうなこと
•
このデータのみで出来そうな こと•
石高の分布•
地域ごとの生産量の累計•
都道府県ごとの特性の解析•
酒造ごとの特性(テキスト分析)
•
ひとりあたりの生産量•
蔵元と杜氏の関係性•
親子関係や兄弟関係の有無(Family Firm か否か)
•
年齢の差分•
このデータと他のデータを組 み合わせることで出来そうな こと•
杜氏の特性が石高に与える影響•
杜氏組合•
地域特性が酒造りに与える影響• RESAS
•
他の産業との関係性の分析データベース化の手法
• Web スクレイピング
•
紙/雑誌ベースなので難しい• RPA
•
紙/雑誌ベースなので難しい• OCR
•
もしかしたら出来るかもしれない•
手入力•
出来ればやりたくないけど、確実いつでも探しているよ、どっかに dancyu の姿を
• 3/31 の日本帰国後, 以下の本屋で探してみる
•
愛知•
国立•
吉祥寺•
羽田•
みつからない•
たぶん、dancyu のバックナンバーが売っている本屋ではない と見つからない皆様に聞いてみる
結果、みつかりました
•
東京駅の丸善入手しました
データセットを実際に 確認する
実際のデータを観るとわかること
•
表形式になっていない•
途中で改行されている•
空欄のデータが存在する•
表記ゆれが存在するそこで
• OCR で文字を認識できるように、コピーしてスキャナで取り込
めるようにする
スキャナーを使って、PDFにする (as known as 「自炊する」)
•
スキャンしようとすると、紙が詰まっ たりする•
少し曲がっていたりするスキャンしたデータをとりあえず, フォ
ント埋め込み型のPDF にする
PDF をテキストデータにする
•
最初は調子が良い感じがするがPDF をテキストデータにする
文字は取り出せたが, かなり歪んでいる このまま利用するのはかなり難しい
→ そこで, 手打ちで入力することに
今日のソーシャルコーディング
みんなでデータ入力を (20分)
• https://docs.google.com/spreadsheets/d/1BkgknWKHeQqW nqCs1uaca7ZFvoBF8x44MWr2EuCclnQ/edit?fbclid=IwAR1q6 UynBqICJxbcHaOJ7Cj7RfN_KNGkyK1G3xDfwGb9ThRxwcIZc MKHXT4
にアクセスしてください
(一橋IDを利用してログインしてくださ
い)•
紙に記載された, 以下の情報を入力しましょう•
代表銘柄, 酒造名, 所在地, モットー, 創業年, 石高, 蔵元の名前, 杜氏, 造 りに関わる人数, 蔵の考えるスタンダード商品担当の割り振り
スクリーン
岩手, 秋田, 宮城, 福島, 茨城, 栃木担当
(5-6人)
群馬,千葉東京, 神奈川, 長野, 新潟担当
(5-6人)
富山, 石川, 福井, 静岡, 愛知,岐阜,三重担当
(5-6人)
滋賀, 京都, 大阪, 兵庫, 奈良, 和歌山担当
(5-6人)
岡山, 広島, 鳥取, 島根, 山口担当(5-6人)
徳島, 香川, 愛媛, 高知, 福岡, 佐賀, 長 崎, 熊本, 大分担当
(5-6人)
Start!
Tips
•
役割分担は即席グループ内で適宜調整を•
打ち込む順番などを考えると楽ですおつかれさまでした
とりあえず現時点のデータセットを確認
•
分布や基礎統計は, Google Docs の機能で確認可能•
必要に応じて, Jupyter Notebook + Python で解析するいざ入力すると気づくこと
•
例外的な表記が, 定型なデータになっているはずなのに, とても たくさんある•
長い社訓の表記•
抜けている情報をどう表記するか•
「主な商品」のカッコ内をどう処理するか•
名前の姓と名の間の空白は全角にすべきか、半角にすべきか•
難しい名前をどう処理するか•
元号はデータとして起こしたほうがよいか?•
打ち込んだデータが正しく入力されているかのダブルチェック が必要データベース設計の重要性
•
データをどういった形式で, どう分割して保存するか• SQL の場合; データの形式を細かく指定 (前回講義参照)
•
文字起こしの場合も, スクレイピングやRPA でデータを取得す る場合も,• 1. 元データからどのデータを取得するか
• 2. 取得する場合, どういった形式でデータを取得するか
• 3. 例外的なデータ/データが入力されていない場合, どう処理するか
それぞれ検討する必要がある
dancyu データセットと組み合わせられる データセット
• a.)
杜氏連合データ•
下野杜氏会•
長野県醸友会•
新潟酒造技術研究会•
丹波杜氏組合•
但馬杜氏組合•
南但杜氏組合•
大和杜氏会•
南部杜氏協会•
会津杜氏組合•
山内杜氏組合•
能登杜氏組合•
富山県杜氏会•
広島杜氏組合•
大津杜氏組合•
備中杜氏組合•
出雲杜氏組合•
石見杜氏組合•
高知県杜氏組合•
九州酒造杜氏組合• b.) 杜氏の叙勲褒章者リスト
• https://nittoren.com/pdf/02_01_190215.pdf
Dancyu データセットと組み合わせられ るデータセット (cont.)
• c.) 醸いいかも!
• http://www.jozo.or.jp/iikamo/%E6%B5%85%E8%88
%9E%E9%85%92%E9%80%A0%E6%A0%AA%E5%BC
%8F%E4%BC%9A%E7%A4%BE%E6%A3%AE%E8%B0
%B7%E5%BA%B7%E5%B8%82
Dancyu データセットと組み合わせられ るデータセット (cont.)
• c-2.) 蔵元紀行
• https://www.kuramotokai.com /kikou/
•
蔵主紹介や歴史背景などのテキ ストデータを, Dancyu データ セットと接合して, 企業の特性 を解析可能Dancyu データセットと組み合わせられ るデータセット (cont.)
• d.) RESAS
•
地域経済分析システム• https://resas.go.jp/#/13/1310 1
•
データのダウンロードが可能•
利用方法は後の講義で解説予定Dancyu データセットと組み合わせられ るデータセット (cont.)
• e.) 特許データベース
•
酒蔵の研究開発が石高や売上に影響を与えているか• f.) 企業データベース (DBJ やTDB データベースなど)
•
倒産した酒蔵との比較(サバイバル分析; TDB データベース)
•
酒蔵の売上や資本回転率, ROA やROI など今日のまとめ:
データ分析はデータ設計・収
集までの作業で70-80%
4. 成績評価の方法
成績評価(1)
•
平常レポート(40パーセント; 必須)
•
講義計画に示したように、複数の回で学生にはレポートを課します。レポートは
Word/PowerPoint形式のメールあるいは, github
経由で の提出が求められます(どの方法を採用するかは、初回の講義で決定し ます)。•
レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問 い, (C.) 分析手法, (D.) 分析結果 を明記する必要があります。ページ 数や文字数は問いませんが, これらの内容が含まれており, 講義中にア ナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。•
平常点(10パーセント)
•
本講義は実習が多く含まれており, また取り扱うデータセットや内容も 多彩です。そのため、受講者同士が協力する必要があります。こうし た受講者の態度を評価するために、平常点を設けます。成績評価(2)
•
最終レポート(40パーセント; 必須)
•
講義の最終回では最終レポートの報告会を行います。受講者は3名から4名か ら構成されるグループで、最終レポートの報告を行う必要があります(人数は 受講者の人数により変更される可能性があります)。最終レポートでは、プレ ゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint 以 外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼ ンテーション手法を用いることが出来ます(プレゼンテーションツールについ ては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、以下の点について評価を行います。
ドキュメント内
経済学のための実践的データ分析 6. データを解析するまでに行うWeb スクレイピングとかデータの作成やデータベース設計などの話
(ページ 57-88)