[図解]大学4年間のデータサイエンスが10時間でざっと学べる

初めて読むデータサイエンス書籍!

見開き1ページに1単元の要点がまとまっており、かなり読みやすい構成になっています。データサイエンスはとっつきにくい印象がありますが、こちらはスラスラと読み進めることのできる入門書です。全体像を把握したい、また復習として使いたいという方におすすめです。

久野 遼平 (著), 木脇 太一 (著)
出版社: KADOKAWA (2019/9/13)、出典:出版社HP

 

はじめに

データサイエンスは統計学や機械学習だけではなく、コンピュータサイエンスの諸分野とも関連するため、取り扱い範囲が非常に大きい分野です。そのため体系的に基礎知識を身につけるには、さまざまな書籍に当たらねばならず、初学者にとって気軽に全体像を頭に描ける分野ではありません。特に近年ではディープラーニングなど、イメージばかりが先行し、正確にどういう文脈にある技術なのか、正しく理解できていないケースも見かけます。

本書は初学者がデータサイエンスを理解する上で必要な基礎知識を1冊にまとめたものです。一般的なデータサイエンスの本では省略されがちな前提知識、たとえばソフトウェア技術やアルゴリズムの話なども、データサイエンスとの関連を強調しながら丁寧に解説するように努めました。本書を通じてざっとでもデータサイエンスを支える基礎技術をつかんでいただければ幸いです。

本書では数式を用いて説明している箇所が少なからずあります。しかし、そうした数式はあくまで「ちゃんと数学的に定義し、コンピュータに指示を与えることができる」ということを理解してもらうために掲載しているだけです。挿絵のようなものとして読み飛ばしてもらっても結構です。

情報通信技術の進展とともに、さまざまなデータが集められるようになってきたことは周知の事実だと思います。またインターネットやスマホ、IoT技術など、ある種のオートメーションエンジニアリングが日常生活にまで入り込んできていることに思い当たる人も多いでしょう。 EC市場で何かを購入する際に別の商品をお勧めされたり、クレジットカード会社から身に覚えのない購買行動の問い合わせがきたりするのは、裏でデータサイエンティストが必要なアルゴリズムを構築したからです。もちろんそうしたITっぽい仕事だけでなく、もっと文系的な仕事もデータサイエンティストの仕事に含まれます。官公庁がビッグデータから知見をまとめてレポーティングしたり、コンサルティングファームが大きな意思決定を支援したりする際にも、従来のコンピューティング技術や統計手法だけではどうしても限界が生じることがあります。その際にもデータサイエンスは役立ちます。データサイエンスは日進月歩している分野でもあります。取得可能なビッグデータも変わるでしょうし、人工知能技術の進展とともに社会的にデータサイエンティストに求められるニーズも表層的には変わっていくでしょう。実際、本書でも扱っている画像やテキストなど非構造化データの分析は、近年の技術進歩に支えられて流行するようになったものです。またビッグデータ、人工知能、IoT、ブロックチェーンなど、複合的に技術革新が組み合わさった結果、社会の至るところでオートメーションエンジニアリング導入の流れが不可避的に進行しています。この流れの恩恵としてデータサイエンス業界でも今まで考えたこともなかったデータサイエンス課題が日々生まれています。ひょっとしたら、今までわれわれがデータサイエンス課題と思っていたものはほんの氷山の一角にすぎず、本当 に面白いデータサイエンス課題にはまだ気がついてさえいないのかもしれません。

しかしそうであったとしても根本の計算や統計などの科学的知識は、そう大きく変わるものではありません。そして、こういう変化の激しい時代だからこそ、データサイエンスの基礎を学ぶことが重要であるといえます。本書が読者にとって基礎力のしっかりしたデータサイエンティストを目指すきっかけになったならば、筆者としてそれに勝る喜びはありません。

※本書は2018年3月に刊行した「大学4年間のデータサイエンスが10時間でざっと学べる」から43項目を厳選、加筆訂正した上で再編集した1冊です。

久野 遼平 (著), 木脇 太一 (著)
出版社: KADOKAWA (2019/9/13)、出典:出版社HP

CONTENTS

図解 大学4年間のデータサイエンスが10時間でざっと学べる

Part_1 データサイエンスの基礎技術
01 データサイエンスとデータサイエンティスト
02 データサイエンティストに求められる役割
03 ビッグデータはどうやって集める?
04 プログラミングとは
05 プログラムを構成する制御構文
06 プログラムにおける「関数」という概念
07 いくつかに分類されるプログラミングスタイル
08 処理や分析の手順「アルゴリズム」
09 アルゴリズムの評価手法
10 処理にかかる時間を比較する
11 最適解の求め方
12 「勾配法」で最適解を導き出す
13 どの組み合わせが一番得をする?

Part_2 統計学・機械学習の基礎
14 機械学習とは
15 汎化性能と過学習
16 データの概要をつかむ:一次分析
17 線形回帰で住宅価格を予想
18 推定値のばらつき
19 バイアスとバリアンスの分解
20 バイアスとバリアンスのトレードオフ関係
21 パラメトリックモデルとノンパラメトリックモデル
22 アンサンブル学習
23 回帰木で住宅価格を予想
24 ブートストラップ法とバギング
25 ランダムフォレスト
26 勾配ブースティング
27 K – 平均法
28 階層的クラスタリング
29 主成分分析
30 特異値分解で株価を分析

Part_3 ディープラーニング
31 動物の神経システムを模倣した学習モデル
32 単純パーセプトロン
33 多層パーセプトロン
34 多層パーセプトロンの学習
35 ディープラーニング
36 ディープラーニングで利用される技術
37 ディープラーニングの発展に寄与した関数
38 ある単語の次に来る語を予測する
39 系列予測とRNN (1)
40 系列予測と RNN (2)
41 画像データは数値の羅列
42 CNN
43画像の生成

カバーデザイン/ニノ宮匡(ニクスインク) 本文デザイン・DTP / ISSHIKI

最良 平均 最悪
空間計算量
時間計算量 時間計算量 時間計算量
ボゴソート O(n) O((n+1)!) O((n+1)!) O(1)
バブルソート O(n) O(n²) O(n²) O(1)
インサーションソート O(n) O(n²) O(n²) O(1)
マージソート O(nlogn) O(nlogn) O(nlogn) O(n)
クイックソート O(nlogn) O(nlogn) O(n²) O(n)★
★ O(log(n))のときもある
久野 遼平 (著), 木脇 太一 (著)
出版社: KADOKAWA (2019/9/13)、出典:出版社HP

シラバス

意外に知られていませんが、人工知能にしろデータサイエンスにしろ、ハードウェアやプログラミング、データベースなどのソフトウェア、そしてアルゴリズムの進化が昨今のブームを生んだ1つの大きなきっかけでした。データサイエンス本というと、どうしても統計学や機械学習のほうがセクシーで格好いいのでそれらの説明に偏りがちですが、本書では「縁の下の力持ち」にもしっかりスポットライトを当てていきます。本書が標榜する「ビッグデータも扱える基礎力の高いデータサイエンティスト」を目指さないまでも、こうした基礎技術を理解し、ア ルゴリズム屋さんやデータベース屋さんに話してみると、思いがけずためになる話を聞けて面白いかもしれません。

LECTURE 01 データサイエンスとデータサイエンティスト

POINT:データサイエンティストはコンピュータを活用し、データの収集と処理、統計学や機械学習的分析、意思決定や商品開発までの流れを効果的に処理する。

データを分析して価値を生み出す

情報通信技術の進歩とともに、データ分析が必要とされる場面は飛躍的に増えました。インターネットやスマートフォン、スマートセンサー、GPSなどのハードな技術だけでなく、ソーシャルメディア、EC(電子商取引)市場、ウェブ広告、ブロックチェーン、IoT(モノのインターネット)などのソフトな技術も日進月歩しており、それらを支える人材の需要は飛躍的に増加しています。

実際2017年の世界企業の時価総額ランキング上位5社(Apple、Google (Alphabet)、Microsoft、Facebook、Amazon)はいずれもデータ分析を広く活用しており、英国の著名な経済紙であるThe Economist誌は2017年に「今、最も価値のある資源はデータである」という記事を掲載して話題になりました。
それではデータサイエンティストとはどういう技能をもつ人なのでしょうか。本書では「コンピューティング技術を活用し、データの収集と処理、統計学や機械学習的分析、意思決定や商品開発までの一連の流れを効果的に処理する技能をもつ人」を指すことにします。

近年ではデータサイエンティストをさらにビジネスよりの「業務系」と実装重視の「IT系」と峻別することもあります。その意味では本書は後者に焦点を絞ったものです。データサイエンティストに必要な知識や技能は多岐にわたり、一筋縄ではいきません。数学、アルゴリズム、ハードウェアの知識、ソフトウェアの知識、統計学、機械学習、ビジネス課題解決などの応用力。これらすべてに精通している人といえば、そのむずかしさもわかりやすいと思います。
本書は初学者がデータサイエンスの全体をつかめるように書かれたものです。それでは早速学習していきましょう。

PICK UP 【もっと知りたくなる!】

ビッグデータとは

《量だけではなく、速さや正確性なども従来とは異なる》
ビッグデータとは近年取得可能になったデータの総称です。その特徴は量、速さ、種類、正確 さが従来とは大きく異なることにあります。まず、さまざまな情報通信技術によって大量のデ ータが収集可能になるとともに、データが生み出される速さが変わりました。種類も近年大き く変わった特徴の1つです。たとえば物価などの集計量ではなく、詳細な値動きや取引量など、マイクロデータを用いた経済分析も活発になりました。文書、画像、動画、音声などの非構造化データの有効活用が広く試みられるようになったのも近年の動向といえます。一方、正確さに関しては必ずしもポジティブな話だけではありません。ブログ記事などはフェイクニュースの温床にもなっており、情報が正確とはいいきれません。こうしたデータ環境の変化に柔軟に対応し、データ分析を通じて価値を創造するのがデータサイエンティストの仕事です。

 

 

LECTURE 02 データサイエンティストに、求められる役割

POINT:データサイエンスの流れは、まず目的を明確にし、実現のため何のデータを 集めるか考え、プログラムを実装、フィードバックをもとに改善を繰り返す。

久野 遼平 (著), 木脇 太一 (著)
出版社: KADOKAWA (2019/9/13)、出典:出版社HP