データサイエンスの基礎 (データサイエンス入門シリーズ)

ベースとなる知識を

データサイエンスの基礎が一からしっかりと学べる1冊になっています。参考書というより技術書よりで内容が少し難しいところがありますが、読み進めていくうちに理解することができるので、全体を見ながら学習することをおすすめします。

狩野 裕 (編集), 〓田 悦生 (著)
出版社: 講談社 (2019/8/31)、出典:出版社HP

刊行によせて

人類発展の歴史は一様ではない、長い人類の営みの中で、あるとき急激な変化が始まり、やがてそれまでは想像できなかったような新しい世界が拓ける。我々は今まさにそのような歴史の転換期に直面している。言うまでもなく、この転換の原動力は情報通信技術および計測技術の飛躍的発展と高機能センサーのコモディティ化によって出現したビッグデータである。自動運転、画像認識、医療診断、コンピュータゲームなどデータの活用が社会常識を大きく変えつつある例は枚挙に暇がない。データから知識を獲得する方法としての統計学、データサイエンスやAIは生命が長い進化の過程で獲得した情報処理の方式をサイバー世界において実現しつつあるとも考えられる。AIがすぐに人間の知能を超えるとはいえないにしても、生命や人類が個々に学習した知識を他者に移転する方法が極めて限定されているのに対して、サイバー世界の知識や情報処理方式は容易く移転・共有できる点に大きな可能性が見いだされる。

これからの新しい世界において経済発展を支えるのは、土地、資本、労働に替わってビッグデータからの知識創出と考えられている。そのため、理論科学、実験科学、計算科学に加えデータサイエンスが第4の科学的方法論として重要になっている。今後は文系の社会人にとってもデータサイエンスの素養は不可欠となる。また、今後すべての研究者はデータサイエンティストにならなければならないと言われるように、学術研究に携わるすべての研究者にとってもデータサイエンスは必要なツールになると思われる。

このような変化を逸早く認識した欧米では2005年ごろから統計教育の強化が始まり、さらに 2013年ごろからはデータサイエンスの教育プログラムが急速に立ち上がり、その動きは近年では近隣アジア諸国にまで及んでいる。このような世界的潮流の中で、遅ればせながら我が国においても、データ駆動型の社会実現の鍵として数理・データサイエンス教育強化の取り組みが急速に進められている。その一環として2017年度には国立大学6校が数理・データサイエンス教育強化拠点として採択され、各大学における全学データサイエンス教育の実施に向けた取組みを開始するとともに、コンソーシアムを形成して全国普及に向けた活動を行ってきた。コンソーシアムでは標準カリキュラム、教材、教育用データベースに関する3分科会を設置し全国普及に向けた活動を行ってきたが、2019年度にはさらに20大学が協力校として採択され、全国全大学への普及の加速が図られている。

本シリーズはこのコンソーシアム活動の成果の一つといえるもので、データサイエンスの基本的スキルを考慮しながら6拠点校の協力の下で企画・編集されたものである。第1期として出版される3冊は、データサイエンスの基盤ともいえる数学、統計、最適化に関するものであるが、データサイエンスの基礎としての教科書は従来の各分野における教科書と同じでよいわけではない。このため、今回出版される3冊はデータサイエンスの教育の場や実践の場で利用されることを強く意識して、動機付け、題材選び、説明の仕方、例題選びが工夫されており、従来の教科書とは異なりデータサイエンス向けの入門書となっている。今後、来年春までに全10 冊のシリーズが刊行される予定であるが、これらがよき入門書となって、我が国のデータサイエンスカが飛躍的に向上することを願っている。

2019年7月 東京大学特任教授、元統計数理研究所所長 北川源四郎

昨今、人工知能(AI)の技術がビジネスや科学研究など、社会のさまざまな場面で用いられるようになってきました。インターネット、センサーなどを通して収集されるデータ量は増加の一途をたどっており、データから有用な知見を引き出すデータサイエンスに関する知見は、今後、ますます重要になっていくと考えられます。本シリーズは、そのようなデータサイエンスの基礎を学べる教科書シリーズです。

第1期には、3つの書籍が刊行されます。『データサイエンスのための数学』は、データサイエンスの理解・活用に必要となる線形代数・微分積分・確率の要点がコンパクトにまとめられています。『データサイエンスの基礎』は、「リテラシーとしてのデータサイエンス」と題した導入から始まり、確率の基礎と統計的な話題が紹介されています。『最適化手法入門』は、Pythonのコードが多く記載されるなど、使う側の立場を重視した最適化の教科書です。

2019年3月に発表された経済産業省のIT人材需給に関する調査では、AIやビッグデータ、IoT 等、第4次産業革命に対応した新しいビジネスの担い手として、付加価値の創出や革新的な効率化等などにより生産性向上等に寄与できる先端IT人材が、2030年には55万人不足すると報告されています。この不足を埋めるためには、国を挙げて先端IT人材の育成を迅速に進める必要があり、本シリーズはまさにこの目的に合致しています。

本シリーズが、初学者にとって信頼できる案内人となることを期待します。

2019年7月 理化学研究所革新知能統合研究センターセンター長、東京大学教授 杉山 将

巻頭言

情報通信技術や計測技術の急激な発展により、データが溢れるように遍在するビッグデータの時代となりました。人々はスマートフォンにより常時ネットワークに接続し、地図情報や交通機関の情報などの必要な情報を瞬時に受け取ることができるようになりました。同時に人々の行動の履歴がネットワーク上に記録されています。

このように人々の行動のデータが直接得られるようになったことから、さまざまな新しいサービスが生まれています。携帯電話の通信方式も現状の4Gからその100倍以上高速とされる5Gへと数年内に進化することが確実視されており、データの時代は更に進んでいきます。このような中で、データを処理・分析し、データから有益な情報をとりだす方法論であるデータサイエンスの重要性が広く認識されるようになりました。

しかしながら、アメリカや中国と比較して、日本ではデータサイエンスを担う人材であるデータサイエンティストの育成が非常に遅れています。アマゾンやグーグルなどのアメリカのインターネット企業の存在感は非常に大きく、またアリババやテンセントなどの中国の企業も急速に成長をとげています。これらの企業はデータ分析を事業の核としており、多くのデータサイエンティストを採用しています。

これらの巨大企業に限らず、社会のあらゆる場面でデータが得られるようになったことから、データサイエンスの知識はほとんどの分野で必要とされています。データサイエンス分野の遅れを取り戻すべく、日本でも文系・理系を問わず多くの学生がデータサイエンスを学ぶことが望まれます。文部科学省も「数理及びデータサイエンスに係る教育強化拠点」6大学(北海道大学、東京大学、滋賀大学、京都大学、大阪大学、九州大学)を選定し、拠点校は「数理・データサイエンス教育強化拠点コンソーシアム」を設立して、全国の大学に向けたデータサイエンス教育の指針や教育コンテンツの作成をおこなっています。本シリーズは、コンソーシアムのカリキュラム分科会が作成したデータサイエンスに関するスキルセットに準拠した標準的な教科書シリーズを目指して編集されました。

またコンソーシアムの教材分科会委員の先生方には各巻の原稿を読んでいただき、貴重なコメントをいただきました。データサイエンスは、従来からの統計学とデータサイエンスに必要な情報学の二つの分野を基礎としますが、データサイエンスの教育のためには、データという共通点からこれらの二つの分野を融合的に扱うことが必要です。この点で本シリーズは、これまでの統計学やコンピュータ科学の個々の教科書とは性格を異にしており、ビッグデータの時代にふさわしい内容を提供します。本シリーズが全国の大学で活用されることを期待いたします。

2019年4月 滋賀大学データサイエンス学部学部長、教授 編集委員長 竹村彰通

狩野 裕 (編集), 〓田 悦生 (著)
出版社: 講談社 (2019/8/31)、出典:出版社HP

まえがき

データサイエンスというキーワードが日本に留まらず世界中の大学を中心に社会を席捲している昨今、その名も「データサイエンスの基礎」と銘打つ書籍を出版することとなった。しかしながら、データサイエンスという用語が多様に使用されているときに、その基礎を問われても何が基礎で何が基礎でないか、を選定することは簡単にはいかないであろうそこで、データサイエンスにおける基礎事項と著者が考える以下の項目

  • データリテラシーに関する話題
  • 数学的な確率の定義
  • データにおける代表値と散らばりの特徴
  • 基本的な確率分布の性質
  • 中心極限定理の紹介
  • 統計的な話題の例

を掲載することにした、これらの話題や例題は、著者が学部1年生に統計学を長年教える上で利用してきた内容の一部でもある。その結果このテキストは、いわゆる統計学の基礎で教えられているような標準的なテキストとは異なり、データサイエンスを学ぶにおいて、実際のデータを多く扱いながら、データの確率的な挙動を概念的にも把握する基礎作りとして、他にあまり類のない構成・内容となっている。読者の批判に耐えうるものになっていることを願うばかりである。このテキスト作成に関して、著者をお誘い下さいました大阪大学大学院基礎工学研究科 狩野裕教授に感謝致します。また、原稿を丁寧で読んで頂き非常に有益なコメントを頂きました大阪府立大学大学院工学研究科 林利治准教授、大阪大学 数理・データ科学教育研究センター 朝倉暢彦特任講師、そして大阪大学大学院基礎工学研究科博士後期課程 倉田澄人君に感謝致します。原稿作成全般を通じて、温かい励ましを頂きました講談社サイエンティフィク横山真吾様と瀬戸晶子様に感謝致します。最後になりましたが、著者の原稿作成を支えてくれた佐知子と結理菜に感謝します。

平成30年12月 濱田 悦生

狩野 裕 (編集), 〓田 悦生 (著)
出版社: 講談社 (2019/8/31)、出典:出版社HP

目次

第1章 リテラシーとしてのデータサイエンス

1.1 データサイエンスの目的と必要性
1.1.1 データサイエンス
1.1.2 フィッシャーによる三原則
1.1.3 統計, データサイエンスの歴史的推移
1.1.4 ランダムネスの懐柔と活用

1.2 リテラシーとデータの見方
1.2.1 第2回メディアに関する全国世論調査
1.2.2 自動車事故死,飛行機事故死

1.3 確率的現象と決定論的現象
1.3.1 市町村人口の先頭桁の数字例
1.3.2 フィボナッチ数列の先頭桁の数字

第2章 確率

2.1 確率の定義と役割
2.1.1 確率のさまざまな定義
2.1.2 ベン図

2.2 確率の公理的定義
2.2.1 ベンフォードの法則

2.3 条件付き確率とベイズの定理
2.3.1 条件付き確率
2.3.2 ベイズの定理

第3章 データからの情報抽出

3.1 度数分布表とヒストグラム

3.2 統計グラフの活用

3.3 データの特性値(代表値,ばらつき)
3.3.1 データの代表値
3.3.2 データのばらつき

3.4 標準化と標準得点

3.5 散布図,共分散

3.6 相関係数と回帰直線
3.6.1 マーコヴィッツのポートフォリオ理論

3.7 回帰直線
3.7.1 ガウスの最小二乗法
3.7.2 アンスコムの回帰直線
3.7.3 OECD データの再考

第4章 確率的な現象の扱い

4.1 確率的な現象と確率変数(離散型・連続型)

4.2 確率変数の期待値(平均)と分散

4.3 確率分布
4.3.1 ベルヌーイ分布
4.3.2 二項分布
4.3.3 ポアソン分布
4.3.4 連続一様分布
4.3.5 正規分布
4.3.6 指数分布

4.4 同時分布と周辺分布、独立性
4.4.1 離散型確率分布の同時確率
4.4.2 同時確率分布と共分散、相関係数

4.5 2次元正規分布

4.6 大数の法則,中心極限定理
4.6.1 大数の法則
4.6.2 中心極限定理
4.6.3 視聴率調査における誤差

第5章 統計的な話題

5.1 シンプソンのパラドックス

5.2 無作為化回答法

狩野 裕 (編集), 〓田 悦生 (著)
出版社: 講談社 (2019/8/31)、出典:出版社HP