東京大学のデータサイエンティスト育成講座 ~Pythonで手を動かして学ぶデ―タ分析~

データサイエンスの羅針盤

本書では、データサイエンスに必須なスキルを幅広く扱っております。各分野で深入りはせず、初歩的なな事項を取り扱っています。最低限の知識を学び、今後の方向性などにも応用できる位置付けで活用できます。

Contents

Chapter1 本書の概要とPythonの基礎
Chapter2 科学計算、データ加工、グラフ、描画ライブラリの使い方の基礎
Chapter3 記述統計と単回帰分析
Chapter4 確率と統計の基礎
Chapter5 Pythonによる科学計算(NumpyとScipy)
Chapter6 Pandasを使ったデータ加工処理
Chapter7 Matplotlibを使ったデータ可視化
Chapter8 機械学習の基礎(教師あり学習)
Chapter9 機械学習の基礎(教師なし学習)
Chapter10 モデルの検証方法とチューニング方法
Chapter11 総合演習問題

 

塚本邦尊 (著), 山田典一 (著), 大澤文孝 (著), 中山浩太郎 (監修), 松尾 豊[協力] (その他)
出版社: マイナビ出版 (2019/3/14)、出典:出版社HP

はじめに

本出版にあたって
この本は、2017年と2018年に東京大学で実施された、「グローバル消費インテリジェンス寄付講座」の学生向けオフライン講義と、社会人向けオンライン講座で使われた教材がベースになっています。この2年間で学生、社会人の方から、のべ1800人以上の応募があり、約400名ほどの受講生の方たちが受けてきた講義です。学生は大学1年生から博士課程の学生まで理系文系問わず、また社会人の方たちもさまざまな業界の方々が受講されています。

この本はタイトルにあるように、データサイエンティストになるための基礎講座になります。昨今、さまざまなデータサイエンス関係の本(データ分析、機械学習、ディープラーニング、人工知能etc)が出ています。このコンテンツを初期に作成した数年前は、データサイエンス関係の書籍はそれほど多くなかったのですが、あの当時と比べて良質なデータサイエンスや機械学習の本も出版されています。こんな状況の中で、この講座を実施する意味や、それを本にして出版する意味はあるのでしょうか。この本のタイトルや目次をみて、「またデータサイエンスの本か」とか「今更データサイエンスの本を出版するのか」と思われている方もいらっしゃるかもしれませんし、私も執筆途中で少し思いました。

この本の特徴に、実際のデータを使って手を動かしながら、データサイエンスのスキルを身に付けることができるという点があげられます。さらに、可能な限りデータ分析をする現場で使える実践的な内容(データ前処理など)も含めています。単なる理論の説明やコーディングの説明だけにとどまらないコンテンツも扱っています。さらに、練習問題や総合同題演習など頭を使って考える内容もたくさんあり、これも他の本にはあまりない特徴です。この本に書いてあることを実践し、読み終えた後には、実際の現場でデータ分析ができるはずです。

なお、東京大学で実施している講義ではインターネットからログインするだけで使えるシステムCiLect)を使っていますが、この本では、ローカル環境を準備するための方法をAppendixに記載しましたので、参考にしてください。また、この本のペースとなるコンテンツはJupyter Notebook形式で、既に東京大学の松尾研究室より無料で公開(https://weblab.t.u-tokyo.ac.jp/gci_contents/)されており、それをダウンロードすれば、コンテンツを入手することもできます。さらに、最近はGoogleからGoogle ColaboratoryというクラウドベースのJupyter環境も無料で提供されており、これと上記の公開コンテンツを使ってデータサイエンスを手を動かしながら学ぶことも可能です。ですので、この情報を知った方は、インターネットにアクセスすることさえできれば、無料でデータサイエンスを学ぶことができるため、このコンテンツを本にする理由はあまりないように思えます。

この講座のコンテンツを本にした理由は、3つあります。1つ目がWebだけではないもっと幅広い層に、データサイエンスの実態を知ってもらい、そのスキルを身につけてほしいと思ったからです。昨今、データ分析ができる人が求められているにも関わらず、そのような人材が不足しているのが現状です。もちろん、誰もがデータ分析できる必要はないですが、データ分析には何が最低限必要で、どのようなアプローチがあるのか、どんなことができるのかということを知っておくだけでも、色々な業務の改善につなげられる可能性はあります。少なくともデータサイエンティストの仕事の大変さ(?)も理解できて、なんでもデータサイエンスやAIで解決できるなんてことは思わなくなるでしょう。

また、データ分析の専門家や分析部門等に依頼しないまでも、データの簡単な集計や可視化等がさくっとPythonを使ってできるようになれば、自分の業務の効率性も上げることもできますし、自分の仮説をデータ分析で確かめたり、今まで手作業で苦労していたタスクを自動化できるのは、楽しいことだと思います。ぜひ、この本を手に取った方はこの本を使い倒して、データ分析の基礎スキルを理解し、身に付けてください。

2つ目が、オンラインではいつでも勉強できるわけではなく、電車の中や待ち時間にさっと内容に目を通したいこともあり、そういった場合に書籍は便利です。いくらパソコンや携帯電話が使える時代とはいえ、無人島ではWiFiもなければ電源もありません。そんな場所にこの本を持っていくことはないかもしれませんが、いつでも学べるのが本の良いところです。

3つ目が、情報を取得できるスピードは本の方が圧倒的に速く、やはり学習効果が高いです。私も月に何冊も本を買っていますが、実際に本で勉強した方が学習効果は高いと感じています。色々と思いついたことを書き込みしたり、さらっと全体を見直したりするときには、本の方が便利です。本の中で深く考えるポイントがある場合は、ぜひ書き込んでいってください。学んだことを身に付けるためには、受け身ではなく、そのように主体的に学ぶ、疑問に思う、深く考えることが大事です。もちろん、本で全てを学べるわけではないので、環境を用意して手を動かして学びながら、適材適所でこの本を使ってください。

また、この本は、オンラインで公開されている教材とは異なり、デザインや配置などが綺麗で、ポイントがまとまっており、わかりやすい形になっています。これはマイナビ出版の伊佐様をはじめ、各関係者の方達に編集していただいたおかげです。とても感謝しております。

塚本邦尊 (著), 山田典一 (著), 大澤文孝 (著), 中山浩太郎 (監修), 松尾 豊[協力] (その他)
出版社: マイナビ出版 (2019/3/14)、出典:出版社HP

この本について

この本では、データサイエンスに必須なスキルを幅広く扱っています。そのため、各分野で深入りはせず、最低限必要な基礎的な事項を取り扱っています。この分野を1回で学ぶことは無理ですが、最低限の方向性だけは示すことはできるため、この本はそういう位置付けでとらえてください。データサイエンティストになるための地図と羅針盤のような役割を果たせるように、本書には重要キーワードや次に読むべき参考文献などを盛りだくさんに載せていますので、それらとあわせて活用してください。
この本は主にPythonというプログラミング言語を使って、基本的なプログラムの書き方、データの取得、読み込み、そのデータ操作からはじまり、さまざまなPythonのライブラリの使い方、確率統計の手法、機械学習(教師あり学習、教師なし学習とチューニング)の使い方、そしてPythonを高速化するための方法やSparkの簡単な操作などこれらはダウンロード付録になります)についても学びます。取り扱っているデータは、マーケティングに関するデータやログデータ、金融時系列データなどさまざまで、モデリングの前にそれらを加工する手法も紹介しています。データサイエンティストになるには、どれも必要なスキルです。

Pythonや確率・統計、機械学習、最適化など各専門書1冊1冊には到底かないませんが、データサイエンスをビジネスに活かすには、幅広く武器を知っておくこと、基本的な使い方を身に付けていることが重要です。基本的な考え方や知識が身についていれば、未知の問題等があっても、あとは調べながら学ぶことはできますので、この本ではそのマインドや姿勢を育てることも目標にしています。

また本書では、現場のデータを実際にどのように加工して分析すればよいか、それを具体的にどのようにマーケティングや金融などに使えるのか、どの手法を使ってどうコーディングしていけばいいのか、それらの合わせ技や流れも記載しています。理論的な話だけではなく、実務的な使い方も紹介しているため、すぐに現場で試すこともできます。一般的なマーケティングの本はマーケティング手法が中心でその実装手法がなく、一方機械学習の本は理論や実装はありますがマーケティング手法など実務的な使い方が載っていないなど、専門に特化しているものがほとんどです。この本ではデータサイエンスに不可欠なスキルを全体的にして、しかも実装をすぐに試すことができます。ここで、実務的なデータ分析をするための実装イメージをもつことができるでしょう。

もちろん、数式の計算や定理の証明など理論的な本が不要といっているわけではなく、むしろ時間がある大学生や研究者として第一線で活躍されたい方はしっかりと学んでください。この本だけでは理論的な知識は足りないので、必要になったら各専門書や参考文献等を一緒に使って、学んでいくと良いでしょう。ちなみに私が学生の頃、データサイエンスという言葉はそれほど流行っていませんでしたが、幸い微分積分学と線形代数、集合位相論(他、確率統計多変量解析、最適化計算や情報理論など)はしっかりと学んだので、この分野に比較的スムーズに入れたのかもしれません。

また、冒頭でも述べたように、実装の練習問題があるのも、他の本にはあまりない特徴です。人は実際に課題を前にして考え、手を動かさないと、そのスキルは身に付きません。ぜひこの教材を通して、いろいろな武器があることを知り、手を動かしながら実践してください。この本では、良書と言われ、評判が良い参考文献を多数紹介しています。この本書読了後、それらを使って、考えながら手を動かして実践して、ウェブの情報や参考図書等使いながら、さらにレベルアップしてください。

この本の対象読者

この本は、プログラミングの経験があり、理系の大学1~2年生程度の教養課程の数学(線形代数、微分積分学、確率統計の基礎など)を終えている方を対象にしています。具体的には、勉強熱心な大学3~4年生の理系の学生さんや大学院生の方、また社会人になってデータサイエンスを学ぼうという意欲の高い方たちが対象です。データサイエンスの入門レベルから中級レベルの手前までを考えている人に最適で、本書のゴールもデータサイエンス入門レベルを卒業できることを想定しています。

すでに実務でPythonと機械学習を頻繁に使っている方には、簡単すぎる内容だと思いますので、そのような中級者以上の方を対象にはしていませんが、一通りデータ分析に必要な知識は復習できます。あと、最近注目されている深層学習はこの本書では詳しく取り扱っていませんが、深層学習を学ぶ前の基礎スキルは本書で学べます(特典のダウンロード付録)。深層学習の基礎を学ぼうとしたけど、コードの意味等がわからず挫折したという方も、この本でその手前のスキルを身につけることができます。もし深層学習を本格的に学びたい方がいれば、昨今は色々な本が出版されており、また色々なところで深層学習の講座をやっていますので、それらを受講等してください。
プログラミング未経験の方や、線形代数や微分積分学などを全くやっていない方は、この教材だけで理解するのは大変かもしれませんので、参考文献を一緒に使えば、時間はかかりますが、読み進めることはできると思います。実際、この講義では大学1、2年生や、社会人で文系の方でも修了した方もいらっしゃいます。

この本の目的

「データサイエンス」については画一的な定義はなく、色々な意見があると思います。ただ、その言葉にもあるように、「科学」という分野は少なからず関わってきます。科学とは、世の中の混沌とする現象から本質を見つけ出して、さまざまな課題を解決していくことです。日々膨大に増えていくさまざまなデータの中から、科学の力を使って、色々な問題を解決していくのがデータサイエンスだと考えます。サイエンスのアプローチがもともとそうだったかもしれませんが、近年多種多様なデータが取得でき、大量かつ高速に計算ができる時代になり、またIoT(Internet of Things)などが注目される中、データ分析の重要性はなくなるどころか、必須のものになってきています。

私としては、このデータサイエンスを活用して、世の中を少しでもよくしていけると信じ、この分野で働いています。世の中は多種多様でさまざまな問題があります。非効率的な仕事や処理、無駄もあることもご承知の通りです。人工知能等が注目される一方で、いろいろな誤解や過剰な期待をされていることもあります。この本を手にとってくださっている方たちには、このような状況でも現実的になって、データサイエンスや人工知能等を使って何ができて何ができないのか、ぜひ見極めてください。

データサイエンスは、数学(統計、確率、機械学習など)だけではなく、ITの力やいろんなカを借りて、世の中の難問や隠れた課題に挑戦していく総合的な分野だと思っています。もちろん、この力は絶対的でもなく、何でも解決できるわけではなく、突然ミラクルが起こるわけではありません。むしろ、どうしようもできない状況で、泥臭く要件を確認し、課題を見つけることからはじまったり、データをコツコツ見て整形していくことが多いかもしれません。実際、筆者が現場で分析していて、そういった場面に遭遇することは往々にしてあります。しかし、それぞれのビジネス目的に応じてデータ分析をすることで、少しずつ改善できる場面もありますし、新しい発見もあったりします。データサイエンスや人工知能は、人の仕事を全て奪うものではなく、この世界をよりよくするための1つのツールです。

この読者の方たち、受講生の方たちの中から、このデータサイエンスの力を活かして、今の世の中の無駄や非効率を少しでもなくし、さらに新しい価値を割り出して、この世界を良くしていく人が増えていってくれたら、著者としては本望です。もちろん、私もその一員として日々努力闘中です。

謝辞

本教材開発は、たくさんの教材とたくさんの人によって支えられています。参考にした教材やサイトについては、参考文献として紹介させていただきました。数学やコンピューターサイエンス、マーケティング分析、さまざまな分野で専門家の方たちが研究してきた分野を、私は借りているだけです。巨人の肩に乗っていなければ、このように教材を開発することはできませんでした。

そして、本教材開発について、このような機会をくださった東京大学の松尾研究室の方たちに感謝いたします。この方たちのサポートとアドバイスやフィードバック等がなければ、このようなコンテンツを作成することはできませんでした。また私自身もこの教材開発をしていく過程で、勉強する部分が多く、このような機会を与えてくださり、感謝しております。本当にありがとうございました。

まず本講義や教材作成について、全体的な統括をしていただいている松尾研究室の中山浩太郎先生や、初期のコンテンツ開発をサポートコーディネートしてくださった橋さんには、大変感謝いたします。そして、本書の共著として入っていただいた、データサイエンティストの山田典一さんとPythonエキスパートの大澤文寿さんには大変感謝いたします。お二方のお力がなければ、出版に至らなかったと思います。

また、コンテンツに関しては、全体的なレビューをグスタボベゼーラさんと味噌野雅史さんにしていただきました。残念ながらこのお二方のレビューによる指摘すべてを完璧には反映できませんでしたが、この二人のおかげでよりよいコンテンツができたと思います(なお、紙面の都合上、講義で扱っていたデータベースの章は割愛させていただきましたが、この二人のおかげでSQLのカーネルやNoSQL等のコンテンツが作成されました。興味のある方は、上記で記載した無料公開のコンテンツに含まれておりますので、ご参照ください)。

その他にも、全体的なレビューを宮崎邦洋さん、田村浩一郎さん、三浦笑さん、相口一登さんにしていただきました。特に、宮崎さんと三浦さんは大学の講義、社会人の講座の運営のため、毎週のMTGとサポートなどしていただき、感謝しております。さらに講義で使ったiLectの環境についてはマイケルさん、アルフレッドさんに準備等いただきました。

教材のレビューアーをしていただいた方たちにも感謝致します。大学時代からお世話になっている石橋佳久さん、今村悠里さん、以前の職場でお世話になった高田有希さん、中村健太さん、山田典一さん、宮澤光康さん、乾仁さん、川田佳寿さんにもコンテンツを見て修正や追加等していただきました。特に、統計検定1級保持者の石橋さんは確率統計の箇所を修正追加してくださり、他にも全体的に問題のある箇所について指摘していただきました。山田さんや高田さんには機械学習の章について指摘をいただき、大変助かりました。さまざまな面でサポートしてくださった皆様、感謝しております。

さらに、冒頭に述べたように、本教材は東京大学の講義でも使われており、受講生の大学生、大学院生や本講義優秀者のTAの方たち(檜ロー登さん、岡本弘野さん、久保静真さん、橋立佳央理さん、意喬仁さん、田優さん、合田拓矢さん、一丸友美さん)からもフィードバックをいただきました。さらに、社会人向けに第1回、第2回オンライン講座に参加してくださった皆さんのフィードバックもとても参考になりました。

また、本業があるにも関わらず、この講義の講師や本の執筆活動や兼業等を許可し、応援していただいている本職関係者の方たちにも感謝いたします。
そして、この本を出版することができ、マイナビ出版の伊佐知子様、角竹垣紀様をはじめ関係者の方にも大変感謝しております。さまざまなフィードバックや教材の編集等、体裁などとてもグレードアップしていただき、感謝しております。

みなさん、お忙しい中、本当にありがとうございました。なお、本教材における誤植等は全て筆者(塚本)による責任であり、もしそのような間違い、お気付きの点や改善点等あれば、ぜひご連絡いただけると幸いです。今後この教材もブラッシュアップしていければ(もしくは、さらなるエキスパートの方に改善していただければ)いいなと思います。

2019年1月、塚本邦尊、アドレス:kunitaka0605@gmail.com

著者について

■塚本邦尊
現職は某金融機関の研究開発部門にて、分析環境構築からデータ前処理自動化、分析、アルゴリズム開発と実装、取引実弾とその検証、定型レポーティング作成などを担当。ナノ秒(10億分の1秒単位)の世界でニューヨークやロンドンの猛者たちと日々戦っています(?)が、HFT(高速取引)自体は世の中の役に立っているかどうか私にはまだわかっていませんので、この最先端技術をIoTやら何か他領域でも役立てようと目論んでいます。その他、個人事業として本講義の講師やさまざまな企業(メーカー、システム会社、広告代理店など)の分析サポートやアドバイスを実施したり、某コンビューター系の研究所の技術フェローを兼務。学生時代の専攻は数学で、今まで携わってきた業界は、システム会社、広告代理店、マーケティング、コンサルティング企業等。取り扱ってきた開発ツールはVisual Studio、R Studio、Jupyter Notebookなどで、C#やSQL、VBA、RやPython、シェル、SASなどを使ってきました。最近はFPGAがらみのプロジェクトに関わることが多く、ハードウェア面(FPGA、Verilog、Vivadoなど)やネットワーク面(Wire Sharkなど)からも少しずつ学び、AWSなどクラウド環境も日々扱っています。最近時間があるときは、ラズベリーパイを使ってロボティクスについて学んだり、色々な本を読んでいます。

■山田典一
株式会社クリエイティブ・インテリジェンス代表取締役。ヤフージャパン、ブレインパッド、GREE、外資系メディアエージェンシーなどで、データマイニング・機械学習を活用した高度アナリティクス業務に従事。情報の価値の観点から、インテリジェンスマネジメントの在り方、インテリジェンスプロセスと機械学習との融合可能性を考察し、日本コンペティティブ・インテリジェンス学会より最優秀論文賞を受賞(2015年)。現在は、機械学習・ディシジョン科学・シミュレーション科学を活用した、より複雑で高度なディシジョン支援に向けた技術の研究開発、機械学習の導入コンサルティング、データ活用アドバイザリーを行っています。

■大澤文孝
テクニカルライター。プログラマー。情報処理技術者(「情報セキュリティスペシャリスト」「ネットワークスペシャリスト」)。雑誌や書籍などで開発者向けの記事を中心に執筆。主にサーバやネットワーク、Webプログラミング、セキュリティの記事を担当しています。近年は、Webシステムの設計・開発に従事。主な著書に、『ちゃんと使える力を身につけるWebとプログラミングのきほんのきほん」「ちゃんと使える力を身につけるJavaScriptのきほんのきほん』(マイナビ出版)、『いちばんやさしいPython入門教室」「Angular Webアプリ開発スタートブック」(ソーテック社)、『AWSLambda実践ガイド」「できるキッズ子どもと学ぶJavaScriptプログラミング入門」(インプレス)、『Amazon Web Services完全ソリューションガイド」「Amazon Web Servicesクラウドデザインパターン実装ガイド」(日経BP)、「U」まで手の回らないプログラマのためのBootstrap3実用ガイド」「prototypejsとscriptaculousによるリッチWebアプリケーション開発」(翔泳社)、『TWE-Liteではじめるセンサー電子工作」『TWE・Liteではじめるカンタン電子工作」「Amazon Web ServicesではじめるWebサーバ」『Python10行ブログラミング」『「sakuraio」ではじめるIoT電子工作(工学社)、『たのしいプログラミング!:マイクラキッズのための超入門」(学研プラス)などがあります。

監修者、協力者について
■中山浩太郎2000年10月(株)関西総合情報研究所代表取締役社長就任2002年4月同志社女子大学非常勤講師就任2007年3月大阪大学大学院情報科学研究科博士号取得2007年4月大阪大学大学院情報科学研究科特任研究員就任2008年4月東京大学知の構造化センター特任助教就任2012年4月東京大学知の構造化センター特任講師就任2014年12月東京大学工学系研究科技術経営戦略学専攻特任講師就任

■松尾豊
1997年東京大学工学部電子情報工学科卒業2002年同大学院博士課程修了。博士(工学)。同年より、産業技術総合研究所研究員2005年10月よりスタンフォード大学客員研究員2007年10月より、東京大学大学院工学系研究科総合研究機構/知の構造化センター/技術経営戦略学専攻准教授2014年より、東京大学大学院工学系研究科技術経営戦略学専攻グルーバル消費インテリジェンス奇付講座共同代表・特任准教授。2002年人工知能学会論文賞、2007年情報処理学会長尾真記念特別賞受賞。2012年~14年、人工知能学会編集委員長を経て、現在は倫理委員長。専門は、人工知能、Webマイニング、ビッグデータ分析、ディープラーニング。

塚本邦尊 (著), 山田典一 (著), 大澤文孝 (著), 中山浩太郎 (監修), 松尾 豊[協力] (その他)
出版社: マイナビ出版 (2019/3/14)、出典:出版社HP

Contents

はじめに
Chapter1本書の概要とPythonの基礎
1-1データサイエンティストの仕事
1-1-1データサイエンティストの仕事
1-1-2データ分析のプロセス
1-1-3本書の構成
1-1-4本書を読み進めるのに役立つ文献
1-1-5手を動かして習得しようPythonの基礎
1-2-1JupyterNotebookの使い方
1-2-2Pythonの基礎
1-2-3リストと辞書型
1-2-4条件分岐とループColumn format記法とん記法
1-2-5関数
Practice練習問題1-1
練習問題1-2
1-2-6クラスとインスタンス
Practice1章総合問題

Chapter2科学計算、データ加工、グラフ描画ライブラリの使い方の基礎
2-1データ分析で使うライブラリー
2-1-1ライブラリの読み込み
2-1-2マジックコマンド、
2-1-3この章で使うライブラリのインポート
2-2Numpyの基礎
2-2-1Numpyのインポート
2-2-2配列操作
2-2-3乱数
Column Numpyは高速
2-2-4行列
Practice練習問題2-1
練習問題2-2
練習問題2-3
2-3Scipyの基礎
2-3-1Scipyのライブラリのインポート
2-3-2行列計算
2-3-3ニュートン法10000
Practice練習問題2-4
練習問題2-5
練習問題2-6
2-4Pandasの基礎
2-4-1Pandasのライブラリのインポート
2-4-2Seriesの使い方
2-4-3DataFrameの使い方
2-4-4行列操作
2-4-5データの抽出
2-4-6データの削除と結合
2-4-7集計
2-4-8のソート
2-4-9nan(null)の判定
Practice練習問題2-7
練習問題2-B
練習問題2-9
2-5Matplotlibの基礎
2-5-1Matplotlibを使うための準備
2-5-2散布図
2-5-3
グラフの分割
2-5-4関数グラフの描画
2-5-5 ヒストグラム
Column さまざまなデータのビジュアル化
Practice 練習問題2-10
練習問題2-11-10
練習問題 2-12
Practice 2章 総合問題

Chapter 3 記述統計と単回帰分析
3-1 統計解析の種類・
3-3-1 記述統計と推論統計
3-3-2 この章で使うライブラリのインポート
3-2 データの読み込みと対話
3-2-1インターネットなどで配布されている対象データの読み込み
3-2-2 データの読み込みと確認
3-2-3 データの性質を確認する”
Column 「変数」という用語について
3-2-4 量的データと質的データ
3-3記述統計
3-3-1 ヒストグラム10
3-3-2平均、中央値、最頻値
3-3-3分散と標準偏差
3-3- 4要約統計量とパーセンタイル値
3-3-5箱ひげ図
3-3- 6変動係数
3-3- 7散布図と相関係数
3-3-8 すべての変数のヒストグラムや散布図を描く
Practice 練習問題3-1
練習問題 3-2
練習問題3-3
3-4単回帰分析
3-4-1線形単回帰分析
3-4-2決定係数
Practice 練習問題3-4 –
練習問題3-5
練習問題3-6
Practice 3章総合問題

Chapter 4 確率と統計の基礎
4-1 確率と統計を学ぶ準備・
4-1-1 この章の前提知識
4-1-2 この章で使うライブラリのインポート
4-2確率
4-2- 1数学的確率
4-2-2統計的確率
4-2- 3条件付き確率と乗法定理
4-2-4 独立と従属
4-2-5ベイズの定理
Practice 練習問題4-1
練習問題4-2
練習問題4-3
4-3確率変数と確率分布
4-3-1 確率変数、確率関数、分布関数、期待値
4-3-2 さまざまな分布関数
4-3-3カーネル密度関数
Practice 練習問題4-4
練習問題4-5
練習問題4-6
4-4 応用:多次元確率分布
4-4-1 同時確率関数と周辺確率関数

Practice 練習問題 5-1
練習問題5-2
練習問題5-3
5-2-2Numpyの演算処理
Practice 練習問題 5-4
練習問題5-5
練習問題 5-6
5-2- 3配列操作とブロードキャスト –
Practice 練習問題 5-7
練習問題5-8
練習問題5-9-1
5-3 Scipyを使った計算の応用
5-3-1 補間
5-3-2 線形代数:行列の分解
Practice 練習問題5-10・
練習問題5-11
練習問題 5-12
練習問題5-13
練習問題5-14
5-3- 3積分と微分方程式
Practice 練習問題5-15・
練習問題 5-16
5-3-4 最適化
Practice 練習問題 5-17
練習問題 5-18
Practice 5章総合問題

Chapter 6 Pandasを使ったデータ加工処理
6-1 概要と事前準備
6-1-1 この章で使うライブラリのインポート
6-2 Pandasの基本的なデータ操作
6-2-1 階層型インデックス
Practice 練習問題6-1
練習問題6-2
練習問題6-3
6-2-2データの結合
Practice 練習問題6-4
練習問題6-5
練習問題6-6
6-2-3 データの操作と変換
Practice 練習問題6-7
練習問題6-8
練習問題6-9
6-2-4データの集約とグループ演算
Practice練習問題6-10
練習問題6-11
練習問題6-12
6-3欠損データと異常値の取り扱いの基礎
6-3-1欠損データの扱い方
Practice 練習問題6-13
練習問題6-14
練習問題6-15
6-4時系列データの取り扱いの基礎
6-3-2 異常データの扱い方
6-4-1 時系列データの処理と変換
Practice 練習問題6-16
6-4-2移動平均
Practice 練習問題6-17
Practice6章総合問題

塚本邦尊 (著), 山田典一 (著), 大澤文孝 (著), 中山浩太郎 (監修), 松尾 豊[協力] (その他)
出版社: マイナビ出版 (2019/3/14)、出典:出版社HP

Chapter 7 Matplotlibを使ったデータ可視化
7-1データの可視化
7-1- 1データの可視化について
7-1-2 この章で使うライブラリのインポート
7-2データ可視化の基礎
7-2-1 棒グラフ
7-2-2 円グラフ
Practice 練習問題7-1
練習問題7-2
練習問題7-3
7-3応用:金融データの可視化
7-3-1 可視化する金融データ
7-3-2 ローソクチャートを表示するライブラリ
7-4応用:分析結果の見せ方を考えよう
7-4-1 資料作成のポイントについて
Practice 7章 総合問題
Column 移動平均時系列データと対数時系列データ

Chapter 8 機械学習の基礎(教師あり学習) –
8-1機械学習の全体像
8-1-1機械学習とは・
8-1-2教師あり学習・・・
8-1-3 教師なし学習
8-1-4 強化学習
8-1-5 この章で使うライブラリのインボート
8-2重回帰
8-2-1 自動車価格データの取り込み
8-2-2データの整理
8-2- 3モデル構築と評価
8-2-4モデル構築とモデル評価の流れのまとめ・・
8-3ロジスティック回帰
Practice 練習問題8-1 –
8-3-1 ロジスティック回帰の例
8-3-2データの整理・
8-3-3モデル構築と評価
8-3-4スケーリングによる予測精度の向上
Practice 練習問題8-2
練習問題8-3
8-4正則化項のある回帰:ラッソ回帰、リッジ回帰
8-4-1ラッソ回帰、リッジ回帰の特徴
8-4-2重回帰とリッジ回帰の比較
Practice 練習問題8-4
8-5決定木
8-5-1キノコデータセット
8-5-2データの整理・・・・・・
8-5-3エントロピー:不純度の指標
8-5-4 情報利得:分岐条件の有益さを測る
8-5-5決定木のモデル構築
Practice 練習問題8-5
8-6k-NN(k近傍法)
8-6-1k-NNのモデル構築
Practice 練習問題8-6
練習問題8-7
8-7サポートベクターマシン・
8-7-1 サポートベクターマシンのモデル構築
Practice 練習問題8-8
Practice 8章総合問題

Chapter 9 機械学習の基礎(教師なし学習)
9-1 教師なし学習
9-1-1 教師なしモデルの種類
9-1-2 この章で使うライブラリのインポート
9-2クラスタリング、
9-2-1k-means法
9-2-2k-means法でクラスタリングする
9-2-3金融マーケティングデータをクラスタリングする
9-2-4エルボー法によるクラスター数の推定
9-2-5クラスタリング結果の解釈
9-2-6 k-means法以外の手法
Practice 練習問題 9-11
9-3主成分分析
9-3-1 主成分分析を試す
9-3-2 主成分分析の実例
Practice 練習問題9-2
9-4マーケットバスケット分析とアソシエーションルール
9-4-1マーケットバスケット分析とは
9-4-2 マーケットバスケット分析のためのサンプルデータを読み込む
9-4-3 アソシエーションルール
Practice 9章 総合問題

Chapter 10 モデルの検証方法とチューニング方法
10-1モデルの評価と精度を上げる方法とは
10-1-1 機械学習の課題とアプローチ
10-1-2 この章で使うライブラリのインポート
10-2 モデルの評価とパフォーマンスチューニング
10-2-1 ホールドアウト法と交差検証法
Practice 練習問題10-1
10-2-2 パフォーマンスチューニング:ハイパーパラメータチューニング
Practice 練習問題10-2
10-2-3 パフォーマンスチューニング:特徴量の扱い
10-2-4 モデルの種類
10-3モデルの評価指標
10-3-1 分類モデルの評価:混同行列と関連指標
Practice 練習問題10-3
10-3-2 分類モデルの評価:ROC曲線とAUC
Practice 練習問題10-4
10-3-3回帰モデルの評価指標
10-4アンサンブル学習
10-4-1 パギング
Practice 練習問題10-5
10-4-2ブースティング
Practice 練習問題 10-6
10-4-3 ランダムフォレスト、勾配ブースティング
10-4-4今後の学習に向けて
Practice 練習問題10-7
Practice 10章総合問題

Chapter 11 総合演習問題
11-1慧合演習問題
11-1-1 総合演習問題 (1)
11-1-2 総合演習問題 (2)
11-1-3 総合演習問題 (3)
11-1-4 総合演習問題 (4)
11-1-5 総合演習問題 (5)
11-1-6 総合演習問題 (6)
11-1-7 参考:今後のデータ分析に向けて

Appendix
A-1 本書の環境構築について
A-1-1 Anacondaについて
A-1-2 Anacondaのパッケージをダウンロードする
A-1-3 Anacondaをインストールする。
A-1-4 pandas-datareaderおよびPlotlyのインストール
A-2 練習問題解答
A-2-1 Chapter1 練習問題
A-2-2 Chapter2 練習問題
A-2-3 Chapter3 練習問題
A-2-4 Chapter4 練習問題
A-2-5 Chapter5 練習問題
A-2-6 Chapterb 練習問題
A-2-7 Chapter7 練習問題
A-2-8 Chapter8 練習問題
A-2-9 Chapter9 練習問題
A-2-10Chapter10 練習問題
A-2-11 Chapter11 総合演習問題
Column ダミー変数と多重共線性
A-3参考文献・参考URL
A-3-1 参考文献
A–3-2 参考URL
おわりに
Index

塚本邦尊 (著), 山田典一 (著), 大澤文孝 (著), 中山浩太郎 (監修), 松尾 豊[協力] (その他)
出版社: マイナビ出版 (2019/3/14)、出典:出版社HP

本書のサポートサイト

本書で使用されているサンプルファイルや特典ダウンロード付録を掲載しております。訂正・補足情報についてもここに掲載していきます。

●サンプルファイルのダウンロードにはインターネット環境が必要です。
●サンプルファイルはすべてお客様自身の責任においてご利用ください。サンプルファイルおよび動画を使用した結果で発生したいかなる損害や損失、その他いかなる事態についても、弊社および著作権者は一切その責任を負いません。
●サンプルファイルに含まれるデータやプログラム、ファイルはすべて著作物であり、著作権はそれぞれの著作者にあります。
本書籍購入者が学習用として個人で開覧する以外の使用は認められませんので、ご注意ください。営利目的・個人使用にかかわらず、データの複製や再配布を禁じます。
●本書に掲載されているサンプルはあくまで本書学習用として作成されたもので、実際に使用することは想定しておりません。ご了承ください。
ご注意
●本書での説明は、Anaconda3とJupyter Notebookで行っています。
●WebブラウザはChromeを使用しています。環境が異なると表示が異なったり、動作しない場合がありますのでご注意ください。
●本書での学習にはインターネット環境が必要です。
●本書の誤字脱字などについては、ご指摘・ご連絡ください(https://book.mynavi.jp/inquiry/)
●本教材の動作については、環境によってはすべて実行できないこともあります。あらかじめご了承ください。
●本書に登場するソフトウェアやURLの情報は、2019年2月段階での情報に基づいて執筆されています。執筆以降に変更されている可能性があります。
●本書の制作にあたっては正確な記述につとめましたが、著者や出版社のいずれも、本書の内容に関して何らかの保証をするものではなく、内容に関するいかなる運用結果についても一切の責任を負いません。あらかじめご了承ください。
●本書中の会社名や商品名は、該当する各社の商標または登録商標です。本書中ではおよび®️は省略させていただいております。