【最新】データサイエンスを学べるおすすめ入門本書籍 – 数式もプログラミングも最小限

コンテンツ 表示

1冊目に取りたいデータサイエンス入門書厳選

過去数年の間で、データサイエンスに対する関心はこれまで以上に高まりました。これまでは様々な制約から限られた方の仕事、学問分野で かなり難解な分野でしたが、今ではデータの豊富さ、それを扱うことのできるプログラミングの数々、また分析対象やトピックが広範囲になったことによって、どなたでも垣間見ることができる分野になっています。 仕事として、データリテラシーはあらゆる業界で非常に望ましいスキルになりつつあり、また学生での学ぶべき専門やや一般でも教養レベルで学べるようになっています。

今回はデータへの関心が広がり、データサイエンスやデータリテラシーを高めたいという方向けでのデータサイエンス入門の書籍を扱い、初心者でもデータサイエンスの世界をナビゲートし、役立つ書籍を紹介します。

おすすめ/ランキングを確認する
出版社、出典:出版社HP

 

 

 

 

目次 – データサイエンス – ジョン・D・ケレハー (著), ブレンダン・ディアニー (著)

MIT出版の人気シリーズ

難しい数学や統計学の知識なしにデータサイエンスの中身を俯瞰するように構成されています。データ収集がどのようにされているのか、そこからの分析の仕方、そしてそれがどのように活用されるのかの一連の流れが本書では理解できます。実際にプログラミングをしながら学ぶ前に、一度バックグラウンドや知識をつけたいという方にフィットします。

 

目次

シリーズ序文
序文
謝辞
第1章:データサイエンスとは?
第2章:データとは何か? そしてデータセットとは何か?
第3章:データサイエンスのエコシステム
第4章:機械学習一入門編
第5章:標準的なデータサイエンスのタスク
第6章:プライバシーと倫理
第7章:今後の動向と成功の原則
用語集
注釈
参考文献
関連資料
索引

ジョン・D・ケレハー (著), ブレンダン・ディアニー (著), 今野紀雄(監訳) (その他), 久島聡子 (翻訳)
出版社: ニュートンプレス (2019/12/20)、出典:出版社HP

シリーズ序文

マサチューセッツ工科大学出版局エッセンシャルナレッジシリーズは、今注目を集めている話題をわかりやすく簡潔にまとめ,美しく装丁して読者にお届けします。一流の思想家を著者に迎え,本シリーズでは文化・歴史から科学技術まで,多岐にわたる分野について,専門家による意見をまとめています。

欲しい時にすぐに情報が手に入る今の時代,さまざまな意見 やそれらの正当化,そして,表面的な解説を見聞きするのは簡 単なことです。しかし,それよりはるかに難しいのは,世界を 本質的に理解する際の拠りどころとなる基礎知識の習得です。 エッセンシャル・ナレッジの書籍は,このニーズにお応えします。専門的なテーマを一般の読者にも理解できるようにまとめ, 基礎知識を通して重要な話題に関心をもたせます。コンパクトにまとまったシリーズ本を一冊一冊読み進めることで、読者は複雑な概念を理解する出発点に立つことができるでしょう。

マサチューセッツ工科大学
生物工学および情報科学教授
ブルース・ティダー

序文

データサイエンスの目的は,膨大なデータセットから得られ た情報に基づき物事の本質をとらえ,よりよい意思決定をする ことにあります。膨大なデータセットから明確ではなくても役 立つパターンを引き出すため,データサイエンスでは,方針を 立て、解決すべき課題を定義し,アルゴリズムを駆使し,デー タを処理します。データサイエンスは,データマイニングや機 械学習(ML)などの領域と密接に関連していますが,それよ りも広い範囲を網羅します。現在,データサイエンスは現代社 会のほぼすべての領域にわたり,意思決定に多大な影響を及ぼしており、人々の日常生活にもさまざまな影響を及ぼしていま す。例えば,インターネット上で表示される広告,映画や書籍 のおすすめ,知り合いの可能性がある人物の紹介,迷惑メール のフォルダに入れられる電子メール,携帯電話の契約を更新し た際に受ける優待,健康保険料,地域の交通信号が変わる順序 やタイミング,医薬品の創薬企画,町のどのエリアで警察が特 に集中的に警戒に当たるかなどが挙げられます。

データサイエンスの利用は一般社会にますます広がってお り,ビッグデータとソーシャルメディアの出現,計算能力のス ピードアップ, コンピューターメモリの価格の大幅な値下げ,ディープラーニング(深層学習)に代表される,より高性能な データ分析やモデリング手法の開発がこれを後押ししていま す。これらの要因を総合的に考慮すると,組織にとってデータ の収集,格納,処理がこれまでになく容易になったということ がわかります。同時に,前述の技術革新やより広範囲にわたる データサイエンスの応用によって,データの使用や個人のプラ イバシーに関する倫理的な課題を解決することが,いまだかつ てないほど急務となっています。本書の目的は,データサイエ ンスの原則を理解するために、基本的な要素を紹介することに あります。

第1章では,データサイエンスという分野を紹介し,どのよ うに発展し、進化してきたか,その歴史を概説します。また,デー タサイエンスが現代社会において重要である理由と,データサ イエンスの利用を促進する要因をいくつか検証します。章の終 わりでは,データサイエンスにまつわる神話を再検討し,真実に迫ります。

第2章では,データに関連する基本的な概念を紹 介します。また,データサイエンスのプロジェクトにおける標準的な段階である, ビジネスの理解,データの理解,データの 準備,モデリング,評価および展開について解説します。

第3章では、データのインフラストラクチャと,ビッグデータおよび複数のソース(情報源)から収集したデータの統合がもたらす課題に焦点を当てます。一般的なデータのインフラストラク チャについての最も困難な課題は,多くの場合,データベースやデータウェアハウスのデータが,データ分析に使用するサーバーとは別のサーバーに格納されているという点です。したがって,膨大なデータセットを処理する際,データベースまた はデータウェアハウスが格納されているサーバーと,データ分 析や機械学習に使用されるサーバー間のデータ移動に驚くほど 時間がかかることがあります。第3章の冒頭では,組織向けの 標準的なデータサイエンスのインフラストラクチャおよびデータのインフラストラクチャ内での大規模データセットの移動における課題を克服するために新たに考案された解決策を数例取 りあげます。解決策としては,データベース内機械学習の使用 Hadoop(ハドゥープ)を使用したデータ格納とデータ処理 従来型のデータベース・ソフトウェアとHadoopのようなソリューションをシームレスに統合するハイブリッド型データ ベースシステムの開発などが挙げられます。そして、組織全体のデータを機械学習に適した表現に統一する際のいくつかの課 題を取りあげて第3章を締めくくります。

第4章では,機械学習の分野を紹介し,ニューラルネットワーク, ディープラーニ ング,決定木モデルなど,最も一般的に普及している機械学習 のアルゴリズムやモデルについて解説します。

第5章では,多 岐にわたる一般的なビジネス上の問題について考察すること で,機械学習の専門性と現実社会の問題を結びつけ,機械学習 を利用したソリューションがそれらの問題をどのように解決できるかを解説します。

第6章では、データサイエンスの倫理的影響,最近のデータ規制の動向,データサイエンスのプロセス において個人のプライバシーを保護するための新たな計算処理 上のアプローチについて考察します。

最終章の第7章では,近い将来,データサイエンスが多大な影響が及ぼすと予測される いくつかの分野を取りあげ,データサイエンスのプロジェクトの成功を左右する重要な原則を詳述します。

謝辞

初期の草稿を読み,意見をくださったポール・マッケルロイ 氏とブライアン・リーヒ氏に感謝します。また,原稿について 詳細で有益なご意見をくださった匿名のレビュアーの方々,な らびに、マサチューセッツ工科大学出版局社員の皆様の支援と 指導に感謝します。
ジョンは、本書の執筆中に温かくサポートし,はげましてく れた家族と友人に感謝し、その愛情と友情をたたえた父ジョン・ バーナード・ケレハーに本書をささげます。

ブレンダンは,(4冊目にあたる)別の本の執筆,本業との 両立,旅行中と、常に支えてくれたグレース,ダニエル,エレ ノアに感謝します。

ジョン・D・ケレハー (著), ブレンダン・ディアニー (著), 今野紀雄(監訳) (その他), 久島聡子 (翻訳)
出版社: ニュートンプレス (2019/12/20)、出典:出版社HP

 

目次 – データサイエンスの基礎 (データサイエンス入門シリーズ)

ベースとなる知識を

データサイエンスの基礎が一からしっかりと学べる1冊になっています。参考書というより技術書よりで内容が少し難しいところがありますが、読み進めていくうちに理解することができるので、全体を見ながら学習することをおすすめします。

狩野 裕 (編集), 〓田 悦生 (著)
出版社: 講談社 (2019/8/31)、出典:出版社HP

刊行によせて

人類発展の歴史は一様ではない、長い人類の営みの中で、あるとき急激な変化が始まり、やがてそれまでは想像できなかったような新しい世界が拓ける。我々は今まさにそのような歴史の転換期に直面している。言うまでもなく、この転換の原動力は情報通信技術および計測技術の飛躍的発展と高機能センサーのコモディティ化によって出現したビッグデータである。自動運転、画像認識、医療診断、コンピュータゲームなどデータの活用が社会常識を大きく変えつつある例は枚挙に暇がない。データから知識を獲得する方法としての統計学、データサイエンスやAIは生命が長い進化の過程で獲得した情報処理の方式をサイバー世界において実現しつつあるとも考えられる。AIがすぐに人間の知能を超えるとはいえないにしても、生命や人類が個々に学習した知識を他者に移転する方法が極めて限定されているのに対して、サイバー世界の知識や情報処理方式は容易く移転・共有できる点に大きな可能性が見いだされる。

これからの新しい世界において経済発展を支えるのは、土地、資本、労働に替わってビッグデータからの知識創出と考えられている。そのため、理論科学、実験科学、計算科学に加えデータサイエンスが第4の科学的方法論として重要になっている。今後は文系の社会人にとってもデータサイエンスの素養は不可欠となる。また、今後すべての研究者はデータサイエンティストにならなければならないと言われるように、学術研究に携わるすべての研究者にとってもデータサイエンスは必要なツールになると思われる。

このような変化を逸早く認識した欧米では2005年ごろから統計教育の強化が始まり、さらに 2013年ごろからはデータサイエンスの教育プログラムが急速に立ち上がり、その動きは近年では近隣アジア諸国にまで及んでいる。このような世界的潮流の中で、遅ればせながら我が国においても、データ駆動型の社会実現の鍵として数理・データサイエンス教育強化の取り組みが急速に進められている。その一環として2017年度には国立大学6校が数理・データサイエンス教育強化拠点として採択され、各大学における全学データサイエンス教育の実施に向けた取組みを開始するとともに、コンソーシアムを形成して全国普及に向けた活動を行ってきた。コンソーシアムでは標準カリキュラム、教材、教育用データベースに関する3分科会を設置し全国普及に向けた活動を行ってきたが、2019年度にはさらに20大学が協力校として採択され、全国全大学への普及の加速が図られている。

本シリーズはこのコンソーシアム活動の成果の一つといえるもので、データサイエンスの基本的スキルを考慮しながら6拠点校の協力の下で企画・編集されたものである。第1期として出版される3冊は、データサイエンスの基盤ともいえる数学、統計、最適化に関するものであるが、データサイエンスの基礎としての教科書は従来の各分野における教科書と同じでよいわけではない。このため、今回出版される3冊はデータサイエンスの教育の場や実践の場で利用されることを強く意識して、動機付け、題材選び、説明の仕方、例題選びが工夫されており、従来の教科書とは異なりデータサイエンス向けの入門書となっている。今後、来年春までに全10 冊のシリーズが刊行される予定であるが、これらがよき入門書となって、我が国のデータサイエンスカが飛躍的に向上することを願っている。

2019年7月 東京大学特任教授、元統計数理研究所所長 北川源四郎

昨今、人工知能(AI)の技術がビジネスや科学研究など、社会のさまざまな場面で用いられるようになってきました。インターネット、センサーなどを通して収集されるデータ量は増加の一途をたどっており、データから有用な知見を引き出すデータサイエンスに関する知見は、今後、ますます重要になっていくと考えられます。本シリーズは、そのようなデータサイエンスの基礎を学べる教科書シリーズです。

第1期には、3つの書籍が刊行されます。『データサイエンスのための数学』は、データサイエンスの理解・活用に必要となる線形代数・微分積分・確率の要点がコンパクトにまとめられています。『データサイエンスの基礎』は、「リテラシーとしてのデータサイエンス」と題した導入から始まり、確率の基礎と統計的な話題が紹介されています。『最適化手法入門』は、Pythonのコードが多く記載されるなど、使う側の立場を重視した最適化の教科書です。

2019年3月に発表された経済産業省のIT人材需給に関する調査では、AIやビッグデータ、IoT 等、第4次産業革命に対応した新しいビジネスの担い手として、付加価値の創出や革新的な効率化等などにより生産性向上等に寄与できる先端IT人材が、2030年には55万人不足すると報告されています。この不足を埋めるためには、国を挙げて先端IT人材の育成を迅速に進める必要があり、本シリーズはまさにこの目的に合致しています。

本シリーズが、初学者にとって信頼できる案内人となることを期待します。

2019年7月 理化学研究所革新知能統合研究センターセンター長、東京大学教授 杉山 将

巻頭言

情報通信技術や計測技術の急激な発展により、データが溢れるように遍在するビッグデータの時代となりました。人々はスマートフォンにより常時ネットワークに接続し、地図情報や交通機関の情報などの必要な情報を瞬時に受け取ることができるようになりました。同時に人々の行動の履歴がネットワーク上に記録されています。

このように人々の行動のデータが直接得られるようになったことから、さまざまな新しいサービスが生まれています。携帯電話の通信方式も現状の4Gからその100倍以上高速とされる5Gへと数年内に進化することが確実視されており、データの時代は更に進んでいきます。このような中で、データを処理・分析し、データから有益な情報をとりだす方法論であるデータサイエンスの重要性が広く認識されるようになりました。

しかしながら、アメリカや中国と比較して、日本ではデータサイエンスを担う人材であるデータサイエンティストの育成が非常に遅れています。アマゾンやグーグルなどのアメリカのインターネット企業の存在感は非常に大きく、またアリババやテンセントなどの中国の企業も急速に成長をとげています。これらの企業はデータ分析を事業の核としており、多くのデータサイエンティストを採用しています。

これらの巨大企業に限らず、社会のあらゆる場面でデータが得られるようになったことから、データサイエンスの知識はほとんどの分野で必要とされています。データサイエンス分野の遅れを取り戻すべく、日本でも文系・理系を問わず多くの学生がデータサイエンスを学ぶことが望まれます。文部科学省も「数理及びデータサイエンスに係る教育強化拠点」6大学(北海道大学、東京大学、滋賀大学、京都大学、大阪大学、九州大学)を選定し、拠点校は「数理・データサイエンス教育強化拠点コンソーシアム」を設立して、全国の大学に向けたデータサイエンス教育の指針や教育コンテンツの作成をおこなっています。本シリーズは、コンソーシアムのカリキュラム分科会が作成したデータサイエンスに関するスキルセットに準拠した標準的な教科書シリーズを目指して編集されました。

またコンソーシアムの教材分科会委員の先生方には各巻の原稿を読んでいただき、貴重なコメントをいただきました。データサイエンスは、従来からの統計学とデータサイエンスに必要な情報学の二つの分野を基礎としますが、データサイエンスの教育のためには、データという共通点からこれらの二つの分野を融合的に扱うことが必要です。この点で本シリーズは、これまでの統計学やコンピュータ科学の個々の教科書とは性格を異にしており、ビッグデータの時代にふさわしい内容を提供します。本シリーズが全国の大学で活用されることを期待いたします。

2019年4月 滋賀大学データサイエンス学部学部長、教授 編集委員長 竹村彰通

狩野 裕 (編集), 〓田 悦生 (著)
出版社: 講談社 (2019/8/31)、出典:出版社HP

まえがき

データサイエンスというキーワードが日本に留まらず世界中の大学を中心に社会を席捲している昨今、その名も「データサイエンスの基礎」と銘打つ書籍を出版することとなった。しかしながら、データサイエンスという用語が多様に使用されているときに、その基礎を問われても何が基礎で何が基礎でないか、を選定することは簡単にはいかないであろうそこで、データサイエンスにおける基礎事項と著者が考える以下の項目

  • データリテラシーに関する話題
  • 数学的な確率の定義
  • データにおける代表値と散らばりの特徴
  • 基本的な確率分布の性質
  • 中心極限定理の紹介
  • 統計的な話題の例

を掲載することにした、これらの話題や例題は、著者が学部1年生に統計学を長年教える上で利用してきた内容の一部でもある。その結果このテキストは、いわゆる統計学の基礎で教えられているような標準的なテキストとは異なり、データサイエンスを学ぶにおいて、実際のデータを多く扱いながら、データの確率的な挙動を概念的にも把握する基礎作りとして、他にあまり類のない構成・内容となっている。読者の批判に耐えうるものになっていることを願うばかりである。このテキスト作成に関して、著者をお誘い下さいました大阪大学大学院基礎工学研究科 狩野裕教授に感謝致します。また、原稿を丁寧で読んで頂き非常に有益なコメントを頂きました大阪府立大学大学院工学研究科 林利治准教授、大阪大学 数理・データ科学教育研究センター 朝倉暢彦特任講師、そして大阪大学大学院基礎工学研究科博士後期課程 倉田澄人君に感謝致します。原稿作成全般を通じて、温かい励ましを頂きました講談社サイエンティフィク横山真吾様と瀬戸晶子様に感謝致します。最後になりましたが、著者の原稿作成を支えてくれた佐知子と結理菜に感謝します。

平成30年12月 濱田 悦生

狩野 裕 (編集), 〓田 悦生 (著)
出版社: 講談社 (2019/8/31)、出典:出版社HP

目次

第1章 リテラシーとしてのデータサイエンス

1.1 データサイエンスの目的と必要性
1.1.1 データサイエンス
1.1.2 フィッシャーによる三原則
1.1.3 統計, データサイエンスの歴史的推移
1.1.4 ランダムネスの懐柔と活用

1.2 リテラシーとデータの見方
1.2.1 第2回メディアに関する全国世論調査
1.2.2 自動車事故死,飛行機事故死

1.3 確率的現象と決定論的現象
1.3.1 市町村人口の先頭桁の数字例
1.3.2 フィボナッチ数列の先頭桁の数字

第2章 確率

2.1 確率の定義と役割
2.1.1 確率のさまざまな定義
2.1.2 ベン図

2.2 確率の公理的定義
2.2.1 ベンフォードの法則

2.3 条件付き確率とベイズの定理
2.3.1 条件付き確率
2.3.2 ベイズの定理

第3章 データからの情報抽出

3.1 度数分布表とヒストグラム

3.2 統計グラフの活用

3.3 データの特性値(代表値,ばらつき)
3.3.1 データの代表値
3.3.2 データのばらつき

3.4 標準化と標準得点

3.5 散布図,共分散

3.6 相関係数と回帰直線
3.6.1 マーコヴィッツのポートフォリオ理論

3.7 回帰直線
3.7.1 ガウスの最小二乗法
3.7.2 アンスコムの回帰直線
3.7.3 OECD データの再考

第4章 確率的な現象の扱い

4.1 確率的な現象と確率変数(離散型・連続型)

4.2 確率変数の期待値(平均)と分散

4.3 確率分布
4.3.1 ベルヌーイ分布
4.3.2 二項分布
4.3.3 ポアソン分布
4.3.4 連続一様分布
4.3.5 正規分布
4.3.6 指数分布

4.4 同時分布と周辺分布、独立性
4.4.1 離散型確率分布の同時確率
4.4.2 同時確率分布と共分散、相関係数

4.5 2次元正規分布

4.6 大数の法則,中心極限定理
4.6.1 大数の法則
4.6.2 中心極限定理
4.6.3 視聴率調査における誤差

第5章 統計的な話題

5.1 シンプソンのパラドックス

5.2 無作為化回答法

狩野 裕 (編集), 〓田 悦生 (著)
出版社: 講談社 (2019/8/31)、出典:出版社HP

 

目次 – AI・データサイエンスの基礎

分かりやすいAI・データサイエンス

最初に知っておくべきAI、IoT、ビッグデータに関する基礎知識をまとめたテキスト!AI関連の知識として、過去からの経緯とおおまかな理論の理解ができ、今後の方向性についても学べる1冊!分かりやすい言葉とイラストで基礎を把握できます。

はじめに

ビッグデータとかいわれるけど、どんなものなんだろう。「データサイエンティスト」を目指せっていわれたけど、どんな仕事なんだろう。
AIや人工知能ってなんだろう。

AIに仕事を奪われるって聞いたけど、これからの時代になにが起きるんだろう。そんな疑問をもっている人はいないでしょうか。
みんな、「よく知らないこと」「分からないこと」に対しては不安になってしまうものです。

不安をなくすには、少しでもいいからデータサイエンスやAIについての知識をつけること。未知の存在でなくなれば、怖くありません。
これからの時代には、AIやデータ処理は特別なものではなくなります。その当たり前を身につけて、備えるようにしましょう。

この書籍は、主にITをこれから学ぼうとしている初学者の方、データサイエンスやAIに興味をもちはじめた方、本格的に学ぶ前の基礎の段階を作ることを目的にしています。データそのものからデータサイエンス,これから様々なデータを生み出す元になると思われているIoT,そしてAI。

ちょうどディズニーランドのアトラクション「イッツ・ア・スモールワールド」みたいにデータの世界を巡ってみましょう。

皆様のお役に、少しでも立ちますように。

2020年1月
吉原幸伸

吉原幸伸 (著)
出版社: アイテック (2020/2/3)、出典:出版社HP

Contents

はじめに
Chapter 1 データはどのように処理されてきたのか
1-1 データの種類
1 ITと情報
2 データとは
3 ITの基礎概念
4 データの種類
5 データセット
1-2 データの集計と加工
1 データの集計
2 その他の分析
1-3 データの読み方
1 データの落とし穴
2 データの統計学的解釈
1-4 データの可視化
1 可視化の種類
2 可視化ツール
Mini Discussion
章末問題
章末問題解答・解説

Chapter 2 ビッグデータも怖くない!データサイエンスの基礎
2-1 データ分析で最初にやること
1 データサイエンティストの仕事
2 データ分析のプロセス
3 ビジネスの理解
4 データの理解
5 データの準備(前処理)
6 データの処理とモデリング
7 評価
8 デプロイ データ分析の代表的な手法
1 説明変数と目的変数
2 初歩の分析方法
3 関係の強さを調べる:相関分析
4 予測を行う:回帰分析
5 数値の差の意味を見極める:検定
6 関わりのルールを求める:マーケットバスケット分析
2-3 Webサイトの改善から体験するデータ分析
1 KGIとKPIの設計
2 仮説を立てる
3 時系列分析とセグメント分割
4 分析と仮説検証
5 改善策の立案
2-4 データ分析基盤の構築
1 データ分析基盤を構成する要素
2 各種ログの取得
3 データレイク
4 データウェアハウス
5 データマート
6 クラウドの活用
Mini Discussion
章末問題
章末問題解答・解説

Chapter 3 IoTの基礎
3-1 新世代のIoT
1 IoTとは
2 H2H, H2M, M2M
3 クラウドコンピューティングとは
4 IoTとクラウドコンピューティング
3-2 IoTシステムの仕組みと構成
1 IoTの階層構造
2 デバイス
3 エッジコンピューティング層/フォグコンピューティング
4 クラウドコンピューティング
5 IoTで利用される通信規格
6 IoTの3層の役割分担
3-3 IoTとストリームデータ処理
1 データ処理の種類
3-4 IoTをビジネスにどうやって活かすか
1 IoTでビジネスは何が変わるのか
2 IoTのビジネス活用事例
Mini Discussion
章末問題
章末問題解答・解説

吉原幸伸 (著)
出版社: アイテック (2020/2/3)、出典:出版社HP

Chapter 4 AIの基礎
4-1 AIでできること・できないこと
1 知能とは
2 人工知能とは
3 AIにできること
4 AIにできないこと
5 AIと知識
6 AIと推論
4-2 AIの基礎技術
1 AIと機械学習/ディープラーニング
2 AIのプラットフォーム
3 エッジコンピューティング
4 機械学習/AIライブラリ
4-3 AIに学習させる方法
1 学習するとは、
2 教師あり学習」
3 教師なし学習
4 強化学習」
5 機械学習の手順
6 AlphaGoはどのように学習したのか
4-4代表的なアルゴリズム
1 回帰に使用するアルゴリズム
2 分類(識別)に使用するアルゴリズム
3 クラスタリングに使用するアルゴリズム
4 次元削減(圧縮)に使用するアルゴリズム 画像認識をしてみる
1 トイ・データセット
2 訓練データとテストデータの準備
3 モデルに学習を行わせる
4 モデルの学習結果をテストデータを用いて評価する
Mini Discussion
章末問題
章末問題解答・解説

Chapter 5 AIをビジネスにどう活かすか
5-1 AIで予測を行う
1 予測のための技術
2 AIと気象情報による需要予測
3 モバイル空間統計によるタクシーの需要予測
5-2 AIで認識する
1 人やモノを認識する技術
2 パターン認識と物体検出
5-3 AIでカスタマサポートをする
1 自然言語処理の技術
2 チャットボットをビジネスに活かす
5-4 スマートマシン
1 スマートマシンの概念とエージェントの考え方
2 スマートマシンとRPA
5-5 AIのこれから
1 AIの課題とこれから
2 AIを活用できる人材
Mini Discussion
章末問題
章末問題解答・解説
索引
参考文献
卷末付錄ワークブック
商標表示
各社の登録商標及び商標,製品名に対しては、特に注記のない場合でも、これを 十分に尊重いたします。

 

吉原幸伸 (著)
出版社: アイテック (2020/2/3)、出典:出版社HP

目次 – 文系のための データサイエンスがわかる本

データサイエンスに興味をもったら

文系理系問わず、データ分析についての基本を効率よく学ぶことができます。実際の現場でも役に立つような、実務に即した内容が多く述べられています。データサイエンティストとしての経験を積む上で必携の1冊でしょう。

高橋 威知郎 (著)
出版社: 総合法令出版 (2019/9/10)、出典:出版社HP

 

はじめに

「AIだ!」 「IoTだ!」 「ビッグデータだ!」

最近ビジネス界隈で聞く叫び声です。経営層や管理層などのエライ人になると、叫ぶ声も変わります。
「我が社はゲーム・チェンジャーになるぞ!」 「よし、デジタルトランスフォーメーションだ!」 「とりあえず、データビジネスで収益拡大だ!」
一体何が起こっているのでしょうか。

今、「第4次産業革命」が起こっている、起こりつつあるといわれています。第4次と呼ばれるぐらいですから、過去に3回起こったことになります。「工業革命」とも呼ばれた8世紀半ばからの「第1次産業革命」、トーマス・エジソンに代表される1 0年ごろまでの「第2次産業革命」、「デジタル革命」とも呼ばれたインターネットなどが中心的役割を演じた1990年代からの「第3次産業革命」です。そして、AI(人工知能)やIoT(モノのインターネット)、ビッグデータなどによる「第4次産業革命」です。
具体的にどのような産業革命なのか、それはまだ誰も分かりません。なぜならば、今を生きている我々が、自ら創造していくものだからです。

「まずい! うちの会社、社長はAI化と叫んでいるけど、そもそも全然デジタル化されていない…」

十分なデジタル化への対応がなされていない企業や行政機関、組織は多いかもしれません。例えば、デジタル化すれば楽なのに、「発注書のフォーマットをプリントアウトし、必要事項を手で記入した後に、FAXで送信する」みたいな業務が、まだ残っている企業もあることでしょう。デジタル化への対応が不十分な中、次の産業革命の波が押し寄せるのですから大変です。

最近、不思議な職種の人財がにわかに注目を集めるようになりました。「データサイエンティスト」(「AI/機械学習エンジニア」含む)です。データサイエンティストに対し、多くの人は次のように思うかもしれません。

「自分には関係ない!」「勝手に頑張ってくれ!」「ヘンなのが湧いてきたな…」

周囲から見れば「数学に強い人が、コンピュータを使い、データをこねくりまわしている」、そんな感じでしょう。ときには魔法使いかのように期待されたり、ときには変人(ちょっと変わった人)のように敬遠されたりします。

少なくとも20年ぐらい前からこの職業はありました。呼び名は色々ありますが、データを分析したり、システムに組み込む数理モデル(現実世界で起きる諸問題を、コンピュータで効率よく回答を求めるため、方程式など数学的な形で表すもの。異常検知や予測モデル、最適化モデルなど)などを構築したり、そのためのアルゴリズムを研究・開発し、コンピュータプログラムで実装(新たな部品や機能を組み込み使えるようにすること)したりしています。

このようなデータサイエンティストが不足しています。なぜでしょうか。それは、「AIだ!」「IoTだ!」「ビッグデータだ!」と叫ばれるこの時代に必要不可欠だからです。第4次産業革命が本格化するにつれ、さらに必要になることでしょう。しかし、データサイエンティストだけでは、第4次産業革命の波を乗りこなし、高みを目指すには無理があります。「データサイエンスのビジネス実践で、重要なポイントがあります。それは、「データサイエンティストだけでは何もなしえない」ということです。今も昔も変わりません。一緒に物事を進める人が必要です。特別な人財ではなく、データサイエンスの理解がある普通のビジネスパーソンが必要なのです。「データサイエンティストだけでも、AIやIoT、ビッグデータなどに対し、何かしら取り組むことはできると思います。しかし、「我が社はゲーム・チェンジャーになるぞ!」「よし、デジタルトランスフォーメーションするぞ!」「とりあえず、データビジネスで収益拡大だ!」というところまで到達するのは至難の業です。

では、どうすればいいのでしょうか。技術力よりもチーム力です。チーム力と言っても、チームプレーではありません。スタンドプレーなチームワークです。例えば、以下のような人財が必要になります。

  • データサイエンティスト(AI/機械学習エンジニア含む)
  • データエンジニア
  • ドメインをつなぐ、データサイエンスを理解している「ビジネスパーソン」
  • 社内政治力のある、データサイエンスを理解している「ビジネスパーソン」
  • 社内IT専門家を仲介する、データサイエンスを理解している「ビジネスバーソン」

来たるAI時代、データサイエンスとは何なのかを理解し、一人のビジネスパーソンとしてデータサイエンスを活用できる人財が求められています。実は、データサイエンティスト以上に不足しているのは、このデータサイエンスを理解し、データサイエンティストと協働するビジネスパーソンなのです。

この書籍は、このようなビジネスパーソン向けに執筆しました。プロのデータサイエンティストではなく、普通のビジネスパーソンです。普通のビジネスパーソンが、ビジネスにおけるデータサイエンスとはどのようなものかを掴み、プロのデータサイエンティストとともに、データサイエンスを実践することで、ビジネスの成果などの素晴らしい何かを得ることができるでしょう。

少なくとも、単なるデジタル化をAI化といってしまうような愚やビジネスの成果を生まないデジタル化のための莫大なIT投資を避けることができることでしょう。
《Chapter 1〉では、なぜ今データサイエンスが必要なのか、そして、データサイエンスとは何で、データサイエンティストとは何者なのか、データサイエンティスト以外で必要なビジネスパーソンは誰か、などについて話します。《Chapter 2〉では、データサイエンスという武器を使うメリットや、その実現手段、データサイエンスで登場する数理モデルなどの話をします。数理モデルに深入りはしません。興味のある方は、専門書を読んでいただければと思います。《Chapter 1》と《Chapter 2》は概念的な話が中心ですが、《Chapter 3》は個別具体的な話になります。「小さく始め、大きく波及させよう!」というコンセプトの説明をした後に、小さく始めたデータサイエンスのプチ事例の紹介をします。《Chapter 4》は、未来の話になります。私は予言者ではないため、今すでに起こっていることをベースにしたものになっています。明るい未来とともに、気をつけるべき点にも、簡単に言及します。

なお、本文中に数理モデルなど聞き慣れない単語が出てきます。理解の妨げになる場合は、無理をして理解しようとせず読み飛ばしてください。気になる方は、別途調べてみて下さい。

イラスト 高橋威知郎
ブックデザイン 大口太郎
DTP・図表 横内俊彦
校正 黒田なおみ(桜クリエイト)

高橋 威知郎 (著)
出版社: 総合法令出版 (2019/9/10)、出典:出版社HP

CONTENTS

はじめに

Chapter 1 データを制する者がビジネスを制する
1-1 データが鍵を握る時代の到来
1-2 「データサイエンス」とはデータとビジネスを結ぶ栄光の架け橋
1-3 今注目の「データサイエンティスト」という職業
1-4 “最高の相棒”、データエンジニアとデータサイエンティスト
1-5 データサイエンス上、最低限必要な人財

Chapter 2 データサイエンスという武器
2-1 データサイエンスの効果・効能
2-2 データサイエンスを構想化する
2-3 データサイエンス駆動プロセス(PDCA×OODAxCRISPIDM)
PDCAサイクル
OODAループ
CRISPIDM
2-4 統計解析と機械学習、そしてAI
2-5 統計解析・機械学習モデルの選び方(チートシート)
量を予測するモデル
質を予測するモデル
異常を検知するモデル –
構造を理解するためのモデル –

Chapter 3 データサイエンスの始め方とそのプチ事例
3-1 データサイエンスは小さく始め、大きく波及させろ
3-2 小さく始めたデータサイエンスのプチ事例
事例1 「どのくらい訪問すればいいの?(既存顧客の訪問回数の閾値/離脱予測)
事例2 儲かりそうな見込み顧客は?(見込み顧客の受注率/受注金額/LTV予測)
事例3 この記入おかしくない?(顧客情報入力時の記入誤り検知/誤り箇所レコメンド)
事例4 どう設計すればいいの?(開発時の品質特性を最大化する最適設計)
事例5 良品を増やせる?(生産工程のチョコ停/ド力停予兆検知)
3-3 何度か「成果の大きさ」を見積もろう

Chapter 4 データサイエンスがつくる未来
4-1 データエコノミーな時代に必須なデータサイエンス
4-2 ぐれるAI、オタクになるAI
4-3 「読み・書き・そろばん」から「数理・データサイエンス・AI」へ
4-4 ときには、現場の人の業務を奪うことがあるかもしれない
4-5 求められているデータリテラシーのあるビジネスパーソン

おわりに

高橋 威知郎 (著)
出版社: 総合法令出版 (2019/9/10)、出典:出版社HP

目次 – [図解]大学4年間のデータサイエンスが10時間でざっと学べる

初めて読むデータサイエンス書籍!

見開き1ページに1単元の要点がまとまっており、かなり読みやすい構成になっています。データサイエンスはとっつきにくい印象がありますが、こちらはスラスラと読み進めることのできる入門書です。全体像を把握したい、また復習として使いたいという方におすすめです。

久野 遼平 (著), 木脇 太一 (著)
出版社: KADOKAWA (2019/9/13)、出典:出版社HP

 

はじめに

データサイエンスは統計学や機械学習だけではなく、コンピュータサイエンスの諸分野とも関連するため、取り扱い範囲が非常に大きい分野です。そのため体系的に基礎知識を身につけるには、さまざまな書籍に当たらねばならず、初学者にとって気軽に全体像を頭に描ける分野ではありません。特に近年ではディープラーニングなど、イメージばかりが先行し、正確にどういう文脈にある技術なのか、正しく理解できていないケースも見かけます。

本書は初学者がデータサイエンスを理解する上で必要な基礎知識を1冊にまとめたものです。一般的なデータサイエンスの本では省略されがちな前提知識、たとえばソフトウェア技術やアルゴリズムの話なども、データサイエンスとの関連を強調しながら丁寧に解説するように努めました。本書を通じてざっとでもデータサイエンスを支える基礎技術をつかんでいただければ幸いです。

本書では数式を用いて説明している箇所が少なからずあります。しかし、そうした数式はあくまで「ちゃんと数学的に定義し、コンピュータに指示を与えることができる」ということを理解してもらうために掲載しているだけです。挿絵のようなものとして読み飛ばしてもらっても結構です。

情報通信技術の進展とともに、さまざまなデータが集められるようになってきたことは周知の事実だと思います。またインターネットやスマホ、IoT技術など、ある種のオートメーションエンジニアリングが日常生活にまで入り込んできていることに思い当たる人も多いでしょう。 EC市場で何かを購入する際に別の商品をお勧めされたり、クレジットカード会社から身に覚えのない購買行動の問い合わせがきたりするのは、裏でデータサイエンティストが必要なアルゴリズムを構築したからです。もちろんそうしたITっぽい仕事だけでなく、もっと文系的な仕事もデータサイエンティストの仕事に含まれます。官公庁がビッグデータから知見をまとめてレポーティングしたり、コンサルティングファームが大きな意思決定を支援したりする際にも、従来のコンピューティング技術や統計手法だけではどうしても限界が生じることがあります。その際にもデータサイエンスは役立ちます。データサイエンスは日進月歩している分野でもあります。取得可能なビッグデータも変わるでしょうし、人工知能技術の進展とともに社会的にデータサイエンティストに求められるニーズも表層的には変わっていくでしょう。実際、本書でも扱っている画像やテキストなど非構造化データの分析は、近年の技術進歩に支えられて流行するようになったものです。またビッグデータ、人工知能、IoT、ブロックチェーンなど、複合的に技術革新が組み合わさった結果、社会の至るところでオートメーションエンジニアリング導入の流れが不可避的に進行しています。この流れの恩恵としてデータサイエンス業界でも今まで考えたこともなかったデータサイエンス課題が日々生まれています。ひょっとしたら、今までわれわれがデータサイエンス課題と思っていたものはほんの氷山の一角にすぎず、本当 に面白いデータサイエンス課題にはまだ気がついてさえいないのかもしれません。

しかしそうであったとしても根本の計算や統計などの科学的知識は、そう大きく変わるものではありません。そして、こういう変化の激しい時代だからこそ、データサイエンスの基礎を学ぶことが重要であるといえます。本書が読者にとって基礎力のしっかりしたデータサイエンティストを目指すきっかけになったならば、筆者としてそれに勝る喜びはありません。

※本書は2018年3月に刊行した「大学4年間のデータサイエンスが10時間でざっと学べる」から43項目を厳選、加筆訂正した上で再編集した1冊です。

久野 遼平 (著), 木脇 太一 (著)
出版社: KADOKAWA (2019/9/13)、出典:出版社HP

CONTENTS

図解 大学4年間のデータサイエンスが10時間でざっと学べる

Part_1 データサイエンスの基礎技術
01 データサイエンスとデータサイエンティスト
02 データサイエンティストに求められる役割
03 ビッグデータはどうやって集める?
04 プログラミングとは
05 プログラムを構成する制御構文
06 プログラムにおける「関数」という概念
07 いくつかに分類されるプログラミングスタイル
08 処理や分析の手順「アルゴリズム」
09 アルゴリズムの評価手法
10 処理にかかる時間を比較する
11 最適解の求め方
12 「勾配法」で最適解を導き出す
13 どの組み合わせが一番得をする?

Part_2 統計学・機械学習の基礎
14 機械学習とは
15 汎化性能と過学習
16 データの概要をつかむ:一次分析
17 線形回帰で住宅価格を予想
18 推定値のばらつき
19 バイアスとバリアンスの分解
20 バイアスとバリアンスのトレードオフ関係
21 パラメトリックモデルとノンパラメトリックモデル
22 アンサンブル学習
23 回帰木で住宅価格を予想
24 ブートストラップ法とバギング
25 ランダムフォレスト
26 勾配ブースティング
27 K – 平均法
28 階層的クラスタリング
29 主成分分析
30 特異値分解で株価を分析

Part_3 ディープラーニング
31 動物の神経システムを模倣した学習モデル
32 単純パーセプトロン
33 多層パーセプトロン
34 多層パーセプトロンの学習
35 ディープラーニング
36 ディープラーニングで利用される技術
37 ディープラーニングの発展に寄与した関数
38 ある単語の次に来る語を予測する
39 系列予測とRNN (1)
40 系列予測と RNN (2)
41 画像データは数値の羅列
42 CNN
43画像の生成

カバーデザイン/ニノ宮匡(ニクスインク) 本文デザイン・DTP / ISSHIKI

最良 平均 最悪
空間計算量
時間計算量 時間計算量 時間計算量
ボゴソート O(n) O((n+1)!) O((n+1)!) O(1)
バブルソート O(n) O(n²) O(n²) O(1)
インサーションソート O(n) O(n²) O(n²) O(1)
マージソート O(nlogn) O(nlogn) O(nlogn) O(n)
クイックソート O(nlogn) O(nlogn) O(n²) O(n)★
★ O(log(n))のときもある
久野 遼平 (著), 木脇 太一 (著)
出版社: KADOKAWA (2019/9/13)、出典:出版社HP

シラバス

意外に知られていませんが、人工知能にしろデータサイエンスにしろ、ハードウェアやプログラミング、データベースなどのソフトウェア、そしてアルゴリズムの進化が昨今のブームを生んだ1つの大きなきっかけでした。データサイエンス本というと、どうしても統計学や機械学習のほうがセクシーで格好いいのでそれらの説明に偏りがちですが、本書では「縁の下の力持ち」にもしっかりスポットライトを当てていきます。本書が標榜する「ビッグデータも扱える基礎力の高いデータサイエンティスト」を目指さないまでも、こうした基礎技術を理解し、ア ルゴリズム屋さんやデータベース屋さんに話してみると、思いがけずためになる話を聞けて面白いかもしれません。

LECTURE 01 データサイエンスとデータサイエンティスト

POINT:データサイエンティストはコンピュータを活用し、データの収集と処理、統計学や機械学習的分析、意思決定や商品開発までの流れを効果的に処理する。

データを分析して価値を生み出す

情報通信技術の進歩とともに、データ分析が必要とされる場面は飛躍的に増えました。インターネットやスマートフォン、スマートセンサー、GPSなどのハードな技術だけでなく、ソーシャルメディア、EC(電子商取引)市場、ウェブ広告、ブロックチェーン、IoT(モノのインターネット)などのソフトな技術も日進月歩しており、それらを支える人材の需要は飛躍的に増加しています。

実際2017年の世界企業の時価総額ランキング上位5社(Apple、Google (Alphabet)、Microsoft、Facebook、Amazon)はいずれもデータ分析を広く活用しており、英国の著名な経済紙であるThe Economist誌は2017年に「今、最も価値のある資源はデータである」という記事を掲載して話題になりました。
それではデータサイエンティストとはどういう技能をもつ人なのでしょうか。本書では「コンピューティング技術を活用し、データの収集と処理、統計学や機械学習的分析、意思決定や商品開発までの一連の流れを効果的に処理する技能をもつ人」を指すことにします。

近年ではデータサイエンティストをさらにビジネスよりの「業務系」と実装重視の「IT系」と峻別することもあります。その意味では本書は後者に焦点を絞ったものです。データサイエンティストに必要な知識や技能は多岐にわたり、一筋縄ではいきません。数学、アルゴリズム、ハードウェアの知識、ソフトウェアの知識、統計学、機械学習、ビジネス課題解決などの応用力。これらすべてに精通している人といえば、そのむずかしさもわかりやすいと思います。
本書は初学者がデータサイエンスの全体をつかめるように書かれたものです。それでは早速学習していきましょう。

PICK UP 【もっと知りたくなる!】

ビッグデータとは

《量だけではなく、速さや正確性なども従来とは異なる》
ビッグデータとは近年取得可能になったデータの総称です。その特徴は量、速さ、種類、正確 さが従来とは大きく異なることにあります。まず、さまざまな情報通信技術によって大量のデ ータが収集可能になるとともに、データが生み出される速さが変わりました。種類も近年大き く変わった特徴の1つです。たとえば物価などの集計量ではなく、詳細な値動きや取引量など、マイクロデータを用いた経済分析も活発になりました。文書、画像、動画、音声などの非構造化データの有効活用が広く試みられるようになったのも近年の動向といえます。一方、正確さに関しては必ずしもポジティブな話だけではありません。ブログ記事などはフェイクニュースの温床にもなっており、情報が正確とはいいきれません。こうしたデータ環境の変化に柔軟に対応し、データ分析を通じて価値を創造するのがデータサイエンティストの仕事です。

 

 

LECTURE 02 データサイエンティストに、求められる役割

POINT:データサイエンスの流れは、まず目的を明確にし、実現のため何のデータを 集めるか考え、プログラムを実装、フィードバックをもとに改善を繰り返す。

久野 遼平 (著), 木脇 太一 (著)
出版社: KADOKAWA (2019/9/13)、出典:出版社HP

目次 – 図解入門 最新 データサイエンスがよ~くわかる本

データサイエンス概要をまずは知ろう

技術書を使っての学習は挫折してしまう方が多いですが、こちらは内容の難易度も分量も程よく、効率よくデータサイエンスの全体像を学ぶことができます。ITに関わる方には必携の、初心者の方にもおすすめできる1冊です。

高木章光 (著), 鈴木英太 (著)
出版社: 秀和システム (2019/1/23)、出典:出版社HP

はじめに

データサイエンス(データ分析)のブームが起きてから、5年以上が経過しました。しかし、データサイエンスの活用においては、上手に活用できている企業と活用に失敗した企業の二極化が進んでいます。これはなぜでしょうか?

この理由を考える前に、まずデータサイエンスとは何かを定義しましょう。データサイエンスとは、一般的には意思決定をサポートするために大量のデータから法則・関連性を導き出すための手法に関する研究を指します。なぜ「サイエンス」と呼ばれるかというと、そのデータサイエンスの手法が、科学的アプローチ(①先行研究のリサーチ、②仮説の構築、③実験計画、④実験・解析・結果の整理、⑤論文執筆)の流れに近く、既存の科学的アプローチを応用できることから、データ「サイエンス」と呼ばれています。
データ分析のビジネスへの活用に失敗している企業は、データ分析への理解が浅いために、実験・解析・結果の整理だけに注力している企業が多いように思います。また、実際に分析を行うために必要なデータを蓄積できていなかったり、データ分析を実際に行うデータサイエンティストが不足していることも、問題としてよく耳にします。
そこで、本書は、一冊でデータ分析プロジェクトを行う際の計画からビジネスへの適用までを、広く理解いただくことを目的に執筆いたしました。

本書では、最初にデータ分析とは何かを理解していただくために、先進的な取り組みをしている企業や、データ分析がビジネスにどのように適用できるのかを事例を交えながら説明しています。次に、データ分析の進め方について、課題の発見からビジネスへの適用まで、全般的なプロセスを説明しています。その後、分析に必要なデータを蓄積するためにどのようなシステムが必要なのかを、技術要素を先に説明し、さらにクラウドサービスの利用についても説明しています。さらに、データサイエンティストを育成する方法についても説明しました。

本書を通じて、データ分析をどのように進めるかの理解が深まり、企業のデータ活用に少しでもお役に立てれば幸いです。

2018年12月 執筆メンバー代表 高木章光

高木章光 (著), 鈴木英太 (著)
出版社: 秀和システム (2019/1/23)、出典:出版社HP

CONTENTS

はじめに

第1章 データ分析の最前線
1-1 データ活用の民主化の動き
1-2 データ分析を重要視する企業の増加
1-3 データ分析・機械学習・ディープラーニングの関係
1-4 企業が利用するデータ範囲の拡大
1-5 データの利用に関する契約ガイドラインについて

第2章 データ分析の応用事例
2-1 時系列分析
2-2 併売分析
2-3 最適化問題
2-4 異常検知
2-5 解約防止
2-6 レコメンデーション
2-7 テキストマイニング

第3章 データ分析とは
3-1 データ分析の目的
3-2 データ分析の体系
3-3 データ分析プロジェクトの進め方
3-4 実務におけるデータ分析プロセスフロー (概略)
3-5 実務におけるデータ分析プロセスフロー①
~現状の課題認識・ゴール設定・データ分析の目的検討~
3-6 実務におけるデータ分析プロセスフロー②
~データ分析計画の立案~
3-7 実務におけるデータ分析プロセスフロー③
~データ分析設計書の作成~
3-8 実務におけるデータ分析プロセスフロー④
~データ分析用基盤の準備~
3-9 実務におけるデータ分析プロセスフロー⑤
~データ収集~
3-10 実務におけるデータ分析プロセスフロー⑥
~データの前処理・理解~
3-11 実務におけるデータ分析プロセスフロー⑦
~分析手法の選択と適用~
3-12 実務におけるデータ分析プロセスフロー⑧
~分析結果の評価・施策の提案~
3-13 実務におけるデータ分析プロセスフロー⑨
~データ分析結果のビジネス適用~
3-14 実務におけるデータ分析プロセスフロー⑩
~運用・改善~
3-15 データ分析プロジェクトの進め方
3-16 データ分析を外部の専門家に委託する場合の注意点
3-17 運用について
3-18 事例:Team Data Science Process (TDSP)

第4章 データ分析の技術
4-1 記述統計
4-2 多変量解析
4-3 時系列分析
4-4 ベイズ統計
4-5 機械学習
4-6 ディープラーニング
4-7 データサイエンティストが使用する
プログラミング言語・ツール
4-8 データ分析基盤の全体像
4-9 データ分析基盤を支える技術要素①
~ストリーミング型データ収集:データ収集・蓄積(1)~
4-10 データ分析基盤を支える技術要素②
~バルク型データ収集:データ収集・蓄積(2)~
4-11 データ分析基盤を支える技術要素③
~ストリーム処理:データ収集・蓄積(3)~
4-12 データ分析基盤を支える技術要素④
~データ蓄積:データ収集・蓄積(4)~
4-13 データ分析基盤を支える技術要素⑤
~探索的データ分析・前処理~
4-14 データ分析基盤を支える技術要素⑥
~データ処理~
4-15 データ分析基盤を支える技術要素⑦
~データ分析・活用~
4-16 データ分析基盤を支える技術要素⑧
~管理~
4-17 データ分析用ライブラリについて

第5章 データ分析サービス
5-1 クラウドサービスを用いたデータ分析基盤
5-2 Arm Treasure Data eCDP
5-3 Google Cloud Platform
5-4 Microsoft Azure
5-5 Amazon Web Services (AWS)

第6章 データサイエンティストとは
6-1 データサイエンティストとは
6-2 データサイエンティストに求められる人物像
6-3 データサイエンティストを調達する方法
6-4 データサイエンティストの育成

本書発刊に寄せて
索引
著者プロフィール
参考文献・URL など

高木章光 (著), 鈴木英太 (著)
出版社: 秀和システム (2019/1/23)、出典:出版社HP

目次 – 東京大学のデータサイエンティスト育成講座 ~Pythonで手を動かして学ぶデ―タ分析~

データサイエンスの羅針盤

本書では、データサイエンスに必須なスキルを幅広く扱っております。各分野で深入りはせず、初歩的な事項を取り扱っています。最低限の知識を学び、今後の方向性などにも応用できる位置付けで活用できます。

Contents

Chapter1 本書の概要とPythonの基礎
Chapter2 科学計算、データ加工、グラフ、描画ライブラリの使い方の基礎
Chapter3 記述統計と単回帰分析
Chapter4 確率と統計の基礎
Chapter5 Pythonによる科学計算(NumpyとScipy)
Chapter6 Pandasを使ったデータ加工処理
Chapter7 Matplotlibを使ったデータ可視化
Chapter8 機械学習の基礎(教師あり学習)
Chapter9 機械学習の基礎(教師なし学習)
Chapter10 モデルの検証方法とチューニング方法
Chapter11 総合演習問題

 

塚本邦尊 (著), 山田典一 (著), 大澤文孝 (著), 中山浩太郎 (監修), 松尾 豊[協力] (その他)
出版社: マイナビ出版 (2019/3/14)、出典:出版社HP

はじめに

本出版にあたって
この本は、2017年と2018年に東京大学で実施された、「グローバル消費インテリジェンス寄付講座」の学生向けオフライン講義と、社会人向けオンライン講座で使われた教材がベースになっています。この2年間で学生、社会人の方から、のべ1800人以上の応募があり、約400名ほどの受講生の方たちが受けてきた講義です。学生は大学1年生から博士課程の学生まで理系文系問わず、また社会人の方たちもさまざまな業界の方々が受講されています。

この本はタイトルにあるように、データサイエンティストになるための基礎講座になります。昨今、さまざまなデータサイエンス関係の本(データ分析、機械学習、ディープラーニング、人工知能etc)が出ています。このコンテンツを初期に作成した数年前は、データサイエンス関係の書籍はそれほど多くなかったのですが、あの当時と比べて良質なデータサイエンスや機械学習の本も出版されています。こんな状況の中で、この講座を実施する意味や、それを本にして出版する意味はあるのでしょうか。この本のタイトルや目次をみて、「またデータサイエンスの本か」とか「今更データサイエンスの本を出版するのか」と思われている方もいらっしゃるかもしれませんし、私も執筆途中で少し思いました。

この本の特徴に、実際のデータを使って手を動かしながら、データサイエンスのスキルを身に付けることができるという点があげられます。さらに、可能な限りデータ分析をする現場で使える実践的な内容(データ前処理など)も含めています。単なる理論の説明やコーディングの説明だけにとどまらないコンテンツも扱っています。さらに、練習問題や総合同題演習など頭を使って考える内容もたくさんあり、これも他の本にはあまりない特徴です。この本に書いてあることを実践し、読み終えた後には、実際の現場でデータ分析ができるはずです。

なお、東京大学で実施している講義ではインターネットからログインするだけで使えるシステムCiLect)を使っていますが、この本では、ローカル環境を準備するための方法をAppendixに記載しましたので、参考にしてください。また、この本のペースとなるコンテンツはJupyter Notebook形式で、既に東京大学の松尾研究室より無料で公開(https://weblab.t.u-tokyo.ac.jp/gci_contents/)されており、それをダウンロードすれば、コンテンツを入手することもできます。さらに、最近はGoogleからGoogle ColaboratoryというクラウドベースのJupyter環境も無料で提供されており、これと上記の公開コンテンツを使ってデータサイエンスを手を動かしながら学ぶことも可能です。ですので、この情報を知った方は、インターネットにアクセスすることさえできれば、無料でデータサイエンスを学ぶことができるため、このコンテンツを本にする理由はあまりないように思えます。

この講座のコンテンツを本にした理由は、3つあります。1つ目がWebだけではないもっと幅広い層に、データサイエンスの実態を知ってもらい、そのスキルを身につけてほしいと思ったからです。昨今、データ分析ができる人が求められているにも関わらず、そのような人材が不足しているのが現状です。もちろん、誰もがデータ分析できる必要はないですが、データ分析には何が最低限必要で、どのようなアプローチがあるのか、どんなことができるのかということを知っておくだけでも、色々な業務の改善につなげられる可能性はあります。少なくともデータサイエンティストの仕事の大変さ(?)も理解できて、なんでもデータサイエンスやAIで解決できるなんてことは思わなくなるでしょう。

また、データ分析の専門家や分析部門等に依頼しないまでも、データの簡単な集計や可視化等がさくっとPythonを使ってできるようになれば、自分の業務の効率性も上げることもできますし、自分の仮説をデータ分析で確かめたり、今まで手作業で苦労していたタスクを自動化できるのは、楽しいことだと思います。ぜひ、この本を手に取った方はこの本を使い倒して、データ分析の基礎スキルを理解し、身に付けてください。

2つ目が、オンラインではいつでも勉強できるわけではなく、電車の中や待ち時間にさっと内容に目を通したいこともあり、そういった場合に書籍は便利です。いくらパソコンや携帯電話が使える時代とはいえ、無人島ではWiFiもなければ電源もありません。そんな場所にこの本を持っていくことはないかもしれませんが、いつでも学べるのが本の良いところです。

3つ目が、情報を取得できるスピードは本の方が圧倒的に速く、やはり学習効果が高いです。私も月に何冊も本を買っていますが、実際に本で勉強した方が学習効果は高いと感じています。色々と思いついたことを書き込みしたり、さらっと全体を見直したりするときには、本の方が便利です。本の中で深く考えるポイントがある場合は、ぜひ書き込んでいってください。学んだことを身に付けるためには、受け身ではなく、そのように主体的に学ぶ、疑問に思う、深く考えることが大事です。もちろん、本で全てを学べるわけではないので、環境を用意して手を動かして学びながら、適材適所でこの本を使ってください。

また、この本は、オンラインで公開されている教材とは異なり、デザインや配置などが綺麗で、ポイントがまとまっており、わかりやすい形になっています。これはマイナビ出版の伊佐様をはじめ、各関係者の方達に編集していただいたおかげです。とても感謝しております。

塚本邦尊 (著), 山田典一 (著), 大澤文孝 (著), 中山浩太郎 (監修), 松尾 豊[協力] (その他)
出版社: マイナビ出版 (2019/3/14)、出典:出版社HP

この本について

この本では、データサイエンスに必須なスキルを幅広く扱っています。そのため、各分野で深入りはせず、最低限必要な基礎的な事項を取り扱っています。この分野を1回で学ぶことは無理ですが、最低限の方向性だけは示すことはできるため、この本はそういう位置付けでとらえてください。データサイエンティストになるための地図と羅針盤のような役割を果たせるように、本書には重要キーワードや次に読むべき参考文献などを盛りだくさんに載せていますので、それらとあわせて活用してください。
この本は主にPythonというプログラミング言語を使って、基本的なプログラムの書き方、データの取得、読み込み、そのデータ操作からはじまり、さまざまなPythonのライブラリの使い方、確率統計の手法、機械学習(教師あり学習、教師なし学習とチューニング)の使い方、そしてPythonを高速化するための方法やSparkの簡単な操作などこれらはダウンロード付録になります)についても学びます。取り扱っているデータは、マーケティングに関するデータやログデータ、金融時系列データなどさまざまで、モデリングの前にそれらを加工する手法も紹介しています。データサイエンティストになるには、どれも必要なスキルです。

Pythonや確率・統計、機械学習、最適化など各専門書1冊1冊には到底かないませんが、データサイエンスをビジネスに活かすには、幅広く武器を知っておくこと、基本的な使い方を身に付けていることが重要です。基本的な考え方や知識が身についていれば、未知の問題等があっても、あとは調べながら学ぶことはできますので、この本ではそのマインドや姿勢を育てることも目標にしています。

また本書では、現場のデータを実際にどのように加工して分析すればよいか、それを具体的にどのようにマーケティングや金融などに使えるのか、どの手法を使ってどうコーディングしていけばいいのか、それらの合わせ技や流れも記載しています。理論的な話だけではなく、実務的な使い方も紹介しているため、すぐに現場で試すこともできます。一般的なマーケティングの本はマーケティング手法が中心でその実装手法がなく、一方機械学習の本は理論や実装はありますがマーケティング手法など実務的な使い方が載っていないなど、専門に特化しているものがほとんどです。この本ではデータサイエンスに不可欠なスキルを全体的にして、しかも実装をすぐに試すことができます。ここで、実務的なデータ分析をするための実装イメージをもつことができるでしょう。

もちろん、数式の計算や定理の証明など理論的な本が不要といっているわけではなく、むしろ時間がある大学生や研究者として第一線で活躍されたい方はしっかりと学んでください。この本だけでは理論的な知識は足りないので、必要になったら各専門書や参考文献等を一緒に使って、学んでいくと良いでしょう。ちなみに私が学生の頃、データサイエンスという言葉はそれほど流行っていませんでしたが、幸い微分積分学と線形代数、集合位相論(他、確率統計多変量解析、最適化計算や情報理論など)はしっかりと学んだので、この分野に比較的スムーズに入れたのかもしれません。

また、冒頭でも述べたように、実装の練習問題があるのも、他の本にはあまりない特徴です。人は実際に課題を前にして考え、手を動かさないと、そのスキルは身に付きません。ぜひこの教材を通して、いろいろな武器があることを知り、手を動かしながら実践してください。この本では、良書と言われ、評判が良い参考文献を多数紹介しています。この本書読了後、それらを使って、考えながら手を動かして実践して、ウェブの情報や参考図書等使いながら、さらにレベルアップしてください。

この本の対象読者

この本は、プログラミングの経験があり、理系の大学1~2年生程度の教養課程の数学(線形代数、微分積分学、確率統計の基礎など)を終えている方を対象にしています。具体的には、勉強熱心な大学3~4年生の理系の学生さんや大学院生の方、また社会人になってデータサイエンスを学ぼうという意欲の高い方たちが対象です。データサイエンスの入門レベルから中級レベルの手前までを考えている人に最適で、本書のゴールもデータサイエンス入門レベルを卒業できることを想定しています。

すでに実務でPythonと機械学習を頻繁に使っている方には、簡単すぎる内容だと思いますので、そのような中級者以上の方を対象にはしていませんが、一通りデータ分析に必要な知識は復習できます。あと、最近注目されている深層学習はこの本書では詳しく取り扱っていませんが、深層学習を学ぶ前の基礎スキルは本書で学べます(特典のダウンロード付録)。深層学習の基礎を学ぼうとしたけど、コードの意味等がわからず挫折したという方も、この本でその手前のスキルを身につけることができます。もし深層学習を本格的に学びたい方がいれば、昨今は色々な本が出版されており、また色々なところで深層学習の講座をやっていますので、それらを受講等してください。
プログラミング未経験の方や、線形代数や微分積分学などを全くやっていない方は、この教材だけで理解するのは大変かもしれませんので、参考文献を一緒に使えば、時間はかかりますが、読み進めることはできると思います。実際、この講義では大学1、2年生や、社会人で文系の方でも修了した方もいらっしゃいます。

この本の目的

「データサイエンス」については画一的な定義はなく、色々な意見があると思います。ただ、その言葉にもあるように、「科学」という分野は少なからず関わってきます。科学とは、世の中の混沌とする現象から本質を見つけ出して、さまざまな課題を解決していくことです。日々膨大に増えていくさまざまなデータの中から、科学の力を使って、色々な問題を解決していくのがデータサイエンスだと考えます。サイエンスのアプローチがもともとそうだったかもしれませんが、近年多種多様なデータが取得でき、大量かつ高速に計算ができる時代になり、またIoT(Internet of Things)などが注目される中、データ分析の重要性はなくなるどころか、必須のものになってきています。

私としては、このデータサイエンスを活用して、世の中を少しでもよくしていけると信じ、この分野で働いています。世の中は多種多様でさまざまな問題があります。非効率的な仕事や処理、無駄もあることもご承知の通りです。人工知能等が注目される一方で、いろいろな誤解や過剰な期待をされていることもあります。この本を手にとってくださっている方たちには、このような状況でも現実的になって、データサイエンスや人工知能等を使って何ができて何ができないのか、ぜひ見極めてください。

データサイエンスは、数学(統計、確率、機械学習など)だけではなく、ITの力やいろんなカを借りて、世の中の難問や隠れた課題に挑戦していく総合的な分野だと思っています。もちろん、この力は絶対的でもなく、何でも解決できるわけではなく、突然ミラクルが起こるわけではありません。むしろ、どうしようもできない状況で、泥臭く要件を確認し、課題を見つけることからはじまったり、データをコツコツ見て整形していくことが多いかもしれません。実際、筆者が現場で分析していて、そういった場面に遭遇することは往々にしてあります。しかし、それぞれのビジネス目的に応じてデータ分析をすることで、少しずつ改善できる場面もありますし、新しい発見もあったりします。データサイエンスや人工知能は、人の仕事を全て奪うものではなく、この世界をよりよくするための1つのツールです。

この読者の方たち、受講生の方たちの中から、このデータサイエンスの力を活かして、今の世の中の無駄や非効率を少しでもなくし、さらに新しい価値を割り出して、この世界を良くしていく人が増えていってくれたら、著者としては本望です。もちろん、私もその一員として日々努力闘中です。

謝辞

本教材開発は、たくさんの教材とたくさんの人によって支えられています。参考にした教材やサイトについては、参考文献として紹介させていただきました。数学やコンピューターサイエンス、マーケティング分析、さまざまな分野で専門家の方たちが研究してきた分野を、私は借りているだけです。巨人の肩に乗っていなければ、このように教材を開発することはできませんでした。

そして、本教材開発について、このような機会をくださった東京大学の松尾研究室の方たちに感謝いたします。この方たちのサポートとアドバイスやフィードバック等がなければ、このようなコンテンツを作成することはできませんでした。また私自身もこの教材開発をしていく過程で、勉強する部分が多く、このような機会を与えてくださり、感謝しております。本当にありがとうございました。

まず本講義や教材作成について、全体的な統括をしていただいている松尾研究室の中山浩太郎先生や、初期のコンテンツ開発をサポートコーディネートしてくださった橋さんには、大変感謝いたします。そして、本書の共著として入っていただいた、データサイエンティストの山田典一さんとPythonエキスパートの大澤文寿さんには大変感謝いたします。お二方のお力がなければ、出版に至らなかったと思います。

また、コンテンツに関しては、全体的なレビューをグスタボベゼーラさんと味噌野雅史さんにしていただきました。残念ながらこのお二方のレビューによる指摘すべてを完璧には反映できませんでしたが、この二人のおかげでよりよいコンテンツができたと思います(なお、紙面の都合上、講義で扱っていたデータベースの章は割愛させていただきましたが、この二人のおかげでSQLのカーネルやNoSQL等のコンテンツが作成されました。興味のある方は、上記で記載した無料公開のコンテンツに含まれておりますので、ご参照ください)。

その他にも、全体的なレビューを宮崎邦洋さん、田村浩一郎さん、三浦笑さん、相口一登さんにしていただきました。特に、宮崎さんと三浦さんは大学の講義、社会人の講座の運営のため、毎週のMTGとサポートなどしていただき、感謝しております。さらに講義で使ったiLectの環境についてはマイケルさん、アルフレッドさんに準備等いただきました。

教材のレビューアーをしていただいた方たちにも感謝致します。大学時代からお世話になっている石橋佳久さん、今村悠里さん、以前の職場でお世話になった高田有希さん、中村健太さん、山田典一さん、宮澤光康さん、乾仁さん、川田佳寿さんにもコンテンツを見て修正や追加等していただきました。特に、統計検定1級保持者の石橋さんは確率統計の箇所を修正追加してくださり、他にも全体的に問題のある箇所について指摘していただきました。山田さんや高田さんには機械学習の章について指摘をいただき、大変助かりました。さまざまな面でサポートしてくださった皆様、感謝しております。

さらに、冒頭に述べたように、本教材は東京大学の講義でも使われており、受講生の大学生、大学院生や本講義優秀者のTAの方たち(檜ロー登さん、岡本弘野さん、久保静真さん、橋立佳央理さん、意喬仁さん、田優さん、合田拓矢さん、一丸友美さん)からもフィードバックをいただきました。さらに、社会人向けに第1回、第2回オンライン講座に参加してくださった皆さんのフィードバックもとても参考になりました。

また、本業があるにも関わらず、この講義の講師や本の執筆活動や兼業等を許可し、応援していただいている本職関係者の方たちにも感謝いたします。
そして、この本を出版することができ、マイナビ出版の伊佐知子様、角竹垣紀様をはじめ関係者の方にも大変感謝しております。さまざまなフィードバックや教材の編集等、体裁などとてもグレードアップしていただき、感謝しております。

みなさん、お忙しい中、本当にありがとうございました。なお、本教材における誤植等は全て筆者(塚本)による責任であり、もしそのような間違い、お気付きの点や改善点等あれば、ぜひご連絡いただけると幸いです。今後この教材もブラッシュアップしていければ(もしくは、さらなるエキスパートの方に改善していただければ)いいなと思います。

2019年1月、塚本邦尊、アドレス:kunitaka0605@gmail.com

著者について

■塚本邦尊
現職は某金融機関の研究開発部門にて、分析環境構築からデータ前処理自動化、分析、アルゴリズム開発と実装、取引実弾とその検証、定型レポーティング作成などを担当。ナノ秒(10億分の1秒単位)の世界でニューヨークやロンドンの猛者たちと日々戦っています(?)が、HFT(高速取引)自体は世の中の役に立っているかどうか私にはまだわかっていませんので、この最先端技術をIoTやら何か他領域でも役立てようと目論んでいます。その他、個人事業として本講義の講師やさまざまな企業(メーカー、システム会社、広告代理店など)の分析サポートやアドバイスを実施したり、某コンビューター系の研究所の技術フェローを兼務。学生時代の専攻は数学で、今まで携わってきた業界は、システム会社、広告代理店、マーケティング、コンサルティング企業等。取り扱ってきた開発ツールはVisual Studio、R Studio、Jupyter Notebookなどで、C#やSQL、VBA、RやPython、シェル、SASなどを使ってきました。最近はFPGAがらみのプロジェクトに関わることが多く、ハードウェア面(FPGA、Verilog、Vivadoなど)やネットワーク面(Wire Sharkなど)からも少しずつ学び、AWSなどクラウド環境も日々扱っています。最近時間があるときは、ラズベリーパイを使ってロボティクスについて学んだり、色々な本を読んでいます。

■山田典一
株式会社クリエイティブ・インテリジェンス代表取締役。ヤフージャパン、ブレインパッド、GREE、外資系メディアエージェンシーなどで、データマイニング・機械学習を活用した高度アナリティクス業務に従事。情報の価値の観点から、インテリジェンスマネジメントの在り方、インテリジェンスプロセスと機械学習との融合可能性を考察し、日本コンペティティブ・インテリジェンス学会より最優秀論文賞を受賞(2015年)。現在は、機械学習・ディシジョン科学・シミュレーション科学を活用した、より複雑で高度なディシジョン支援に向けた技術の研究開発、機械学習の導入コンサルティング、データ活用アドバイザリーを行っています。

■大澤文孝
テクニカルライター。プログラマー。情報処理技術者(「情報セキュリティスペシャリスト」「ネットワークスペシャリスト」)。雑誌や書籍などで開発者向けの記事を中心に執筆。主にサーバやネットワーク、Webプログラミング、セキュリティの記事を担当しています。近年は、Webシステムの設計・開発に従事。主な著書に、『ちゃんと使える力を身につけるWebとプログラミングのきほんのきほん」「ちゃんと使える力を身につけるJavaScriptのきほんのきほん』(マイナビ出版)、『いちばんやさしいPython入門教室」「Angular Webアプリ開発スタートブック」(ソーテック社)、『AWSLambda実践ガイド」「できるキッズ子どもと学ぶJavaScriptプログラミング入門」(インプレス)、『Amazon Web Services完全ソリューションガイド」「Amazon Web Servicesクラウドデザインパターン実装ガイド」(日経BP)、「U」まで手の回らないプログラマのためのBootstrap3実用ガイド」「prototypejsとscriptaculousによるリッチWebアプリケーション開発」(翔泳社)、『TWE-Liteではじめるセンサー電子工作」『TWE・Liteではじめるカンタン電子工作」「Amazon Web ServicesではじめるWebサーバ」『Python10行ブログラミング」『「sakuraio」ではじめるIoT電子工作(工学社)、『たのしいプログラミング!:マイクラキッズのための超入門」(学研プラス)などがあります。

監修者、協力者について
■中山浩太郎2000年10月(株)関西総合情報研究所代表取締役社長就任2002年4月同志社女子大学非常勤講師就任2007年3月大阪大学大学院情報科学研究科博士号取得2007年4月大阪大学大学院情報科学研究科特任研究員就任2008年4月東京大学知の構造化センター特任助教就任2012年4月東京大学知の構造化センター特任講師就任2014年12月東京大学工学系研究科技術経営戦略学専攻特任講師就任

■松尾豊
1997年東京大学工学部電子情報工学科卒業2002年同大学院博士課程修了。博士(工学)。同年より、産業技術総合研究所研究員2005年10月よりスタンフォード大学客員研究員2007年10月より、東京大学大学院工学系研究科総合研究機構/知の構造化センター/技術経営戦略学専攻准教授2014年より、東京大学大学院工学系研究科技術経営戦略学専攻グルーバル消費インテリジェンス奇付講座共同代表・特任准教授。2002年人工知能学会論文賞、2007年情報処理学会長尾真記念特別賞受賞。2012年~14年、人工知能学会編集委員長を経て、現在は倫理委員長。専門は、人工知能、Webマイニング、ビッグデータ分析、ディープラーニング。

塚本邦尊 (著), 山田典一 (著), 大澤文孝 (著), 中山浩太郎 (監修), 松尾 豊[協力] (その他)
出版社: マイナビ出版 (2019/3/14)、出典:出版社HP

Contents

はじめに
Chapter1本書の概要とPythonの基礎
1-1データサイエンティストの仕事
1-1-1データサイエンティストの仕事
1-1-2データ分析のプロセス
1-1-3本書の構成
1-1-4本書を読み進めるのに役立つ文献
1-1-5手を動かして習得しようPythonの基礎
1-2-1JupyterNotebookの使い方
1-2-2Pythonの基礎
1-2-3リストと辞書型
1-2-4条件分岐とループColumn format記法とん記法
1-2-5関数
Practice練習問題1-1
練習問題1-2
1-2-6クラスとインスタンス
Practice1章総合問題

Chapter2科学計算、データ加工、グラフ描画ライブラリの使い方の基礎
2-1データ分析で使うライブラリー
2-1-1ライブラリの読み込み
2-1-2マジックコマンド、
2-1-3この章で使うライブラリのインポート
2-2Numpyの基礎
2-2-1Numpyのインポート
2-2-2配列操作
2-2-3乱数
Column Numpyは高速
2-2-4行列
Practice練習問題2-1
練習問題2-2
練習問題2-3
2-3Scipyの基礎
2-3-1Scipyのライブラリのインポート
2-3-2行列計算
2-3-3ニュートン法10000
Practice練習問題2-4
練習問題2-5
練習問題2-6
2-4Pandasの基礎
2-4-1Pandasのライブラリのインポート
2-4-2Seriesの使い方
2-4-3DataFrameの使い方
2-4-4行列操作
2-4-5データの抽出
2-4-6データの削除と結合
2-4-7集計
2-4-8のソート
2-4-9nan(null)の判定
Practice練習問題2-7
練習問題2-B
練習問題2-9
2-5Matplotlibの基礎
2-5-1Matplotlibを使うための準備
2-5-2散布図
2-5-3
グラフの分割
2-5-4関数グラフの描画
2-5-5 ヒストグラム
Column さまざまなデータのビジュアル化
Practice 練習問題2-10
練習問題2-11-10
練習問題 2-12
Practice 2章 総合問題

Chapter 3 記述統計と単回帰分析
3-1 統計解析の種類・
3-3-1 記述統計と推論統計
3-3-2 この章で使うライブラリのインポート
3-2 データの読み込みと対話
3-2-1インターネットなどで配布されている対象データの読み込み
3-2-2 データの読み込みと確認
3-2-3 データの性質を確認する”
Column 「変数」という用語について
3-2-4 量的データと質的データ
3-3記述統計
3-3-1 ヒストグラム10
3-3-2平均、中央値、最頻値
3-3-3分散と標準偏差
3-3- 4要約統計量とパーセンタイル値
3-3-5箱ひげ図
3-3- 6変動係数
3-3- 7散布図と相関係数
3-3-8 すべての変数のヒストグラムや散布図を描く
Practice 練習問題3-1
練習問題 3-2
練習問題3-3
3-4単回帰分析
3-4-1線形単回帰分析
3-4-2決定係数
Practice 練習問題3-4 –
練習問題3-5
練習問題3-6
Practice 3章総合問題

Chapter 4 確率と統計の基礎
4-1 確率と統計を学ぶ準備・
4-1-1 この章の前提知識
4-1-2 この章で使うライブラリのインポート
4-2確率
4-2- 1数学的確率
4-2-2統計的確率
4-2- 3条件付き確率と乗法定理
4-2-4 独立と従属
4-2-5ベイズの定理
Practice 練習問題4-1
練習問題4-2
練習問題4-3
4-3確率変数と確率分布
4-3-1 確率変数、確率関数、分布関数、期待値
4-3-2 さまざまな分布関数
4-3-3カーネル密度関数
Practice 練習問題4-4
練習問題4-5
練習問題4-6
4-4 応用:多次元確率分布
4-4-1 同時確率関数と周辺確率関数

Practice 練習問題 5-1
練習問題5-2
練習問題5-3
5-2-2Numpyの演算処理
Practice 練習問題 5-4
練習問題5-5
練習問題 5-6
5-2- 3配列操作とブロードキャスト –
Practice 練習問題 5-7
練習問題5-8
練習問題5-9-1
5-3 Scipyを使った計算の応用
5-3-1 補間
5-3-2 線形代数:行列の分解
Practice 練習問題5-10・
練習問題5-11
練習問題 5-12
練習問題5-13
練習問題5-14
5-3- 3積分と微分方程式
Practice 練習問題5-15・
練習問題 5-16
5-3-4 最適化
Practice 練習問題 5-17
練習問題 5-18
Practice 5章総合問題

Chapter 6 Pandasを使ったデータ加工処理
6-1 概要と事前準備
6-1-1 この章で使うライブラリのインポート
6-2 Pandasの基本的なデータ操作
6-2-1 階層型インデックス
Practice 練習問題6-1
練習問題6-2
練習問題6-3
6-2-2データの結合
Practice 練習問題6-4
練習問題6-5
練習問題6-6
6-2-3 データの操作と変換
Practice 練習問題6-7
練習問題6-8
練習問題6-9
6-2-4データの集約とグループ演算
Practice練習問題6-10
練習問題6-11
練習問題6-12
6-3欠損データと異常値の取り扱いの基礎
6-3-1欠損データの扱い方
Practice 練習問題6-13
練習問題6-14
練習問題6-15
6-4時系列データの取り扱いの基礎
6-3-2 異常データの扱い方
6-4-1 時系列データの処理と変換
Practice 練習問題6-16
6-4-2移動平均
Practice 練習問題6-17
Practice6章総合問題

塚本邦尊 (著), 山田典一 (著), 大澤文孝 (著), 中山浩太郎 (監修), 松尾 豊[協力] (その他)
出版社: マイナビ出版 (2019/3/14)、出典:出版社HP

Chapter 7 Matplotlibを使ったデータ可視化
7-1データの可視化
7-1- 1データの可視化について
7-1-2 この章で使うライブラリのインポート
7-2データ可視化の基礎
7-2-1 棒グラフ
7-2-2 円グラフ
Practice 練習問題7-1
練習問題7-2
練習問題7-3
7-3応用:金融データの可視化
7-3-1 可視化する金融データ
7-3-2 ローソクチャートを表示するライブラリ
7-4応用:分析結果の見せ方を考えよう
7-4-1 資料作成のポイントについて
Practice 7章 総合問題
Column 移動平均時系列データと対数時系列データ

Chapter 8 機械学習の基礎(教師あり学習) –
8-1機械学習の全体像
8-1-1機械学習とは・
8-1-2教師あり学習・・・
8-1-3 教師なし学習
8-1-4 強化学習
8-1-5 この章で使うライブラリのインボート
8-2重回帰
8-2-1 自動車価格データの取り込み
8-2-2データの整理
8-2- 3モデル構築と評価
8-2-4モデル構築とモデル評価の流れのまとめ・・
8-3ロジスティック回帰
Practice 練習問題8-1 –
8-3-1 ロジスティック回帰の例
8-3-2データの整理・
8-3-3モデル構築と評価
8-3-4スケーリングによる予測精度の向上
Practice 練習問題8-2
練習問題8-3
8-4正則化項のある回帰:ラッソ回帰、リッジ回帰
8-4-1ラッソ回帰、リッジ回帰の特徴
8-4-2重回帰とリッジ回帰の比較
Practice 練習問題8-4
8-5決定木
8-5-1キノコデータセット
8-5-2データの整理・・・・・・
8-5-3エントロピー:不純度の指標
8-5-4 情報利得:分岐条件の有益さを測る
8-5-5決定木のモデル構築
Practice 練習問題8-5
8-6k-NN(k近傍法)
8-6-1k-NNのモデル構築
Practice 練習問題8-6
練習問題8-7
8-7サポートベクターマシン・
8-7-1 サポートベクターマシンのモデル構築
Practice 練習問題8-8
Practice 8章総合問題

Chapter 9 機械学習の基礎(教師なし学習)
9-1 教師なし学習
9-1-1 教師なしモデルの種類
9-1-2 この章で使うライブラリのインポート
9-2クラスタリング、
9-2-1k-means法
9-2-2k-means法でクラスタリングする
9-2-3金融マーケティングデータをクラスタリングする
9-2-4エルボー法によるクラスター数の推定
9-2-5クラスタリング結果の解釈
9-2-6 k-means法以外の手法
Practice 練習問題 9-11
9-3主成分分析
9-3-1 主成分分析を試す
9-3-2 主成分分析の実例
Practice 練習問題9-2
9-4マーケットバスケット分析とアソシエーションルール
9-4-1マーケットバスケット分析とは
9-4-2 マーケットバスケット分析のためのサンプルデータを読み込む
9-4-3 アソシエーションルール
Practice 9章 総合問題

Chapter 10 モデルの検証方法とチューニング方法
10-1モデルの評価と精度を上げる方法とは
10-1-1 機械学習の課題とアプローチ
10-1-2 この章で使うライブラリのインポート
10-2 モデルの評価とパフォーマンスチューニング
10-2-1 ホールドアウト法と交差検証法
Practice 練習問題10-1
10-2-2 パフォーマンスチューニング:ハイパーパラメータチューニング
Practice 練習問題10-2
10-2-3 パフォーマンスチューニング:特徴量の扱い
10-2-4 モデルの種類
10-3モデルの評価指標
10-3-1 分類モデルの評価:混同行列と関連指標
Practice 練習問題10-3
10-3-2 分類モデルの評価:ROC曲線とAUC
Practice 練習問題10-4
10-3-3回帰モデルの評価指標
10-4アンサンブル学習
10-4-1 パギング
Practice 練習問題10-5
10-4-2ブースティング
Practice 練習問題 10-6
10-4-3 ランダムフォレスト、勾配ブースティング
10-4-4今後の学習に向けて
Practice 練習問題10-7
Practice 10章総合問題

Chapter 11 総合演習問題
11-1慧合演習問題
11-1-1 総合演習問題 (1)
11-1-2 総合演習問題 (2)
11-1-3 総合演習問題 (3)
11-1-4 総合演習問題 (4)
11-1-5 総合演習問題 (5)
11-1-6 総合演習問題 (6)
11-1-7 参考:今後のデータ分析に向けて

Appendix
A-1 本書の環境構築について
A-1-1 Anacondaについて
A-1-2 Anacondaのパッケージをダウンロードする
A-1-3 Anacondaをインストールする。
A-1-4 pandas-datareaderおよびPlotlyのインストール
A-2 練習問題解答
A-2-1 Chapter1 練習問題
A-2-2 Chapter2 練習問題
A-2-3 Chapter3 練習問題
A-2-4 Chapter4 練習問題
A-2-5 Chapter5 練習問題
A-2-6 Chapterb 練習問題
A-2-7 Chapter7 練習問題
A-2-8 Chapter8 練習問題
A-2-9 Chapter9 練習問題
A-2-10Chapter10 練習問題
A-2-11 Chapter11 総合演習問題
Column ダミー変数と多重共線性
A-3参考文献・参考URL
A-3-1 参考文献
A–3-2 参考URL
おわりに
Index

塚本邦尊 (著), 山田典一 (著), 大澤文孝 (著), 中山浩太郎 (監修), 松尾 豊[協力] (その他)
出版社: マイナビ出版 (2019/3/14)、出典:出版社HP

本書のサポートサイト

本書で使用されているサンプルファイルや特典ダウンロード付録を掲載しております。訂正・補足情報についてもここに掲載していきます。

●サンプルファイルのダウンロードにはインターネット環境が必要です。
●サンプルファイルはすべてお客様自身の責任においてご利用ください。サンプルファイルおよび動画を使用した結果で発生したいかなる損害や損失、その他いかなる事態についても、弊社および著作権者は一切その責任を負いません。
●サンプルファイルに含まれるデータやプログラム、ファイルはすべて著作物であり、著作権はそれぞれの著作者にあります。
本書籍購入者が学習用として個人で開覧する以外の使用は認められませんので、ご注意ください。営利目的・個人使用にかかわらず、データの複製や再配布を禁じます。
●本書に掲載されているサンプルはあくまで本書学習用として作成されたもので、実際に使用することは想定しておりません。ご了承ください。
ご注意
●本書での説明は、Anaconda3とJupyter Notebookで行っています。
●WebブラウザはChromeを使用しています。環境が異なると表示が異なったり、動作しない場合がありますのでご注意ください。
●本書での学習にはインターネット環境が必要です。
●本書の誤字脱字などについては、ご指摘・ご連絡ください(https://book.mynavi.jp/inquiry/)
●本教材の動作については、環境によってはすべて実行できないこともあります。あらかじめご了承ください。
●本書に登場するソフトウェアやURLの情報は、2019年2月段階での情報に基づいて執筆されています。執筆以降に変更されている可能性があります。
●本書の制作にあたっては正確な記述につとめましたが、著者や出版社のいずれも、本書の内容に関して何らかの保証をするものではなく、内容に関するいかなる運用結果についても一切の責任を負いません。あらかじめご了承ください。
●本書中の会社名や商品名は、該当する各社の商標または登録商標です。本書中ではおよび®️は省略させていただいております。

目次 – RとPythonで学ぶ[実践的]データサイエンス&機械学習

実践的、実用的な1冊

解説書で多く見受けられる既に完璧な状態でのデータの分析でなく、そもそもデータの加工や見方など、モデリングの意味のために分かりやすく書かれています。RやPythonの入門としても分かりやすく丁寧に解説しており使った方が無い方でもこれらのテーマと一緒に学ぶことができます。

・本書で使用しているサンプルスクリプトおよびサンプルデータ
・Anacondaのインストール
・RとRStudioのインストール
・RStudioの使い方
・Anacondaでのライブラリ追加方法
・JupyterNotebookの使い方

ダウンロードするには、本書サポートページの該当箇所で以下のパスワードを入力してください。RtoPythonDataScience2019【すべて半角】

■ 本書サポートページ
https://gihyo.jp/book/2019/978-4-297-10508-2
本書に記載された内容は、情報の提供のみを目的としています。したがって、本書を用いた開発、運用は、必ずお客様自身の責任と判断によって行ってください。これらの情報による開発、運用の結果について、技術評論社および著者はいかなる責任も負いません。

本書記載の情報は、2019年2月現在のものを掲載していますので、ご利用時には、変更されている場合もあります。また、ソフトウェアに関する記述は、特に断わりのないかぎり、2019年2月時点での最新バージョンをもとにしています。ソフトウェアはバージョンアップされる場合があり、本書での説明とは機能内容などが異なってしまうこともあり得ます。本書ご購入の前に、必ずバージョン番号をご確認ください。

以上の注意事項をご承諾いただいたうえで、本書をご利用願います。これらの注意事項をお読みいただかずに、お問い合わせいただいても、技術評論社および著者は対処しかねます。あらかじめ、ご承知おきください。

本文中に記載されている会社名、製品名などは、各社の登録商標または商標、商品名です。会社名、製品名については、本文中では、TM、C、Rマークなどは表示しておりません。

はじめに

データサイエンスや統計解析、機械学習についての解説、RやPythonを使った実行、実装の方法については、すでに優れた多くの書籍が出版されています。これらの理論や実際の操作を知るだけならば、特に目新しい解説書が必要ということもないでしょう。

ただし、アカデミックな教科書や理論書の多くは、分析のために採取されたデータを扱う前提で書かれています。一方、ビジネスの場面で遭遇するのは、業務を遂行する中で「たまった」データを使いたいという要望です。実務における分析では、統計の理論や実行の方法だけでなく、雑多なデータ項目の中で何を使ってよいのか、何を入れてはいけないのか、そのまま入れてもよいのか、いけないとしたらどうすべきか、といったことを判断できる知識が必要です。

また、機械学習の実践的な方法についても多くの良書が出版されています。ただし、機械学習が重視するのは「予測」であり「機械による判断」です。予測や自動的な判断は、データサイエンスに対して企業が求めるニーズの一部です。分析者は、統計解析と機械学習の違いや、それぞれで何ができるのか、何ができないのかを知っておく必要があります。

現在のところ、これらのポイントをデータサイエンスの初心者や初級者向けに解説した書籍は少ないように思います。そして、これを理解するには、統計モデルそのものの意味やさまざまな制約を知っておく必要があります。

そこで、この本が重視しているのは以下の3点です。
・統計的なモデリングとは何なのかを直感的に理解できるようにする
・モデルに基づく要因の分析と予測の違いを理解できるようにする
・実際にモデルを作ったり、結果を解釈したりする際の落とし穴にはまらないようにする

本書は、株式会社野村総合研究所のシステムコンサルティング事業本部で実施している「アナリティクス研修」の一部を整理し、これに必要な情報を補足しつつ書籍化したものです。

研修を実施する中で実感したのは、技術的に十分な知識を身につけている人でも、現実のデータに直面すると簡単な回帰分析すらできないことがあるという事実です。これはなぜだろうという疑問もまた本書を執筆するひとつのきっかけになりました。

ボリュームや準備時間の関係で、すべての研修メニューを書籍化することは残念ながら断念せざるを得ませんでした。やむなく割愛した中には、表計算ソフトウェアを使った簡単な実習、ビジネス上の課題を想定したディスカッション、協調フィルタリングとアソシエーションルールの解説、時系列分析の解説、数理最適化や強化学習を含む最適化手法の解説、オープンデータを利用した総合演習などが含まれています。

一方、実務で遭遇するデータ品質の問題や加工のポイント、回帰モデル、決定木、クラスタリング、次元削減、いくつかの教師あり学習の手法とディープラーニングまで、主要な内容はほぼ盛り込むことができました。データからモデルを作り、そこからなんらかの結果を得るという基本的な手順を体験する目的であれば、必要最低限の内容を網羅しているはずです。

原稿の執筆にあたっては、研修で説明している内容、特に「枝葉」の部分に相当する(しかし重要な)ポイントをできるだけ取りこぼさないように注意しました。また、研修ではセッションを区切ってパッチワークのように実演や実習を重ねていくことから、一般論から各論へとトップダウンに概念を整理して説明していくという形にはなっていません。その結果、書籍としては記述がやや冗長になったところは否めません。これを補う意味で、本文中にはキーワードによる参照を多く配置し、章の間の行き来が容易にできるようにしています。

データサイエンスの幅広い領域のすべてを本書がカバーすることはできませんが、自身で継続的・発展的な学習を進めていくための素養は、本書を一通り読めば身につけることができるでしょう。本書が、データサイエンスに関心のある多くの方にとって、学習の一助となれば幸いです。

2019年2月吉日
著者一同

有賀 友紀 (著), 大橋 俊介 (著)
出版社: 技術評論社 (2019/3/26)、出典:出版社HP

本書で扱う範囲

本書では、データサイエンスを以下のように捉えています。

1データの中から関連性を抽出し、現象の解明や要因の分析に役立つ知識を得る
2データに潜むなんらかの関連性をもとに予測(カテゴリの判別や数値の推定)を行う

上記の観点をもとに、本書では、基本的な統計解析の手法からディープラーニングまでを扱います。特に、統計的なモデルを作成する意味や、手法ごとの「考え方の違い」については詳細な説明を加えました。

本書で除外した項目もあります。データを蓄積し、必要に応じてさまざまな切り口で可視化するといったビジネスインテリジェンスの領域や、結果を最大化(最小化)する選択肢を知る、選択を自動的に行うといった最適化手法の領域は、本書では対象外としました。データベースの操作や大量のデータを扱う手法、非構造化データの処理といった、いわゆるデータエンジニアリングの領域についても対象外としています。

本書で使っている主なツールはRとPythonです。特に前半はR、後半はPythonの利用を前提としています。これは、両者がデータサイエンスの活用においてスタンダードとなっているツールであること、無償で入手できることが理由です。両者はそれぞれに向き・不向きがあるため、片方に寄せるということはしていません。特に入門編に相当する箇所では、RとPythonの両者をできるだけ比較できるような形でまとめています。

本書の構成

本書の構成は以下のとおりです。
第1章データサイエンス入門
第2章RとPython
第3章データ分析と基本的なモデリング
第4章実践的なモデリング
第5章機械学習とディープラーニング

付録ツールの準備と利用法【本書サポートページよりダウンロード可能】
第1章ではデータサイエンスについて、その概要を俯瞰します。

第2章では、RとPythonという2つのツールについて、その特徴と扱い方を解説します。データサイエンスそのものの内容からは少し離れ、RとPythonの基本的な文法やプログラミングを学習するための入門編とも言える内容となっています。この2つを使ったプログラミングについてすでに知っているという方は飛ばしていただいてもかまいません。

第3章と第4章では主に現象を説明するという観点で、統計的なモデリングの手法を解説します。モデリングを実際に行うためのツールとしてRを使用します。これは、「本書で扱う範囲」で述べた1の領域に対応します。第4章では特に、実務で重要となるデータ加工の考え方についてもページを割いて説明します。第4章の最後では、因果推論に関わる技法について説明を加えています。

第5章では予測を目的とした機械学習の手法を解説します。モデリングを実際に行うためのツールとしては、Pythonを使用します。これは、「本書で扱う範囲」で述べた2の領域に対応します。

RやPythonを実行する環境はさまざまですが、パーソナルコンピュータ上でこれらを扱う場合、RについてはRStudio、PythonについてはAnacondaとJupyterNotebookを使うのが便利でしょう。これらのインストール方法と基本的な使い方についての解説は、付録で記述しています(「本書の付属データのダウンロードについて」に記載している本書サポートページからダウンロードしてください)。第2章以降の学習を進める際に参照してください。

サンプルスクリプトとサンプルデータ
本書で利用するサンプルスクリプトとサンプルデータは、本書サポートページからダウンロードできます。ダウンロード方法については、「本書の付属データのダウンロードについて」を参照してください。本書で利用しているツール類のインストール方法を解説したPDFもダウンロードできます。提供するサンプルデータは、以下のいずれかに該当します。

・架空のデータとしてゼロから作成したもの
・現実のデータの特徴(分布、相関関係など)を参考にしながら、架空のデータとして作成したもの

なお、第3章(3.1.4項)と第4章(4.3.2項)で使用する東京都の自治体の指標については、政府が提供するe-StatのWebサイト(https://www.e-stat.go.jp/)から入手したデータをもとに、指標を加工・再作成したものです。実際のデータとは異なるのでご注意ください。

●本書サンプルの動作環境
本書のサンプルスクリプトは、実行環境としてRStudioおよびJupyterNotebookの利用を前提としています。これらの実行環境は、Windows10/Windows8/Windows7、macOS、Linuxに対応しています。

なお、サンプルスクリプトの最終的な動作確認は以下の環境で行なっています。
第2章~第4章•Windows7(64bit)、R3.5.2、RStudio1.1.463
•Windows7(64bit)、Anaconda3(64bit)、JupyterNotebook5.6.0、Python3.7.0
第5章
•Windows7(64bit)、Anaconda3(64bit)、JupyterNotebook4.2.1,Python3.6.0

謝辞

本書の上梓に尽力くださった野村総合研究所の和田充弘さん、技術評論社の取口敏憲さん、風工舎の川月現大さん、そして本書の査読を快く引き受けて頂いた野村総合研究所の福島健吾さんに御礼を申し上げます。

有賀 友紀 (著), 大橋 俊介 (著)
出版社: 技術評論社 (2019/3/26)、出典:出版社HP

目次

第1章 データサイエンス入門
1.1 データサイエンスの基本
1.1.1 データサイエンスの重要性
1.1.2 データサイエンスの定義とその歴史
(1) データサイエンスの定義
(2) データサイエンスのルーツ
(3) データマイニング、そしてビッグデータ
(4) 機械学習
(5) 統計学からデータサイエンスへ
(6) 検索ワードで見るデータサイエンス
1.1.3 データサイエンスにおけるモデリン
(1) 統計モデル
(2) データサイエンスにおけるモデリング
(3) 統計モデルの活用
1.1.4 データサイエンスとその関連領域
(1) データサイエンスの領域
(2) データサイエンスとAI
(3) データサイエンスとBI
1.2 データサイエンスの実践
1.2.1 データサイエンスのプロセスとタスク
(1) CRISP-DM
(2) 6つのフェーズとその進め方
(3) その他のフレームワーク
1.2.2 データサイエンスの実践に必要なツール
(1) ツールの分類
(2) Excelを使ったデータ分析
(3) 専用の商用パッケージ
(4) R、Pythonなどのプログラミング言語
(5) クラウド型の商用サービス
1.2.3 データサイエンスの実践に必要なスキル
(1) スキルの多様化
(2) ビジネス、データサイエンス、データエンジニアリング
(3) チームワークの重要性
1.2.4 データサイエンスの限界と課題
(1) データサイエンスの限界
(2) データサイエンスと法・倫理 コラム ビジネス活用における留意点

第2章 RとPython
2.1 RとPython
2.1.1 RとPythonの比較
(1) 分野とユーザーの違い
(2) 基本機能とライブラリ
(3) 統計解析での利用
(4) 機械学習での利用
(5) 扱いやすさ
2.2 RAP!
2.2.1 Rの概要
(1) Rの特徴
(2) Rの実行環境
(3) 関数
(4) ベクトル処理
2.2.2 Rの文法
(1) 算術演算とオブジェクトへの格納
(2) ベクトル
(3) 論理演算
(4) 型と構造の確認
(5) ベクトルの内容を取り出す
(6) ベクトルへの要素の追加
(7) 行列(マトリクス)
(8) 関数の作成
2.2.3 データ構造と制御構造
(1) データの構造
(2) オブジェクトの型
(3) 制御構造
2.3 Python入門
2.3.1 Pythonの概要
(1) Pythonの特徴
(2) Pythonの実行環境
(3) オブジェクト指向
(4) 拡張ライブラリ
2.3.2 Pythonの文法
(1) 算術演算とオブジェクトへの格納
(2) print() の使い方
(3) リスト
(4) 論理演算
(5) 型の確認
(6) リストの内容を取り出す
(7) タプル
(8) ディクショナリー
2.3.3 Pythonでのプログラミング
(1) プログラムの記法
(2) 関数の作成
(3) 条件分岐
(4) 繰り返し(ループ) 処理
(5) クラスとメソッド
2.3.4 NumPyとpandas
(1) NumPy
(2) pandas
2.4 RとPythonの実行例の比較
2.4.1 簡単な分析の実行例

第3章 データ分析と基本的なモデリング
3.1 データの特徴を捉える
3.1.1 分布の形を捉える ――ビジュアルで の確認
(1) ヒストグラムと密度プロット
(2) 密度プロットの意味
(3) Rでの実行
(4) グループ間の比較とボックスプロット
3.1.2 要約統計量を算出する —— 代表値と ばらつき
(1) 代表値
(2) ばらつきの指標
(3) 分布の偏り
(4) Rでの要約統計量の算出
3.1.3 関連性を把握する一 相関係数の使い方と意味
(1) 関連性の把握
(2) 相関係数の使い方
(3)相関と因果
(4) 相関係数の数学的な意味
3.1.4 Rを使った相関分析 —— 自治体のデータを使った例
(1) 分析の目的
(2) データの準備と加工
(3) Rでの実行
3.1.5 さまざまな統計分析 ― 理論と実際の考え方
(1) 分布の見た目
(2) さまざまな統計分布
(3) 実際のデータ分析での考え方
3.2 データからモデルを作る
3.2.1 目的変数と説明変数 —— 説明と予測 の「向き」
(1) モデリングにおける変数の扱い
(2) 目的変数
(3) 説明変数
(4)説明・予測の向き
3.2.2 簡単な線形回帰モデル —— Rによる 実行と結果
(1) 勤続年数によって残業時間はどの程度増えるか、減るか
(2) 線形回帰モデル
(3) Rを使った線形回帰モデルの作成
(4) 詳細情報の表示 3.2.3 ダミー変数を使ったモデルグループ間の差異を分析
(1) カテゴリとダミー変数
(2) ダミー変数を使った回帰モデル
(3) ダミー変数を使った回帰モデルの解釈
(4) 平均値の差の検定
3.2.4 複雑な線形回帰モデル ―― 交互作用、モデル間の比較
(1) 複数の要因を考慮する
(2) モデリングにおける想定
(3) 交互作用項を加える
(4) 交互作用の意味
(5) 回帰モデルの比較
(6) モデルの解釈
3.2.5 線形回帰の仕組みと最小二乗法
(1) 回帰モデルと説明・予測の向き
(2) 実測値と残差
(3) 最小二乗法
(4) 線形回帰におけるモデリング
3.3 モデルを評価する
3.3.1 モデルを評価するための観点
3.3.2 この結果は偶然ではないのか? 有意確率と有意差検定
(1) 母集団とサンプリング
(2) 有意確率についての留意点
(3) Rを使った有意差検定
(4) 有意確率と効果量
3.3.3 モデルはデータに当てはまっているか? ―― フィッティングと決定係数
(1) 決定係数
(2) 決定係数の性質
(3) 決定係数と有意確率の関係
(4)尤度に基づく指標
(5) そのほかの考え方
3.3.4 モデルは複雑すぎないか? オーバーフィッティングと予測精度
(1) モデルの複雑さ
(2) オーバーフィッティング
(3) AIC(赤池情報量基準)
(4) 正則化
(5)予測精度
(6) 予測精度の指標
(7) 予測精度を確認する
3.3.5 残差の分布 —— 線形回帰モデルと診 断プロット
(1) 残差の分布
(2)線形回帰の診断プロット
3.3.6 説明変数同士の相関― 多重共線性
(1) 多重共線性
(2) VIFの確認
(3) 多重共線性と交互作用
(4) 交互作用項と中心化
(5) ダミー変数とVIF
3.3.7 標準偏回帰係数
(1) 説明変数の効果をどう測るか
(2)標準化と標準偏回帰係数
(3) Rでの標準偏回帰係数の算出

有賀 友紀 (著), 大橋 俊介 (著)
出版社: 技術評論社 (2019/3/26)、出典:出版社HP

第4章 実践的なモデリング
4.1 モデリングの準備
4.1.1 データの準備と加工
(1) データの準備
(2) データのクレンジングと加工
4.1.2 分析とモデリングの手法
(1) 関連性の分析
(2) グループ化
(3)現象の説明、要因の分析
(4)結果の予測
(5) 次元の削減
4.2 データの加工
4.2.1 データのクレンジング
(1) 数値が文字列として格納されている
(2) 行(レコード)と列(フィールド)がうまく分割されていない
(3) 論理的におかしい数字がある、特定の値が不自 然に多い
(4) 文字列を記録している項目で、表記が一致していない
(5)扱いづらい記述形式
(6) 不要な項目、重複した項目など
(7) 長すぎる名称
(8) 欠損値がある
(9) 外れ値がある
(10) ケースごとに固有のID
4.2.2 カテゴリ変数の加工
(1) カテゴリ変数と水準
(2) 分類の基準を変える
(3) 別の変数への置き換え
(4) ダミー変数に展開する際のベースライン
(5) 複数のカテゴリ変数間で重複する水準の扱い
4.2.3 数値変数の加工とスケーリング
(1) 数値変数の加工と留意点
(2) 単純なスケーリング
(3) スケーリングの手法
4.2.4 分布の形を変える ―― 対数変換とロジット変換
(1) 対数関数による変換
(2) ロジット関数による変換
(3) 対数変換を使った回帰モデル
4.2.5 欠損値の処理
(1) 欠損値の扱い
(2) 欠損値の処理方法(除外)
(3) 欠損値の処理方法(代入)
(4) 欠損値発生のメカニズムと対処方法
4.2.6 外れ値の処理
(1) 外れ値がもたらす問題
(2) 外れ値の定量的な評価
(3) 分布の変換と外れ値
(4) 外れ値の影響を受けにくい分析手法
4.3 モデリングの手法
4.3.1 グループに分ける ― クラスタリング
(1) 「分類する」ということ
(2) クラスタリングの仕組み
(3) クラスタリング時の注意——標準化、変数の集
(4)階層型クラスタリング
(5) 非階層型クラスタリング(k平均法)
(6) 散布図の描画
(7) クラスタリングの利用局面
4.3.2 指標を集約する —— 因子分析と主成分分析
(1) モデルの次元
(2) 因子分析
(3) 主成分分析
(4) 因子分析と主成分分析の使い分け
(5) 次元削減
(6) Rを使った因子分析
(7) 因子分析の結果の解釈
(8) 因子得点に基づくクラスタリング
(9) Rを使った主成分分析
(10) 主成分得点に基づくクラスタリング
(11) 算出された指標値の保存
(12) 回帰分析への応用
(13) 因子分析、主成分分析の利用局面
4.3.3 一般化線形モデル(GLM)とステッ プワイズ法
(1) 線形回帰モデルが適用できない場合
(2) 一般化線形モデル (GLM)
(3) GLMの必要性
(4) ステップワイズ法による変数選択
4.3.4 2値データを目的変数とする分析 – ロジスティック回帰
(1) 0か1かの判別
(2) ロジスティック回帰の仕組み
(3) Rによるロジスティック回帰
(4) 予測値の算出についての注意
(5) ロジスティック回帰の利用局面
4.3.5 セグメントの抽出とその特徴の分析 ―決定木
(1) 数式を使わないモデリング
(2) Rを使った決定木の作成
(3) 決定木による予測値の算出
(4) 決定木の利用局面
4.4 因果推論
4.4.1 データから因果関係を明らかにする統計的因果推論
(1) 統計的因果推論
(2) 実験計画法とランダム化比較試験(RCT)
(3) 回帰不連続デザイン
(4) バックドア基準
(5)傾向スコア
(6) 操作変数
(7) 構造方程式モデリング
(8) LINGAM
4.4.2 因果関係に基づく変数選択
(1) 偏回帰係数は何を示しているのか
(2) 事例:何を説明変数とすべきか
(3) 共通の要因(交絡変数)
(4) 合成された結果(合流点)
(5) 途中に位置する変数(中間変数)
(6) バックドア基準と因果推論

第5章 機械学習とディープラーニング
5.1 機械学習の目的と手順
5.1.1 機械学習の基本
(1) 機械学習とは
(2) 機械学習の目的
(3) 学習とフィッティング
(4) 教師あり学習とそのアルゴリズム
(5) 教師なし学習とそのアルゴリズム
(6) そのほかの機械学習
5.1.2 機械学習の手順
(1) データ分割(split)
(2) 学習(fit)
(3) 予測(predict)
(4) 評価 (validation/test)
(5) チューニング
5.1.3 データの準備に関わる問題
(1) 学習データの問題
(2) 半教師あり学習と能動学習
5.1.4 特徴抽出と特徴ベクトル
(1) 特徴ベクトルの必要性
(2) 特徴ベクトルの作り方
コラム 機械学習と強化学習
5.2 機械学習の実行
5.2.1 機械学習ライブラリの活用――scikit-learn
5.2.2 機械学習アルゴリズムの例 ―― ランダムフォレスト
(1) ランダムフォレストの仕組み
(2) ランダムフォレストの主要なハイパーパラメータ
(3) 説明変数の重要度の算出
5.2.3 機械学習アルゴリズムの例 ―― サポートベクターマシン(SVM)
(1) SVMの仕組み
(2) ハイパーパラメータなどの設定
5.2.4 機械学習の実行例
(1) 初期処理(ライブラリ読み込みなど)
(2) データの取り込み、データ分割
(3) 教師ラベルの加工
(4) カテゴリ変数のダミー変数化
(5) 標準化
(6) チューニングと検証データを用いた評価
(7) モデルの選択
(8) テストデータを用いた評価
(9) ドメイン知識の活用
(10) まとめ
5.3 ディープラーニング
5.3.1 ニューラルネットワーク
(1) 基本原理
(2) 普遍性定理
5.3.2 ディープラーニングを支える技術
(1) ディープなネットワーク構造の実現
(2) 大規模データへの対応・高速演算の実現
(3) 特徴量抽出機能の実現
5.3.3 ディープラーニング・フレームワー
(1) TensorFlow
(2) Keras
(3) PyTorch、Chainer
(4) MXNet、Microsoft Cognitive Toolkit
5.3.4 ディープラーニングの実行
(1) 初期処理(ライブラリ読み込みなど)
(2) ネットワーク構造の定義
(3) モデルのコンパイル
(4) 学習の設定と実行
(5) ネットワーク構造のチューニング
(6) 結果の評価と考察
5.3.5 生成モデル
(1) 生成モデルとは
(2) 生成モデルの抱える課題
(3) 生成モデルの主な用途
参考文献
索引

有賀 友紀 (著), 大橋 俊介 (著)
出版社: 技術評論社 (2019/3/26)、出典:出版社HP

目次 – データサイエンス教本 Pythonで学ぶ統計分析・パターン認識・深層学習・信号処理・時系列データ分析

データサイエンス本格的な1冊

データサイエンスの理論がわかりやすくまとめられています。工学分野も含まれており、内容はかなり網羅されています。ただ、統計手法の確認のためにPythonを利用しているだけですので、Pythonを一から学びたいという方向けではありません。

― 序 ―

人は大昔より,言い当てることが好きである。言い当てることには,次のようなものがある。

  • 性格判断:あなたは几帳面でしょう,優しい人が似合うでしょう
  • 予言:今年の夏の天候は穏やかで秋は豊作でしょう, 為替相場は上昇するでしょう
  • ギャンブル:次はサイコロの目は6が出るでしょう,プラン A とプラン B のうち前者が

きっとうまくいくでしょう

  • 目利き:このスイカは見た目で甘いとわかります,この商品はきっと売れるでしょう

このようなことを実施するのに,科学的方法(第1章 1.1 節参照)を用いて,何かに役立たせることを目的とするのがデータサイエンスであり,そのような知識とスキルを発揮できる人間をデータサイエンティストと称している。第1章 1.1 節に書いたように,対象分野 が幅広いうえに,目的や課題設定, データの収集法と分析・評価,その結果のまとめをどのように意思決定に繋げるか,これらを考えられるのが真の意味でのデータサイエンティストといえるであろう。ただ,そのような人材があまりに少ないという声が上がっている。読者自身も,あまりに学ぶ項目が多すぎて迷われているのではと拝察する。

『言葉のイメージを正しく掴むことが,正しい学習に導く』
筆者らは,正しい学習法の第1歩はこのことにあるという立場に立つ。ところが,分野や文脈により,同じ用語でも異なるイメージがある,この逆に,同じようなイメージではあるが,異なる用語を用いている,ということもある。データサイエンスが幅広い分野を扱うということは,多様な分野と,その歴史に基づく文脈(言い回し)が多数あり,これらの概念やイメージの正しい初端を早く知ることが学習にとって大事になるであろう。

同じ用語であっても異なるイメージを有する例として,本文では触れていないが,モデル (model)という用語がある。身近なものでは,ファッションモデル, プラモデルがある。ファッションモデルは,服飾デザイナーの理想化を抽象化して得られたスタイルを体現する職業人のことを指している。プラモデルは、実存するもの,またはSF世界で存在するものを身近に扱えるようにサイズを縮尺してプラスチック性材料で成形したものである。システム工学論では,実存するものをシステムと称し,これを人間が扱いやすくするために近似したものをモデルと称している。

前者の二つは手に取って触れることができるが,後者は触れることができないので,モデルと聞いただけは,モデルのイメージの取り方は異なる。モデルとは,対象のある一面だけに焦点をあてて,その本質やエッセンスだけを抜き出したものであり,概念的なもので あるから,人間がそれを具現化しようとイメージを思い浮かべる段階で異なる解釈が生まれるのは致し方がないことである。ただ,それでは学習には困る。

同じ用語であっても異なるイメージを有する二つめの例として,シミュレーションがある。これは,モデルができたならば,それを何らかの形で動かすことである。これと異なるイメージの代表例が,サッカーの世界での悪い行為を指す。また,先に述べたモデルの種類により,このシミュレーションが実体を扱うもの(航空会社パイロット養成用のフライトシミュレータ),仮想的に扱うもの(コンピュータ上だけで完結するもの)などがあり,分野により異なるイメージをもつ。
これらに対し,同じようなイメージであっても,異なる用語を用いる例を述べる。まず,モデルという用語は,分野や文脈が異なれば,メカニズム,因果性,原因と結果などの用語に変わる。また,本書で触れるものには次のようなものがある。

標本,サンプル,観測値,測定値,データ sample, observation, measurement, data
これらは,もちろん,その背景までに踏み込めばニュアンスは異なる。ところが,これらをモデルに落とし込む(または定式化ともいう)と,xやyという記号で表され,x と y だけで話を進めても支障がないことから,ある種の共通概念(共通イメージと捉えられても構わない)があることがわかる。
これら用語の違いを通して,これらの共通概念を形成できるというメタ学習が進めば,文脈から判断して,これらのどの用語でも内容を認知し,理解の促進が図られることは教育学の観点からいわれていることである。

このため,本書では第1章に「用語の違い」という項目を設けた。これ以外にも,本文中で,日本語の用語(英語からの翻訳された漢字やカタカナ用語も含めている)の背景にはどのような歴史や意味があるのかをていねいに書いたつもりである。これを読むことによって,本書の文章を読み進めるなかで再びその用語に出会ったとき、瞬間的に正しいイメージ(ただし,一つに限定する必要はない)ができるようにすれば,きっと学習効率は向上すると考える。また,分野や文脈により,用いる用語の候補が複数ある場合には,なるべく本文中に“標本(データともいう)”というかっこ付きの注釈を多用している。

データサイエンスが幅広い分野を扱うということは,その分野にある多様な文化に触れることになる。本書を通して、読者の方々に多様な文化に慣れ親しんでいただき,データサイエンティストになるきっかけを得ることができる,このことが本書に込めた願いである。

2018年10月
執筆者を代表して橋本洋志

目次

第1章 はじめに

1.1 データサイエンス概要
1.1.1 読み始める前に
1.1.2 データサイエンスとは
1.1.3 データサイエンスの領域と役割
1.1.4 データを見る眼を養う

1.2 Python とパッケージ
1.2.1 Python の導入
1.2.2 本書で用いるパッケージ
1.3 いくつかの決めごと
1.3.1 Notebook とスクリプト
1.3.2 モジュール名の省略語
1.3.3 ファイル名の省略
1.3.4 パッケージ関数の使用法の調べ方

1.4 クイックスタート
1.4.1 インストール
1.4.2 Jupyter Notebook・スクリプトの開発と実行方法
1.4.3 プログラムとデータの入手方法

1.5 Python で日本語を扱う
1.5.1 スクリプトに日本語を記述する
1.5.2 日本語を含むデータファイルを読む
1.5.3 matplotlib で日本語を表示する

1.6 用語の違い
1.6.1 説明変数 / 目的変数,入力 / 出力
1.6.2 サンプルとデータ
1.6.3 予測と推定
1.6.4 クラス分類
1.6.5 トレーニングデータ, テストデータ
1.6.6 オーバーフィッティング
1.6.7 分析
1.6.8 変数
1.6.9 相関と共分散

1.7 数学,数値計算,物理のことはじめ
1.7.1 数学のことはじめ
1.7.2 数値計算の問題
1.7.3 物理のことはじめ

第2章 データの扱いと可視化

2.1 データの種類

2.2 データの取得

2.3 データの格納
2.3.1 numpy.ndarray
2.3.2 pandas.DataFrame
2.3.3 numpy.ndarrayとpandas.DataFrame の変換

2.4 グラフの作成
2.4.1 matplotlib
2.4.2 複数のグラフ
2.4.3 Titanic(タイタニック号)のpandasプロット
2.4.4 Iris(アイリス)のseabornプロット
2.4.5 Iris データ

第3章 確率の基礎

3.1 確率とは

3.2 基本的用語の説明
3.2.1 離散確率変数
3.2.2 連続確率変数
3.2.3 確率密度関数,確率質量関数とパーセント点
3.2.4 母集団と標本
3.2.5 平均,分散,他の諸量
3.2.6 離散型の期待値と平均

3.3 正規分布
3.3.1 正規分布の表現
3.3.2 確率変数の生成
3.3.3 中心極限定理

3.4 ポアソン分布
3.4.1 ポアソン分布の表現
3.4.2 ポアソン分布の例
3.4.3 ポアソン到着モデルのシミュレーション
3.4.4 逆関数を用いた乱数生成

3.5 確率分布とパッケージ関数
3.5.1 ベルヌーイ分布(Bernoulli distibution)
3.5.2 二項分布(binomial distribution)
3.5.3 ポアソン分布(Poisson distribution)
3.5.4 カイ二乗分布(chi-squared distribution)
3.5.5 指数分布(exponential distribution)
3.5.6 F分布(F distribution)
3.5.7 正規分布(normal distribution)
3.5.8 t分布(t distribution)
3.5.9 一様分布(uniform distribution)

第4章 統計の基礎

4.1 統計とは

4.2 推 定
4.2.1 点推定
4.2.2 区間推定
4.2.3 母平均の信頼区間
4.2.4 母比率の信頼区間

4.3 仮説検定
4.3.1 仮説検定とは
4.3.2 片側検定と両側検定
4.3.3 母平均の検定
4.3.4 母分散の検定
4.3.5 2標本の平均の差の検定
4.3.6 相関,無相関の検定

第5章 回帰分析

5.1 回帰分析とは
5.1.1 回帰の由来
5.1.2 システム論から見た回帰分析
5.1.3 statsmodels

5.2 単回帰分析
5.2.1 単回帰分析の意義
5.2.2 単回帰モデルの統計的評価
5.2.3 家計調査
5.2.4 シンプソンのパラドックス
5.2.5 数学的説明

5.3 多項式回帰分析
5.3.1 多項式モデル
5.3.2 Rデータセットのcars

5.4 重回帰分析
5.4.1 F検定
5.4.2 多重共線性
5.4.3 電力と気温の関係
5.4.4 ワインの品質分析
5.4.5 数学的説明

5.5 一般化線形モデル
5.5.1 一般化線形モデルの概要
5.5.2 ポアソン回帰モデル
5.5.3 z = B₀の例
5.5.4 z = B₀ + B₁x₁ の例
5.5.5 ロジスティック回帰モデル
5.5.6 数学的説明

第6章 パターン認識

6.1 パターン認識の概要
6.1.1 パターン認識とは
6.1.2 クラス分類の性能評価
6.1.3 ホールドアウトと交差検証
6.1.4扱うパターン認識方法

6.2 サポートベクタマシン(SVM)
6.2.1 クラス分類とマージン最大化
6.2.2 非線形分離のアイディア
6.2.3 線形,円形,月形データのハードマージン
6.2.4 ソフトマージンとホールドアウト
6.2.5 交差検証とグリッドサーチ
6.2.6 多クラス分類

6.3 SVM の数学的説明
6.3.1 マージン最大化
6.3.2 カーネル関数の利用
6.3.3 ソフトマージン

6.4 k最近傍法(KNN)
6.4.1 アルゴリズムの考え方
6.4.2 ANN の基本的使い方
6.4.3 Iris データ
6.4.4 sklearn が用意している距離

6.5 k平均法
6.5.1 アルゴリズムの考え方
6.5.2 make-blobsを用いたクラスタリング
6.5.3 卸売業者の顧客データ
6.5.4 数学的説明

6.6凝集型階層クラスタリング
6.6.1 アルゴリズムの考え方
6.6.2 デンドログラム
6.6.3 富山県の市町村別人口動態

第7章 深層学習

7.1 深層学習の概要と種類
7.1.1 深層学習とは
7.1.2 深層学習の活用例
7.1.3 用語の説明

7.2 Chainer
7.2.1 概要とインストール
7.2.2 実行と評価
7.2.3 NN用スクリプトの説明

7.3 NN(ニューラルネットワーク)
7.3.1 概要と計算方法
7.3.2 NNスクリプトの変更

7.4 DNN(ディープニューラルネットワーク)
7.4.1 概要と実行
7.4.2 ファイルデータの扱い方

7.5 CNN(畳み込みニューラルネットワーク)
7.5.1 概要と計算方法
7.5.2 学習と検証
7.5.3 トレーニングデータの作成法

7.6 QL(Q ラーニング)
7.6.1 概要と計算方法
7.6.2 実行方法
7.6.3 瓶取りゲーム

7.7 DQN(ディープ Q ネットワーク)
7.7.1 概要
7.7.2 実行方法
7.7.3 瓶取りゲーム

第8章 時系列データ分析

8.1 動的システム
8.1.1 因果性と動的システム
8.1.2 動的システムの線形モデル
8.1.3 1次システムの時間応答
8.1.4 2次システムの時間応答

8.2 離散時間系
8.2.1 離散化
8.2.2 サンプリング時間の選定
8.2.3 離散時間系の差分形式の見方
8.2.4 遅延演算子 z⁻¹
8.2.5 離散時間モデル導入の問題設定

8.3 ARMA モデル
8.3.1 ARMA モデルの表現
8.3.2 可同定性とPE性の条件
8.3.3 入力信号の候補とB₀項の問題
8.3.4 ARMAモデルの安定性と性質
8.3.5 パラメータ推定

8.4 モデルの評価
8.4.1 モデル次数の選定とAIC
8.4.2 モデル次数の選定と極・零点消去法
8.4.3 残差系列の検定

8.5 ARMA モデルを用いた予測
8.5.1 予測の仕方

8.6 ARIMA モデル
8.6.1 トレンド
8.6.2 ARIMA モデルの表現
8.6.3 トレンドをもつ時系列データ分析

8.7 SARIMAXモデル
8.7.1 航空会社の乗客数
8.7.2 ほかの季節性データ

8.8 株価データの時系列分析
8.8.1 移動平均
8.8.2 ボリンジャーバンド
8.8.3 ローソク足チャート

第9章 スペクトル分析

9.1 基本事項
9.1.1 周波数とは、音を鳴らす
9.1.2 スペクトルとは

9.2 フーリエ変換
9.2.1 フーリエ変換とフーリエ逆変換
9.2.2 振幅,エネルギー,パワースペクトル

9.3 現実の問題点
9.3.1 サンプリング問題
9.3.2 エイリアシング
9.3.3 有限長波形の問題点

9.4 離散フーリエ変換(DFT)
9.4.1 DFTの表現
9.4.2 サイン波の DFT例
9.4.3 ゼロ埋込み

9.5 窓関数
9.5.1 窓関数の種類
9.5.2 窓関数の使用例
9.5.3 数学的表現

9.6 ランダム信号のパワースペクトル密度
9.6.1 パワースペクトル密度の表現
9.6.2 PSD は確率変数

第10章 ディジタルフィルタ

10.1 フィルタの概要
10.1.1 フィルタとは
10.1.2 フィルタ特性
10.1.3 デシベル [dB]

10.2 アナログフィルタの設計
10.2.1 バターワースフィルタ
10.2.2 チェビシェフフィルタ

10.3 ディジタルフィルタの設計
10.3.1 ディジタルフィルタの導入
10.3.2 ディジタルフィルタの構造
10.3.3 FIRフィルタ
10.3.4 IIRフィルタ
10.3.5 正規化角周波数

10.4 FIRフィルタの設計
10.4.1 窓関数を用いた設計法
10.4.2 設計例

10.5 IIRフィルタの設計
10.5.1 アナログフィルタに基づく方法
10.5.2 設計例

第11章 画像処理

11.1 画像処理の概要
11.1.1 表色系
11.1.2 数値としての表現
11.1.3 標本化と量子化
11.1.4 画像データの入手
11.1.5 OpenCV のドキュメント
11.1.6 実行方法

11.2 画像処理の例
11.2.1 2値化
11.2.2 エッジ検出
11.2.3 周波数フィルタリング
11.2.4 特徴点抽出

11.3 その他
11.3.1 カメラからの動画取得
11.3.2 オプティカルフロー
11.3.3 顔認識

参考文献

索引

第1章 はじめに

データサイエンスの意味,本書の決めごと,インストールやスクリプト実行の仕方を説明する。さらに,幅広い分野にまたがる本書での専門用語の使い方や, データサイエンスに必要とされる初歩的な数学,数値計算,物理の内容を説明する。

1.1 データサイエンス概要

1.1.1 読み始める前に 本書を読み始める前に次のことに注意されたい。

【注意事項】

  • インターネット接続は必須,プログラム実行時にデータをインターネット経由で取得するため。
  • Python 文法の説明は行わないので,他書を参照されたい。
  • スクリプト記述作法はていねいでなく,実行結果重視の書き方をしている。
  • パッケージの関数の詳細(意味,使い方など)は読者自身で調べられるようにしている。
  • 早く本題に入りたい人は、最低でも第1章「いくつかの決めごと」と「クイックスタート」を読まれたい。

1.1.2 データサイエンスとは
科学(science)とは,ある領域を対象にして科学的な方法(問題の発見,仮説の設定,それを測る手段,実験による観察・データなどに対する客観的な分析,考察,結論を導くこと)により知識体系を築き上げる研究活動をいう。この科学の意味に照らし合わせて,本書はデータサイエンス(data science)を次のよう