データサイエンス – ジョン・D・ケレハー (著), ブレンダン・ディアニー (著)

MIT出版の人気シリーズ

難しい数学や統計学の知識なしにデータサイエンスの中身を俯瞰するように構成されています。データ収集がどのようにされているのか、そこからの分析の仕方、そしてそれがどのように活用されるのかの一連の流れが本書では理解できます。実際にプログラミングをしながら学ぶ前に、一度バックグラウンドや知識をつけたいという方にフィットします。

 

目次

シリーズ序文
序文
謝辞
第1章:データサイエンスとは?
第2章:データとは何か? そしてデータセットとは何か?
第3章:データサイエンスのエコシステム
第4章:機械学習一入門編
第5章:標準的なデータサイエンスのタスク
第6章:プライバシーと倫理
第7章:今後の動向と成功の原則
用語集
注釈
参考文献
関連資料
索引

ジョン・D・ケレハー (著), ブレンダン・ディアニー (著), 今野紀雄(監訳) (その他), 久島聡子 (翻訳)
出版社: ニュートンプレス (2019/12/20)、出典:出版社HP

シリーズ序文

マサチューセッツ工科大学出版局エッセンシャルナレッジシリーズは、今注目を集めている話題をわかりやすく簡潔にまとめ,美しく装丁して読者にお届けします。一流の思想家を著者に迎え,本シリーズでは文化・歴史から科学技術まで,多岐にわたる分野について,専門家による意見をまとめています。

欲しい時にすぐに情報が手に入る今の時代,さまざまな意見 やそれらの正当化,そして,表面的な解説を見聞きするのは簡 単なことです。しかし,それよりはるかに難しいのは,世界を 本質的に理解する際の拠りどころとなる基礎知識の習得です。 エッセンシャル・ナレッジの書籍は,このニーズにお応えします。専門的なテーマを一般の読者にも理解できるようにまとめ, 基礎知識を通して重要な話題に関心をもたせます。コンパクトにまとまったシリーズ本を一冊一冊読み進めることで、読者は複雑な概念を理解する出発点に立つことができるでしょう。

マサチューセッツ工科大学
生物工学および情報科学教授
ブルース・ティダー

序文

データサイエンスの目的は,膨大なデータセットから得られ た情報に基づき物事の本質をとらえ,よりよい意思決定をする ことにあります。膨大なデータセットから明確ではなくても役 立つパターンを引き出すため,データサイエンスでは,方針を 立て、解決すべき課題を定義し,アルゴリズムを駆使し,デー タを処理します。データサイエンスは,データマイニングや機 械学習(ML)などの領域と密接に関連していますが,それよ りも広い範囲を網羅します。現在,データサイエンスは現代社 会のほぼすべての領域にわたり,意思決定に多大な影響を及ぼしており、人々の日常生活にもさまざまな影響を及ぼしていま す。例えば,インターネット上で表示される広告,映画や書籍 のおすすめ,知り合いの可能性がある人物の紹介,迷惑メール のフォルダに入れられる電子メール,携帯電話の契約を更新し た際に受ける優待,健康保険料,地域の交通信号が変わる順序 やタイミング,医薬品の創薬企画,町のどのエリアで警察が特 に集中的に警戒に当たるかなどが挙げられます。

データサイエンスの利用は一般社会にますます広がってお り,ビッグデータとソーシャルメディアの出現,計算能力のス ピードアップ, コンピューターメモリの価格の大幅な値下げ,ディープラーニング(深層学習)に代表される,より高性能な データ分析やモデリング手法の開発がこれを後押ししていま す。これらの要因を総合的に考慮すると,組織にとってデータ の収集,格納,処理がこれまでになく容易になったということ がわかります。同時に,前述の技術革新やより広範囲にわたる データサイエンスの応用によって,データの使用や個人のプラ イバシーに関する倫理的な課題を解決することが,いまだかつ てないほど急務となっています。本書の目的は,データサイエ ンスの原則を理解するために、基本的な要素を紹介することに あります。

第1章では,データサイエンスという分野を紹介し,どのよ うに発展し、進化してきたか,その歴史を概説します。また,デー タサイエンスが現代社会において重要である理由と,データサ イエンスの利用を促進する要因をいくつか検証します。章の終 わりでは,データサイエンスにまつわる神話を再検討し,真実に迫ります。

第2章では,データに関連する基本的な概念を紹 介します。また,データサイエンスのプロジェクトにおける標準的な段階である, ビジネスの理解,データの理解,データの 準備,モデリング,評価および展開について解説します。

第3章では、データのインフラストラクチャと,ビッグデータおよび複数のソース(情報源)から収集したデータの統合がもたらす課題に焦点を当てます。一般的なデータのインフラストラク チャについての最も困難な課題は,多くの場合,データベースやデータウェアハウスのデータが,データ分析に使用するサーバーとは別のサーバーに格納されているという点です。したがって,膨大なデータセットを処理する際,データベースまた はデータウェアハウスが格納されているサーバーと,データ分 析や機械学習に使用されるサーバー間のデータ移動に驚くほど 時間がかかることがあります。第3章の冒頭では,組織向けの 標準的なデータサイエンスのインフラストラクチャおよびデータのインフラストラクチャ内での大規模データセットの移動における課題を克服するために新たに考案された解決策を数例取 りあげます。解決策としては,データベース内機械学習の使用 Hadoop(ハドゥープ)を使用したデータ格納とデータ処理 従来型のデータベース・ソフトウェアとHadoopのようなソリューションをシームレスに統合するハイブリッド型データ ベースシステムの開発などが挙げられます。そして、組織全体のデータを機械学習に適した表現に統一する際のいくつかの課 題を取りあげて第3章を締めくくります。

第4章では,機械学習の分野を紹介し,ニューラルネットワーク, ディープラーニ ング,決定木モデルなど,最も一般的に普及している機械学習 のアルゴリズムやモデルについて解説します。

第5章では,多 岐にわたる一般的なビジネス上の問題について考察すること で,機械学習の専門性と現実社会の問題を結びつけ,機械学習 を利用したソリューションがそれらの問題をどのように解決できるかを解説します。

第6章では、データサイエンスの倫理的影響,最近のデータ規制の動向,データサイエンスのプロセス において個人のプライバシーを保護するための新たな計算処理 上のアプローチについて考察します。

最終章の第7章では,近い将来,データサイエンスが多大な影響が及ぼすと予測される いくつかの分野を取りあげ,データサイエンスのプロジェクトの成功を左右する重要な原則を詳述します。

謝辞

初期の草稿を読み,意見をくださったポール・マッケルロイ 氏とブライアン・リーヒ氏に感謝します。また,原稿について 詳細で有益なご意見をくださった匿名のレビュアーの方々,な らびに、マサチューセッツ工科大学出版局社員の皆様の支援と 指導に感謝します。
ジョンは、本書の執筆中に温かくサポートし,はげましてく れた家族と友人に感謝し、その愛情と友情をたたえた父ジョン・ バーナード・ケレハーに本書をささげます。

ブレンダンは,(4冊目にあたる)別の本の執筆,本業との 両立,旅行中と、常に支えてくれたグレース,ダニエル,エレ ノアに感謝します。

ジョン・D・ケレハー (著), ブレンダン・ディアニー (著), 今野紀雄(監訳) (その他), 久島聡子 (翻訳)
出版社: ニュートンプレス (2019/12/20)、出典:出版社HP