出版社内容情報
統計的なデータクリーニングシステムを構築するための包括的なガイド
データクリーニングとは、入手した原データを、分析に耐えうる品質にするために、エラーや矛盾する値を検出・修正し、欠測を補完する作業のことで、データ分析においてしばしば最も時間のかかるプロセスである。公的統計分野において、この分野は「データ編集」とも呼ばれ、この50年余に多くの知見が蓄積されてきたが、一般の統計のコミュニティにおける文献は多くない。
本書は、2013年に開催された世界規模のRユーザーカンファレンスであるuseR!2013において行われたデータクリーニングのチュートリアルがきっかけとなり,オランダ統計局の研究部門に所属する著者によって書かれている。近年のビックデータ時代の到来により、調査集計を行う公的統計部局は行政記録その他の幅広いデータを取り扱うようになるとともに、より広い分野においてもデータの入手が容易になったためにデータクリーニングの要請は広がり、公的統計分野での知見はより多くの分野で役立つ可能性を持っている。
著者は、本書で紹介されるデータ検証やエラーの局所化、エラー修正のための様々な方法や欠測値の補完といった様々なデータクリーニングのためのRのパッケージの多くを開発しており、実際に使用するためのコード例も豊富に掲載され、数値やテキスト、日付等のデータの取り扱いや、数値計算時の留意点など、プログラミングに関する内容も収録されている。
本書の特徴
データ分析を行う際に、しばしば最も手のかかるデータクリーニングに焦点を当て、理論とRによる実装の双方向から解説
アドホックで、データ毎に異なるカスタムメイドのクリーニングシステムではなく、汎用性を重視した構築の方法論も解説
データの矛盾を解消し、欠測を補完するための統計的手法、バッチ処理化やデータ変遷のモニタリングについても解説
〔原著〕Statistical Data Cleaning with Applications in R
内容説明
本書は、数値データやカテゴリデータ、文字列や日付といった様々なタイプのデータを含むファイルをクリーンにするために、公的統計の分野で長年培われてきた技術と理論を幅広くまとめ、汎用的なデータクリーニングシステムをRで構築する方法を紹介する書籍です。Rにおけるデータ表現やデータ構造に関連する技術面についても詳しく解説するとともに、個別のデータ項目に関する知識に基づくルールを用いて統計的にデータを検証し、複数の項目が絡むエラーがある場合に修正すべき最小限の項目を特定し、修正あるいは欠測の補完を行うための様々な方法論も説明しています。
目次
第1章 データクリーニング
第2章 R入門
第3章 データの技術的な表現
第4章 データ構造
第5章 テキストデータのクリーニング
第6章 データ検証
第7章 データレコード内のエラー局所化
第8章 ルール集合のメンテナンスと単純化
第9章 ドメイン知識のためのモデルベースの方法
第10章 補完と調整
第11章 事例:小規模なデータクリーニングシステム
著者等紹介
van der Loo,Mark[VAN DER LOO,MARK] [van der Loo,Mark]
オランダ統計局統計的方法論部門(Department of Statistical Methods)所属
de Jonge,Edwin[DE JONGE,EDWIN] [de Jonge,Edwin]
オランダ統計局統計的方法論部門(Department of Statistical Methods)所属
地道正行[ジミチマサユキ]
大阪大学大学院基礎工学研究科博士前期課程修了。博士(学術)。現在、関西学院大学商学部教授。専門:数理統計学、探索的データ解析
〓橋雅夫[タカハシマサオ]
筑波大学大学院システム情報工学研究科博士後期課程修了。博士(工学)。現在、長野大学企業情報学部教授。専門:統計(公的統計)、データサイエンス
藤野友和[フジノトモカズ]
岡山大学大学院自然科学研究科博士後期課程修了。博士(理学)。現在、福岡女子大学国際文理学部准教授。専門:計算機統計学
安川武彦[ヤスカワタケヒコ]
筑波大学大学院ビジネス科学研究科博士課程修了。博士(経済学)
和田かず美[ワダカズミ]
筑波大学大学院企業科学専攻システムズ・マネジメントコース満期退学。経営学修士(MBA)(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。