出版社内容情報
本書は,単にR を使ってインターネットからデータを収集・保存する方法を紹介した入門書ではなく,むしろその後の分析やレポート作成までのすべてのプロセスを効率化あるいは自動化する技法を実践的に解説した専門書である。分析に関連しては,データの前処理に役立つ正規表現や,ドキュメントから統計的な手法によって知見を引き出す技術であるテキストマイニングも取り上げられている。
本書の構成は大きく3つに分かれ,第1部では基本技術に焦点があてられている。R を利用することでWebスクレイピングとデータ操作は簡単に実現できるが,その背景技術について知識を深めておくと,構造の複雑なWebサイトに遭遇した場合でもデータをピンポイントに抽出できるようになる。続く第2部は,ここまで習得した技術の実践編となっており,現実に遭遇するケースのそれぞれに対処する方法が詳しく紹介されている。そして第3部は,やや複雑な研究課題を想定し,データの収集から分析,そして効果的なグラフィクスの作成までを詳細に解説している。
[原著:Simon Munzert
目次
第1部 Webとデータの技術入門(導入;HTML;XMLとJSON;XPATH;HTTP;AJAX;SQLとリレーショナルデータベース;正規表現と重要な文字列関数)
第2部 Webスクレイピングとテキストマイニングのためのツールボックス(Webからのスクレイピング;統計的テキスト処理;データ分析プロジェクトの管理)
第3部 事例集(アメリカ上院議員間のコラボレーション・ネットワーク;半構造化されたドキュメントから情報を抜き出す;Twitterによる2014年度アカデミー賞予測;名字の地理的な分布のマッピング;携帯電話のデータを集める;商品レビューのセンチメント分析)
著者等紹介
石田基広[イシダモトヒロ]
徳島大学大学院社会産業理工学研究部教授
工藤和奏[クドウワカナ]
2015年北海道大学経済学部経営学科卒業。現在、フュージョン株式会社マーケティングアナリスト
熊谷雄介[クマガエユウスケ]
2011年筑波大学大学院システム情報工学研究科社会システム工学専攻修了。現在、都内企業にてマーケティングサイエンスおよび機械学習の研究開発に従事
高柳慎一[タカヤナギシンイチ]
株式会社リクルートコミュニケーションズ兼株式会社リクルートライフスタイル兼株式会社ホクソエム専務取締役。総合研究大学院大学複合科学研究科統計科学専攻博士課程在学中、データ分析を活用したビジネスおよび機械学習の研究開発に従事
牧山幸史[マキヤマコウジ]
ヤフー株式会社データサイエンティスト兼SBイノベンチャー株式会社AI開発エンジニア兼株式会社ホクソエム代表取締役(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。