jupyter notebookはプログラムの実行、メモ、プレゼン、データの管理などデータ分析をする上で必要な機能を全て詰め込んだようなWebツールです。スマートでクールなデータの可視化も可能で、誰にでもわかりやすく分析結果を示すことができます。コーディング環境はvimなどの補完や操作性は望めませんが、十分な環境は満たしています。また、pythonを始めJulia、R、Rubyなどの今ホットな言語はほぼ使用可能です。
導入方法
まず、初めに「anaconda」ディストリビューションのでの環境構築を推奨します。pythonの環境構築を自分好みのチューニングにしたいという玄人な方以外はこの「anaconda」でpythonのデータ開発環境は整います。jupyter notebookもこのパッケージの中に入っているので別途ダウンロードの必要はありません。
「anaconda」ダウンロード後にmacの場合ターミナル(winの場合コマンドプロンプト)を起動し、「jupyter notebook」と入力すると、ブラウザ上に自動でjupyter notebookが起動します。
操作方法
新規ノート作成
HOME右側のNewボタンからPython3を選択すると新規ノートブックを作成することができます。
コードの実行
下記画像のリストボックスから「code」を選択し、In[]のセルの箇所にpythonのコードを入力していきます。コーディングが終わったら shift + enter を押すことにより、結果がOut[]に表示されます。
文章の入力
下記画像のリストボックスから「markdown」を選択し、セルの箇所にmarkdown形式で文章を入力していきます。コーディングが終わったら shift + enter を押すことにより、整形された文章が表示されます。なお、画像・動画の挿入も可能、Latexで数式の入力も可能です。
数値解析とインタラクティブなデータの可視化
まず、以下のライブラリを導入しましょう。データ解析を行う上で必須のライブラリです。
NumPy
行列や多次元配列を操作するためのライブラリ。数値計算の高速処理。
pandas
ExcelやRのような感覚で使える、2次元、3次元を扱うためのライブラリ。データフレームを扱える。
matplotlib
pandasで整形したデータを、視覚的に表現できるライブラリ。下記例では、2017/1/1 spotifyにて1位だった「Reggaetón Lento (Bailemos)」のストリーミング回数の推移をグラフ化している。
scipy
科学技術計算のためのライブラリで、数値解析・クラスタリングなど高度な計算にも対応しいる。
コメント