データ分析に必須 jupyter notebook

スポンサーリンク

data_analytics

jupyter notebookはプログラムの実行、メモ、プレゼン、データの管理などデータ分析をする上で必要な機能を全て詰め込んだようなWebツールです。スマートでクールなデータの可視化も可能で、誰にでもわかりやすく分析結果を示すことができます。コーディング環境はvimなどの補完や操作性は望めませんが、十分な環境は満たしています。また、pythonを始めJulia、R、Rubyなどの今ホットな言語はほぼ使用可能です。

導入方法

まず、初めに「anaconda」ディストリビューションのでの環境構築を推奨します。pythonの環境構築を自分好みのチューニングにしたいという玄人な方以外はこの「anaconda」でpythonのデータ開発環境は整います。jupyter notebookもこのパッケージの中に入っているので別途ダウンロードの必要はありません。

anaconda公式ページ
anaconda

「anaconda」ダウンロード後にmacの場合ターミナル(winの場合コマンドプロンプト)を起動し、「jupyter notebook」と入力すると、ブラウザ上に自動でjupyter notebookが起動します。

home

操作方法

新規ノート作成

HOME右側のNewボタンからPython3を選択すると新規ノートブックを作成することができます。

newfile

コードの実行

下記画像のリストボックスから「code」を選択し、In[]のセルの箇所にpythonのコードを入力していきます。コーディングが終わったら shift + enter を押すことにより、結果がOut[]に表示されます。

code

文章の入力

下記画像のリストボックスから「markdown」を選択し、セルの箇所にmarkdown形式で文章を入力していきます。コーディングが終わったら shift + enter を押すことにより、整形された文章が表示されます。なお、画像・動画の挿入も可能、Latexで数式の入力も可能です。

markdown
after_input

数値解析とインタラクティブなデータの可視化

まず、以下のライブラリを導入しましょう。データ解析を行う上で必須のライブラリです。

NumPy

行列や多次元配列を操作するためのライブラリ。数値計算の高速処理。

Numpy

pandas

ExcelやRのような感覚で使える、2次元、3次元を扱うためのライブラリ。データフレームを扱える。

pandas

matplotlib

pandasで整形したデータを、視覚的に表現できるライブラリ。下記例では、2017/1/1 spotifyにて1位だった「Reggaetón Lento (Bailemos)」のストリーミング回数の推移をグラフ化している。

matplotlib

scipy

科学技術計算のためのライブラリで、数値解析・クラスタリングなど高度な計算にも対応しいる。

コメント

タイトルとURLをコピーしました