Rによる統計学(1)

スポンサーリンク

data_analytics

Rとは統計的な解析や視覚的にデータを表現できる完全無保証のフリーソフトです。
WindowsやMac、Unixでも動作させることができ、条件さえ満たせば改変や再配布もできるため、多くの開発者が開発に携わり日々進歩しています。
GUIが弱いという欠点はありますが、Excelなどで複雑な手順を踏まなければならないような統計解析を1行関数を打ち込むだけで実行できるという強みをもっています。
Excelではできない決定木分析や階層クラスター分析ができるのもRの利点の一つです。私自身学びながらではありますが、統計理論と合わせてRの使い方などをまとめていきます。

ダウンロード

R

Rインストールと調べれば、たくさんの情報がでてくるので、詳しくは述べませんが以下のサイトからダウンロードできます。

R: The R Project for Statistical Computing

RStudio

Rの統合開発環境(IDE)であるRStudioは以下のサイトからダウンロードできます。データ解析がみやすく楽になるので同時にダウンロードしておいた方が良いです。

http://memorandum2015.sakura.ne.jp/download/index.html

Rで分析するにあたっての基本事項

Rは他のプログラミング言語と違い、複雑なルールはないためサクサクと分析を進めることができます。プロンプト(>)に実行したいコマンドを打ち込むだけでRが勝手に分析してくれるので、作業的にはExcelより楽かもしれません。以下に簡単な例を示します。

四則演算

>の後ろに数字と+-*/を入力するで、解を返してくれます。=などは必要ありません。

> 5+5
10

代入

Rの代入は簡単です。変数 <- 代入したい値 のように <-の記号をつかいます。変数は日本語でもOKです。

> りんご <- 100
> りんご
[1] 10

複数の値を変数に代入

Rは特別な指定や宣言をすることなく変数に配列を格納することができます。Rでは配列を格納をよく使います。Excelのセルのようなイメージですかね。一次元はc、二次元はmatrixを使います。matrixは少し複雑ですが、matrix(一次配列,行数,列数)といった具合に指定します。

> 一次元 <- c(20,31,56,45,68)
> 一次元
[1] 20 31 56 45 68
> 二次元 <- matrix(c(20,15,78,96,84,23,56,87,45,52),5,2)
> 二次元
     [,1] [,2]
[1,]   20   23
[2,]   15   56
[3,]   78   87
[4,]   96   45
[5,]   84   52

関数

Rの関数は様々な種類があり、現在も世界各国の開発者が関数の配布を行っています。使い方は簡単で 関数名(分析したい数) といった具合に入力してやれば、高度な分析も一瞬で終わってしまいます。例として基本統計量(最小値・第一四分位数・中央値・平均・第三四分位数・最大値)を求めますが、これをExcelでやろうとすると分析ツールを使ったりと手間がかかってしまいます。

> summary(c(50,63,87,41,52,89,63,87,20,36))
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  20.00   43.25   57.50   58.80   81.00   89.00 

コメント

タイトルとURLをコピーしました