2015年3月4日水曜日

つまずかないR言語入門(データの要約)

irisのファイルを要約してみたが、少し詳しく見てみたい。
列に、Sepal(がく片)と Petal(花びら)の長さと幅がそれぞれ表示され、
右端はirisの種類を示している。

行方向は、それぞれ最小値、第一四分位、中央値、平均値、第三四分位、最大値を
示している。
四分位とはデータを昇順に並べて、4等分したものです。
小さい値から数えて、総数の1/4番目に当たる値が第1四分位、 真ん中に当たる値が第2四分位(=中央値)、
3/4番目にあたる値が第3四分位となります。

マーケティングの世界でも、例えば、顧客属性(年齢層、居住地、性別など)
などをざっくり把握する場面で、このsummaryが使えると思う。

前々回紹介した、箱ひげ図を使えば、さらに視覚的に把握するのには便利かもしれない。


----------------------
スマートテクノロジーネットワークのホームページはこちら
----------------------

2015年3月2日月曜日

つまずかないR言語入門(ファイルを扱う)

データを毎回入力するケースは実務レベルでは少ないと考えられる。
一般的に、企業内でマーケティング用途にデータ分析しようとする場合、
蓄積されたexcelやBIツールから出力されたファイルを使うことが多いだろう。

とりあえず、今日は、ファイルの置き場所を気にせずにすむように、
あらかじめRに組み込まれている、"iris"というデータを使って、
ファイル操作に慣れよう。

>iris
と入力してリターンキーを叩くと、全150行のデータが画面に出力される。
あまりにデータが多いので、150行が一瞬の間に表示され全体像が見えない。
そこで、
>head(iris)
とすると、ヘッダータイトルを含んだ先頭6行、

Sepal.LengthSepal.WidthPetal.LengthPetal.WidthSpecies
15.13.51.40.2setosa
24.93.01.40.2setosa
34.73.21.30.2setosa
44.63.11.50.2setosa
55.03.61.40.2setosa
65.13.91.70.4setosa


>tail(iris) とすると最終行から前6行が画面に出力されるので、
Sepal.LengthSepal.WidthPetal.LengthPetal.WidthSpecies
1456.73.35.72.5virginica
1466.73.05.22.3virginica
1476.32.55.01.9virginica
1486.53.05.22.0virginica
1496.23.45.42.3virginica
1505.93.05.11.8virginica/td>

こんな感じで、データの全体像は俯瞰できる。
ちなみに、irisはあやめ属の3種についてのsepal(がく片)とpetal(花弁)の
長さと幅を、調べたものです。
詳しくはこちらを参照ください。

http://d.hatena.ne.jp/tsutatsutatsuta /20121206 /1354737461

5列150行のデータファイルがRに取り込まれた訳です。
> summary(iris)で、ファイルを要約すると、次のようになります。


----------------------
スマートテクノロジーネットワークのホームページはこちら
----------------------

2015年2月28日土曜日

つまずかないR言語入門(基本統計、箱ひげ図)

数値データで構成されたベクトルには、統計関数が使える。

マイクロソフトのEXCELでも、SUM(合計)などが使えるが、
ほぼ同じように

> x<-c(1,2,3,4,5)
として、xに代入された数値の合計を求めるには
> sum(x)
[1] 15
となる。

同様に、平均値(mean)を求めるには
> mean(x)
[1] 3

最大値を求めるには
> max(x)
[1] 5
最小値は
> min(x)
[1] 1

統計的な値をみるにはsummaryを使うと、全体像がよく判る。

> summary(x)

Min.1st Qu.MedianMean3rd Qu.Max.
123345

また、箱ひげ図を使うと、直感的に、全体が俯瞰できる。
例えばこんな感じ。

> boxplot(x)


例題としては簡単過ぎるが、コマンドの意味と、それがどんな作業をするかを理解してもらえれば
嬉しいです。
----------------------
スマートテクノロジーネットワークのホームページはこちら
----------------------

2015年2月26日木曜日

つまずかないR言語入門(代入とベクトルについて)

Rを電卓替りにつかう人はいるかもしれないが、一般には
統計処理に使うはずだ。

そこで、代入という考えが必要となる。
変数xに複数の数値(ベクトル)の1,2,3,4,5
を代入することを考えてみると、
> x<-c(1,2,3,4,5)

とすれば、xという箱に数字列1,2,3,4,5を代入できる。

xに何が代入されたかを確認しよう。

> x
[1] 1 2 3 4 5

ここで覚えておかなくてはならないのが、
<-

という不等号の
< 小なり、よりしょう、未満、レスザン(less than)
という不等号と、

- マイナス記号。

これを組み合わせることで、左辺に右辺の数字列他が
代入可能となる。

同様に
> y<-c(6,7,8,9,10)
> y
[1] 6 7 8 9 10

としても、xとyの演算は可能となり、
> x+y
[1] 7 9 11 13 15

> x*y
[1] 6 14 24 36 50

> y-x
[1] 5 5 5 5 5

こんな感じです。

さらに、xのベクトルが3より大きいかと
いう演算では、

> x>3
[1] FALSE FALSE FALSE TRUE TRUE

となり。後ろ2つの4,5が3より
大きいことが分かる。

----------------------
スマートテクノロジーネットワークのホームページはこちら
----------------------

2015年2月25日水曜日

つまずかないR言語入門(除算以降、べき乗や平方根について)

前回までで、いわゆる四則演算の例をしめした。

除算の場合、余りを求めたいことがある。

それには%%を使う。

> 7%%2
[1] 1

という風に使える。

べき乗は

^(アクサンシルコンフレックスと読むらしい)
を使う。

> 3^3 [1] 27

または**を使って
> 3**3
[1] 27
としても可能。

これで3*3*3=27
と同じ結果が得られる。

ルートはどうするか。

> 10^(1/2)
[1] 3.162278

もしくは、
> sqrt(10)
[1] 3.162278

と記述すれば平方根の計算が可能となる。
----------------------
スマートテクノロジーネットワークのホームページはこちら
----------------------

2015年2月24日火曜日

つまずかないR言語入門(インストールから電卓替わりに使用するまで)

さて、Windows版をダウンロードすると、インストール する場所を聞いてくる。

一般的には、c:ドライブのsystemフォルダー にRというフォルダーを作ってくれて、そこに インストールすると同時に、解凍を始める。

ここで問題になるのが、作業フォルダー。

Rで、使用したファイルなどを複数回使う ことがあり、それらを保管しておく場所を 作業フォルダーと呼ぶ。

この作業フォルダーをどこにおくかは あとの作業性にも影響するので、決めて おく必要がある。

ただし、この場所は、Windowsであれば、 Rのショートカットを右クリックし、プロパティ をみることで、確認可能だし、場合によっては プロパティを直接操作して、書き直すことも 可能なので、あまり心配しなくても良いかも しれない。

ちなみに、LINUX系(UNIX系)の場合は、 cdなどのコマンドをたたくことで、変更する ことは可能となる。

さて、Rの機能を知るうえで、電卓の 替わりになることを知っておくのも無駄 にはならない。 具体的には
>
のプロンプトがでるので、

通常使う四則演算は記録を残しながら、容易に実現できます。

加算
> 1+2
[1] 3

減算
> 4-1
[1] 3

乗算
> 1*3
[1] 3

除算
> 4/2
[1] 2

という感じです。

演算の順序も
> 1+2*3
[1] 7

> (1+2)*3
[1] 9

と、算数の公式通りに記述すれば良いようです。 計算を終了するときは

> q()
と入力すると、 別のWindowに 作業スペースを保存しますか? と聞いてくるので、とりあえず、いいえ(N)を 押して終了しましょう。


----------------------
スマートテクノロジーネットワークのホームページはこちら
----------------------

2015年2月23日月曜日

つまずかないR言語入門

R言語が注目を浴びている。 SPSS(IBM)やSASと同等な統計処理能力があるが、これら商用ソフトとことなり、 フリーソフトであることと、CUIが基本であるため、とつきにくいという点が 良く言われる。
そのため、その使用方法を解説する講座が、法外な(個人的な見解ですが)料金で 開催されていることがある。
いっそのこと、自分の備忘録を兼ねて、Rの入門から、ビジネスで必要と思われる 統計手法まで、ポツポツと書いていこうかと思い立った次第。

個人的背景でいえば、大学は理工系で、統計解析は当然授業で習った。 会社に入ってからは、マーケティングを主たる業務として、ダイレクトメール のレスポンス解析の必要性から、多次元分析に足を踏み入れ、その後「R」の 存在をしり、会社ではWindowsXPからWindows7に移行というか移植を敢行。

家庭では、UBUNTU上でのRとWindowsでのRを実践中。

このブログでは、メインと思われるWindows7上での「R」言語について、 説明したいと思う。

お約束通り、ソフトウェアのダウンロードから。

Rは、開発プロジェクトの本家であるThe R Project for Staticstical computingのサイトに多くの情報が集まっているが、ダウンロードに関してはCRAN(The Comprehensive R Archive Networkの略)のなかにミラーサイトが詳細に 記されているので、その中のJAPANの筑波大学あたり を利用するのが、インターネット資源の浪費をしないためにはいいのではないでしょうか。

上記にリンクすると

Download R for Linux
Download R for (Mac) OS X
Download R for Windows

とそれぞれ自分の環境に合わせた一覧がでるので、そいつをクリック。

ブログ執筆時点ではWindows版は R-3.1.2 for Windows (32/64 bit)が最新版となっており、

容量は54MBとのことなので、説明の順番が逆になってしまったが、 自分のPCのハードディスクの容量を確かめておく必要があります。

つぎは、ダウンロードからインストールまで説明します。


----------------------
スマートテクノロジーネットワークのホームページはこちら
----------------------