2015年3月28日土曜日

つまずかないR言語入門(板橋区商業施設で駐車場の有無について考察)

前回、板波区の商業施設で、駐車場の有無は、売上をt検定を用いて検定したが、
(p>0.05)となり有意差は認められなかったとした。

では、同様に駐車場の有無は、従業員一人あたり売上に差を生むのか。
Rを使って、t検定までやってみます。

> x<-read.table("attach_20.csv",sep=",",header=TRUE,row.names=1)
> n<-c(x$sales_n/x$employee_n)
> p<-c(x$sales_p/x$employee_p)
箱ひげ図を見てみると

> boxplot(p,n,names=c("parking","noparking"))

となりました。

となりました。
t検定を進めます。
> t.test(p,n,var.equal=T)

Two Sample t-test

data: p and n
t = 0.299, df = 52, p-value = 0.7661
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-4.262274 5.754990
sample estimates:
mean of x mean of y
15.61962 14.87326

となり、検定結果としてはt検定を用いて検定したが、
(p>0.05)となり、有意差は認められなかったとした。

売上高同様に、従業員一人あたりの売上も、駐車場の有無による有意差は
認めらなかったということでした。

----------------------
スマートテクノロジーネットワークのホームページはこちら
----------------------

2015年3月26日木曜日

つまずかないR言語入門(t検定)

自分自身のスキルアップを大きな目的にしているので、行きつ戻りつして
まだるっこしいところがあるのはご容赦ください。

さて、前回、例えば駐車場がある店舗数とそうでない店舗数を比較しました。
箱ヒゲ図では、

となりました。
では、駐車場のある店舗とない店舗数の平均値の差の検定(t検定)を行ってみたいと
思います。

> t.test(x$shop_n,x$shop_p,var.equal=T)

Two Sample t-test

data: x$shop_n and x$shop_p
t = 3.7, df = 54, p-value = 0.0005067
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
42.14835 141.85165
sample estimates:
mean of x mean of y
107.35714 15.35714
t値=3.7 自由度54、p値=0.0005057

帰無仮説として、平均値における真の差は0である。
p値が有意水準1%以下を下回っているので、帰無仮説を棄却
することが妥当という結論になる。

砕けていうと、板橋区の商業施設の駐車場のある店と、ない店の平均数は有意差が
あるということになる。
板橋区の商業施設は、平均的には駐車場を必要としない、商店街が並んでいるような
イメージなのかもしれない。
では、駐車場のある、無しで平均売上に有意な差があるかを検討してみる。

> t.test(x$sales_n,x$sales_p,var.equal=T)

Two Sample t-test

data: x$sales_n and x$sales_p
t = 1.0512, df = 54, p-value = 0.2978
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3586.677 11493.534
sample estimates:
mean of x mean of y
9314.786 5361.357

t値=1.0512 自由度54、p値=0.297
帰無仮説として、平均値における真の差は0である。
p値が有意水準約29%という結論になり、帰無仮説を棄却できない、つまり
板橋区の商業施設の駐車場のある店と、ない店の平均売上高は有意差が
ないということになる。

箱ヒゲ図で見てみると、

なんだか、腑に落ちない結論(ほんまかいな?)ではあるが、微力な筆者がRを使った結果ではある。
勉強たりないな!

----------------------
スマートテクノロジーネットワークのホームページはこちら
----------------------

2015年3月22日日曜日

つまずかないR言語入門(板橋区のオープンデータ)

板橋区のオープンデータを活用して、Rで分析の試みようとしたが、
とんでもないところで、躓いてしまった。
このブログを作成しているHPのデスクトップはOSはWindows7だが、office系は
オープンソフト優先でOpenofficeを使っていた。
今回、板橋区のデータを取り込み、csv形式にするにあたり、漢字の文字バケに
悩まされた。
NECのマシンはUBUNTUなので、Libreofficeがインストールしてあり、これで
データを散り込むと、すんなり文字問題が解消した。そこで、このHPマシンにも
Libreofficeをインストールして、使ってみると、見事に文字問題が解消したので、
ようやく本題に入れることとなる。

ここで、データに多少の加工を加えている。
板橋区の各業種の店舗数や、従業員数の総数と、それぞれの駐車場を持っている店舗の
数値は記載があるが、駐車場がない店の記載がないので、表計算上で、非駐車場の
店舗数などは計算をして、保存してある。
あと、header部分は本来漢字であるが、Rのコマンド入力があまりに煩雑になるので、
英語表記にしてある。
最後に、オリジナルがMSのexecelなので、オープン系officeで開いたためなのか、
千の位の表記がcsvに変換すると、空白になり、数値と看做されないため、
計算ができなかった。 そこで、手作業で、空白を除去するという作業をしたことをお断りしておきます。
ファイル名は、attach_20.csvとしています。
まずは、全体像がみたいので、
> x<-read.table("attach_20.csv",sep=",",header=TRUE,row.names=1)
とします。
先頭6行をみると


となり、
例えば駐車場がある店舗とそうでない店舗を比較すると。
> boxplot(x$shop_p,x$shop_n,names=c("parking","noparking"),col=c("orange", "green"))
としてみると、

となり、駐車場を持たない、あるいは必要としない商業施設が多いことが判る。
箱ひげ図の最大値を超えたはずれ値は、それぞれ自動車小売業と飲食料小売業で、
「なるほど」という納得感のある結果となった。

それでは、駐車スペースを持っている業種別の店の数を棒グラフで表すと、

となる。
お断りしなくてはいけないのが、X軸の業種名で、フルネームでこのスペースには
押し込めなかったので、業種記号で代用しています。
現地調査をしなくては正しい判断はできないのですが、板橋区という特性から
駐車場の必要性が今後の分析でわかるかもしれないと期待してます。

本日はここまでです。

----------------------
スマートテクノロジーネットワークのホームページはこちら
----------------------

2015年3月20日金曜日

つまずかないR言語入門(オープンデータの取り扱いに苦慮)

つまずかないR言語なんて、大見得切ったけど、昨日来、板橋区の 商業データと悪戦苦闘。

漢字の問題で、漢字コードに由来するエラーが頻出。

クリアしたものの、今度はRのコマンドラインに、ANKと漢字を
$マークで区切っても、すんなり読み込んでくれない。

つきましては、再度力量不足を反省しつつ、本日はギブアップ
です。

皆様申しわけないです。m(_)m

----------------------
スマートテクノロジーネットワークのホームページはこちら
----------------------

2015年3月19日木曜日

つまずかないR言語入門(板橋区商業統計を使ってすこしレベルアップ(?)

板橋区の商業統計を使って、すこしレベルアップを図りたい←自分
ここには、クリエイティブ・コモンズ・ライセンスの明記がないので、
商用目的につかうのではなく、あくまでも私的な勉強の使うといことで、
多少の改変はご容赦頂きたい。

余談ですが、オープンデータであろうが、プライベートな私企業の データであろうが、
統計分析に使おうと考えるデータは、ほぼ100%そのまま使えることは
なく、データ形式の統一や、欠損値の扱い、カンマの処理、ヘッダー部分の
処理などに、かなりの時間を費やすことを覚悟して置いた方が、よろしいと思います。

閑話休題: 今回は、
板橋区の平成19年商業統計調査報告
を使います。
このようなエクセルデータです。

今回、商業施設で、駐車場があるかないかで、色々な数値が変化している
ようなので、そいつを分析してみようかと考えました。


CSVファイルに落とし込むとこのようになりました。


続きは、次回ということでご容赦ください。

----------------------
スマートテクノロジーネットワークのホームページはこちら
----------------------

2015年3月16日月曜日

つまずかないR言語入門(埼玉県の商業データグラフ化から学ぶこと)

しつこいようですが、昨日に引き続き、埼玉県のオープンデータ(商業統計)から
分析~グラフ化の手順にトライしてみる。
元のデータは

このデータのお互いの関係を概観するのに、

ここで、従業員数と売上に相関関係が強くありそうだと、目安をつけたら

> plot(employee~sales,x)

として、見事に相関関係があるのが理解できる。

相関係数は

> cor(x$employee,x$sales)
[1] 0.9398025

となり、当たり前の結果といえば当たり前の結果となった。
このあたり、自分の力量と、オープンデータの活用がミスマッチしている
とも思えるので、少し研究して次回に備えます。

----------------------
スマートテクノロジーネットワークのホームページはこちら
----------------------

2015年3月15日日曜日

つまずかないR言語入門(埼玉県のオープンデータを使って)

いままで、長野県須坂市のオープンデータを使わせて戴いていたが、
今回、埼玉県のオープンデータが公開されているのを見て、
同じような分析をして見たい。

埼玉県オープンデータカタログ2014試行版が公開されている。
そこの県政情報・統計ページに、商業統計があり、須坂市と規模は違うが、
同様趣旨のデータを発見したので、読み込んでみた。
概要表(概要表-1~概要表-26)のエクセルファイルに平成19年商業統計調査概要一覧
があり、事業者数・従業者数、年間昇進販売額の推移を表した表があるので、
使用します。

EXCELファイルをダウンロードして、(私の場合はOpenoffice)で、開き
csv形式で保存。
漢字コードの問題(Shift-JIS,unicode,UTF-7)など、込み入っているので、
余分な説明を削除し、タイトルをshop,employee,salesとして保存。
ファイル名は"saitama.csv"とした。


> x<-read.table("saitama.csv",sep=",",header=TRUE,row.names=1)
として、
> summary(x)と入力すると

    shop    employee     sales  
Min.   :56427   Min. :220782    Min. :2.709e+08
1st Qu.  :63216   1st Qu.:327969    1st Qu.:8.864e+08
Median   :68882    Median :422684    Median :1.436e+09
Mean   :66822    Mean :389338    Mean :1.226e+09
3rd Qu.  :71908    3rd Qu.:462440    3rd Qu.:1.701e+09
Max.    :75330    Max. :504982    Max. :1.807e+09

前回同様グラフ化してみた。

> barplot((x$sales)/(x$employee),main="uriage/man",names.arg=c("49","51","54","57","60","63","3","6","9","11","14","16","19"),col=c("orange"))

と、平成3年をピークとしながらも、一人当たりの販売高が向上しているのが見て取れる。

年間売上高を見てみる。 >barplot((x$sales),main="uriage",names.arg=c("49","51","54","57","60","63","3","6","9","11","14","16","19"),col=c("blue"))

平成3年(1991年)に始まったとされるバブル崩壊が、グラフでも明確に読み取れる。
本日はここまでです。

----------------------
スマートテクノロジーネットワークのホームページはこちら
----------------------