2015年3月22日日曜日

つまずかないR言語入門(板橋区のオープンデータ)

板橋区のオープンデータを活用して、Rで分析の試みようとしたが、
とんでもないところで、躓いてしまった。
このブログを作成しているHPのデスクトップはOSはWindows7だが、office系は
オープンソフト優先でOpenofficeを使っていた。
今回、板橋区のデータを取り込み、csv形式にするにあたり、漢字の文字バケに
悩まされた。
NECのマシンはUBUNTUなので、Libreofficeがインストールしてあり、これで
データを散り込むと、すんなり文字問題が解消した。そこで、このHPマシンにも
Libreofficeをインストールして、使ってみると、見事に文字問題が解消したので、
ようやく本題に入れることとなる。

ここで、データに多少の加工を加えている。
板橋区の各業種の店舗数や、従業員数の総数と、それぞれの駐車場を持っている店舗の
数値は記載があるが、駐車場がない店の記載がないので、表計算上で、非駐車場の
店舗数などは計算をして、保存してある。
あと、header部分は本来漢字であるが、Rのコマンド入力があまりに煩雑になるので、
英語表記にしてある。
最後に、オリジナルがMSのexecelなので、オープン系officeで開いたためなのか、
千の位の表記がcsvに変換すると、空白になり、数値と看做されないため、
計算ができなかった。 そこで、手作業で、空白を除去するという作業をしたことをお断りしておきます。
ファイル名は、attach_20.csvとしています。
まずは、全体像がみたいので、
> x<-read.table("attach_20.csv",sep=",",header=TRUE,row.names=1)
とします。
先頭6行をみると


となり、
例えば駐車場がある店舗とそうでない店舗を比較すると。
> boxplot(x$shop_p,x$shop_n,names=c("parking","noparking"),col=c("orange", "green"))
としてみると、

となり、駐車場を持たない、あるいは必要としない商業施設が多いことが判る。
箱ひげ図の最大値を超えたはずれ値は、それぞれ自動車小売業と飲食料小売業で、
「なるほど」という納得感のある結果となった。

それでは、駐車スペースを持っている業種別の店の数を棒グラフで表すと、

となる。
お断りしなくてはいけないのが、X軸の業種名で、フルネームでこのスペースには
押し込めなかったので、業種記号で代用しています。
現地調査をしなくては正しい判断はできないのですが、板橋区という特性から
駐車場の必要性が今後の分析でわかるかもしれないと期待してます。

本日はここまでです。

----------------------
スマートテクノロジーネットワークのホームページはこちら
----------------------

0 件のコメント:

コメントを投稿