2015年3月11日水曜日

つまずかないR言語入門(オープンデータの活用)

前回のエントリーで、長野県須坂市の商業データを例として、
マーケティング利用を考えてみようとした。
ここで、一つ落とし穴がありました。
市の作成したエクセルデータの数値は、利用者の視認性を
考えて、3桁単位で","(カンマ)が入っているのです。

単純にCSVで落としても、カンマは生きているので、
R側で、sep=","として項目の区切りをカンマと明示
しても、データ中にカンマがあるので、正しく分析でき
ないことが判明。CSVファイルの数値を、3桁カンマ区切り
なしにして、読み込むことにした。
このあたりは、EXCELのバージョンだったり、Openofficeや
Libreofficeで、少し異なるようなので、深くは触れません。

前回同様、
>x<-read.table("08.csv",sep=",",header=TRUE,row.names=1)
として、
>x
で表示。
>plot(x)
として、各項目の相関関係を確認しましょう。

商店数(shoten)と売り場面積(area)に負の相関関係が見えるとか、
なぜか判りませんがその他の収入額(income)と商品手持ち額(zaiko)に正の相関関係が
見て取れるなど、その後の突っ込んだ分析の概要が読み取れると思います。
詳細な分析と、時系列の分析は次回以降で試行します。

----------------------
スマートテクノロジーネットワークのホームページはこちら
----------------------

0 件のコメント:

コメントを投稿