基本
『R言語』は、大規模データ(いわゆるビッグデータ)分析のための強力なツールであり、様々なOSに対応しているフリーソフトである。計算が早くグラフィックも充実しており、世界中の専門家が実際の研究に用いている。ここでは、Rを用い、大規模データの統計処理を行う。
- Rをインストールせよ。※ウェブで検索すると、インストールに関する紹介ページが見つかるハズです。
- 2009売上利益正2.csvは、2009年の日本企業の設立年(DoI)、従業員数(L)、売上(Y)、利益(P)およそ50万社のデータから、利益が正の企業を取り出したデータである。
下記、3つの課題を『R』により実行し、課題3の結果をメールで石川に提出せよ。
注)作業そのものは、csvファイルをデスクトップに保存し、20200711.Rを『R』で実行すれば結果が出てくるようになっている。
%%%%%%%%%%
添付のスクリプト『20200711.R』をデスクトップに保存して、同時に『2009売上利益正2.csv』もデスクトップに保存して下さい。
注:自分の環境で走らすときは、2行目の
setwd(“C:/Users/ishik/OneDrive/デスクトップ”) # 作業ディレクトリ変更
を書き直して下さい。『Ishik』の部分が自分の環境で違うものになります。
自分の環境を調べるためには、デスクトップに置いたファイル『20200711.R』を右クリックして出てくるショートカットメニューから【プロパティ】を選びます。そして、プロパティの中に【場所】が書いてあるので、そこを見ます。石川の場合だと【C:\Users\ishik\OneDrive\デスクトップ】となっているのですが、パソコンの設定によって『Ishik』の部分が違うはずです。これをファイルのパス(道という意味)と呼びます。ちょっと注意が必要なのは、Windowsではパスが『\(バックスラッシュ)』で繋がれているのですが、これを『/(スラッシュ)』に書き換えなければならない事です。
%%%%%%%%%%
課題1:企業の「売上」と「売上の対数」、「従業員数」と「従業員数の対数」、そして「正の利益」と「正の利益の対数」、それぞれのヒストグラムを求めよ。
課題2:企業の従業員数と売上、従業員数と利益、売上と利益には相関があるか、散布図を描いて観測せよ。
課題3:相関がある場合、それぞれの相関係数を求めよ。
応用
基本では、企業の売上・従業員数・利益は正規分布に従わず、対数正規分布に従う・・・とお話しました。
実は、この説明は正確ではありません。
添付のスクリプト『20200718.R』をデスクトップに保存して、基本の『2009売上利益正2.csv』もデスクトップに保存して下さい。
(注:自分の環境で走らすときは、2行目を基本の時のように書き直して下さい。)
基本の棒グラフの次に、棒グラフの縦軸が対数目盛(10倍が等間隔に並ぶ)になったプロットが現れます。
売上(Y)、従業員数(L)、正利益(P)3つのプロットそれぞれを見ると、両対数軸(横軸も縦軸も対数)で直線上に並んでいるのが確認できます。
これは、売上、従業員数や正利益の規模の大きなデータは対数正規分布に従うのではなく、ベキ分布に従う・・・と言うことを意味しています。
対数正規分布の右端では値がスッと無くなってしまうのですが、ベキ分布の右端では値がズッと残っています。
実は、これも経済データに観られる大きな特徴です。
これを、長期にわたる公示土地価格で確認します。
添付の圧縮ファイル『Rkadai.zip』をデスクトップに解凍して下さい。
解凍して出来たフォルダの中にある『土地価格分析-Pareto指数の測定.R』をRで実行すると、1984~2016年に渡る日本の公示土地価格の(累積)分布が表示されます。
1986~1991年のバブル期には多少ベキ分布に歪みが生じていますが、経済が安定している時期にはホトンドすべての時期にベキ分布が観測されます。
そして、ベキ分布の指数(ベキ指数)はパレート指数(Pareto Index)とも呼ばれ、格差を測定する指標の一つだと考えられます。
バブル期にはパレート指数が1近くまで減少して土地価格の格差が広がっているのが確認できます。