記事の要約:RによるCSV・Excelデータの読み込み【図解】
この記事で学べること
- R(Rstudio)によるCSVデータの読みこみ方法
- R(Rstudio)によるExcelデータの読みこみ方法
- Rstudioにおける新しいプロジェクトのつくり方
- データを読み込む際のコツ
この記事のまとめ
- 基本的に読み込むデータはCSVファイルかExcelファイルで準備する
- read.csv, read.xlsxで読み込むのか一番シンプル
- データの読み込みでエラーが起こる場合はデータとスクリプトの両方をチェック
Rでデータを読み込む
統計ソフトでデータを解析するためには,なにはともあれデータをソフトに読み込ませなければ始まりません.ここではRにおけるデータの読みこみ方法について解説していきます.
ちなみに統計解析に利用するデータセットの多くは,CSVファイルやExcelファイルにテーブルの形式でまとめられていることが多い印象です(ビッグデータの場合はテキストファイルのこともありますが).実際にデータを集積する電子システム自体は異なっていても,最終的に解析するときには,以下のような形でデータが作成されていることをイメージしてください.
今回は練習用のCSVデータとExcelデータをそれぞれ準備しましたので,手元にちょうどよいデータがなければ,これらをダウンロードしてご利用ください.
id | cnf1 | cnf2 | treat | outcome |
1 | 0.077303 | 0.850043 | 0 | 67.46798 |
2 | -0.29687 | -0.92531 | 0 | 47.10014 |
3 | -1.18324 | 0.893581 | 1 | 76.63003 |
4 | 0.011293 | -0.94101 | 1 | 71.73025 |
5 | 0.991601 | 0.538952 | 0 | 74.70814 |
6 | 1.593967 | -0.18197 | 1 | 95.27978 |
7 | -1.37271 | 0.891768 | 1 | 73.85734 |
8 | -0.24961 | 1.329208 | 1 | 89.87022 |
9 | 1.159425 | -0.10347 | 1 | 89.48509 |
10 | -1.11422 | 0.615065 | 0 | 53.55731 |
※11人目以降は省略
RでCSVファイルを読み込む
それでは早速RでCSVファイルを読みこみます.今回はRstudio上で操作します.R単体でも同様のスクリプトで実行可能ですが,ディレクトリ(ファイルの場所)の指定などが少し煩雑になります.
また今回はRstudioを使い始めたばかりの方のために,Rstudio上で新しくプロジェクトを作成するところから始めます.すでにRstudioで既存のプロジェクトを作成しており,そのプロジェクト上でデータを読み込みたい方は,新規プロジェクトの作成のステップは飛ばしてください.
手順1.参考データ(CSV)をダウンロード
手順2.Rstudioを起動 ⇒ 新規プロジェクトを作成
- Rstudioを起動
- 画面右上 Project: (None) をクリック ※事前にRプロジェクトを作成したことがある場合は直近で開いていたRプロジェクト名が表示されますが,同じようにクリックして次に進んでください.
- New Project…
- New Directory
- New Project
- Directory name:(任意のプロジェクト名)と Create project as subdirectory of:(プロジェクトフォルダの保存場所)を指定する
- Create Project ⇒ 新しいRstudio画面が開く(+プロジェクトフォルダが指定した場所にできる)
- Source右横のウインドウ分割ボタンを押すとスクリプト入力画面が表示される
手順3.読みこむデータファイルを作成したRプロジェクトのフォルダ内にコピペ
- 読み込むデータファイル(robustwife.csv)を作成したRプロジェクトフォルダ(robustwifeフォルダ)の中にコピペする
手順4.スクリプトを記載してデータファイルを読み込む
- Rスクリプトパネル(左上パネル)に以下のスクリプトを書き込む
- 書き込んだスクリプト全てを選択して(ハイライトされる)実行(Ctrl + Enter)
# csvファイルを読み込んでdatとして保存
# 別の"CSV"データを利用するときにはrobustwife部分を自分のファイル名に書き換える
dat = read.csv("robustwife.csv")
# datの中身を確認する
dat
これでRstudio(R)によるCSVデータの読み込みが完了しました!今回配布したサンプルデータであれば読み込みのエラーが起こることはないかもしれませんが,ご自身のデータを読み込んだ際にエラーが出た場合には,以下の項目に問題がないか,再度チェックしてみてください!
- データセットはRプロジェクトフォルダ内に格納されているか?
- Rスクリプトに記載したデータセットのファイル名に間違いはないか?拡張子はついているか?
- データセット内に不要な文字などは含まれていないか?
- データセットに日本語が含まれる場合には半角英数で置き換えてみる
RでExcelファイルを読み込む
次はRでExcelファイルを読みこみます.Excelファイルの場合にも基本的な操作はCSVと同じですが,コードを一部書き換えなければいけません.
読み込みたいExcelデータを利用するRプロジェクトのフォルダにコピペするステップまでは同じ作業になります.ここでもサンプルとしてrobustwife.xlsxデータセットを配布します(上記のCSVファイルと拡張子が異なるだけです).それではExcelファイルをRプロジェクトフォルダにコピペするところから始めましょう.
手順1.参考データ(Excel)をダウンロード
手順2.読みこむデータファイルを作成したRプロジェクトのフォルダ内にコピペ
- 読み込むデータファイル(robustwife.csv)を作成したRプロジェクトフォルダ(robustwifeフォルダ)の中にコピペする
手順3.スクリプトを記載してデータファイルを読み込む
- Rスクリプトパネル(左上パネル)に以下のスクリプトを書き込む
- 書き込んだスクリプト全てを選択して(ハイライトされる)実行(Ctrl + Enter)
# xlsxファイルを読み込んでdatとして保存
# 別の"xlsx"データを利用するときにはrobustwife部分を自分のファイル名に書き換える
# openxlsxパッケージのダウンロード(要インターネット)
# 初めて使う場合のみ以下のコードを実行
install.packages("openxlsx")
# openxlsxパッケージ内のopen.xlsx関数で読み込み
library(openxlsx)
dat = read.xlsx("robustwife.xlsx")
# datの中身を確認する
dat
またExcelファイル内に複数のシートが含まれる場合(データ管理上は推奨しませんが…)には以下のように [sheet = シート番号] や [sheet = “シート名”] の引数を設定することで,特定のシートを読み込むことも可能です.上記のように何も設定しない場合は,1番目のシートが読み込まれるデフォルト設定になっています.
# 2番目のシートを読み込む場合
dat = read.xlsx("hogehoge.xlsx", sheet = 2) # ファイル名は適当なもの
# nextという名前のシートを読み込む場合
dat = read.xlsx("hogehoge.xlsx", sheet = "next") # ファイル名は適当なもの
これでRstudio(R)によるExcelデータの読み込みが完了しました!データの読み込みでエラーが生じた場合の対策はCSVの時と同様です.またExcelファイル内で数値計算などを行っていたり,複数のカラムを結合していたりすると,読み込みのエラーが起こることがあります.今回配布したサンプルデータのように,1行目に変数名,それ以下は数値の値などのみが入力されている形式に統一されているか確認してみてください!
- CSVの読み込みの際と同様にコードのエラーはないか?
- Excelファイル内に結合されたセルはないか?
- Excelファイル内に関数を使った計算は含まれていないか?
まとめ
今回はRおよびRstudioによるデータセットの読みこみ方法を紹介しました.データの読み込み方法も非常に多様ではありますが,まずはここで紹介した方法をマスターしてもらうと,データ解析までの準備が円滑になるかと思います.
統計ソフトに読みこめるようにデータを準備する,またデータをエラーなく読み込む,読みこんだあとに解析できる形に編集することは,統計解析やAIプログラミングの非常に重要かつ大変なステップです.まずは基本から抑えて,慣れていきましょう!
おすすめのRプログラミング書籍
- RStudioではじめるRプログラミング入門(Garrett Grolemund, 2015)
- 改訂2版 RユーザのためのRStudio[実践]入門〜tidyverseによるモダンな分析フローの世界(松村他,2021)
コメント