記事の要約:Pythonでデータの読み込み・ファイルの保存【図解】
この記事で学べること
- PythonによるCSVデータの読みこみ方法
- PythonによるExcelデータの読みこみ方法
- データを読み込む際のコツ
この記事のまとめ
- 基本的に読み込むデータはCSVファイルかExcelファイルで準備する
- pandasライブラリ内のread_csv, read_excelで読み込むのか一番シンプル
- データの読み込みでエラーが起こる場合はデータとスクリプトの両方をチェック
Pythonでデータを読み込む
統計ソフトでデータを解析するためには,なにはともあれデータをソフトに読み込ませなければ始まりません.ここではPythonにおけるデータの読みこみ方法について解説していきます.
ちなみに統計解析に利用するデータセットの多くは,CSVファイルやExcelファイルにテーブルの形式でまとめられていることが多い印象です(ビッグデータの場合はテキストファイルのこともありますが).実際にデータを集積する電子システム自体は異なっていても,最終的に解析するときには,以下のような形でデータが作成されていることをイメージしてください.
今回は練習用のCSVデータとExcelデータをそれぞれ準備しましたので,手元にちょうどよいデータがなければ,これらをダウンロードしてご利用ください.
id | cnf1 | cnf2 | treat | outcome |
1 | 0.077303 | 0.850043 | 0 | 67.46798 |
2 | -0.29687 | -0.92531 | 0 | 47.10014 |
3 | -1.18324 | 0.893581 | 1 | 76.63003 |
4 | 0.011293 | -0.94101 | 1 | 71.73025 |
5 | 0.991601 | 0.538952 | 0 | 74.70814 |
6 | 1.593967 | -0.18197 | 1 | 95.27978 |
7 | -1.37271 | 0.891768 | 1 | 73.85734 |
8 | -0.24961 | 1.329208 | 1 | 89.87022 |
9 | 1.159425 | -0.10347 | 1 | 89.48509 |
10 | -1.11422 | 0.615065 | 0 | 53.55731 |
※11人目以降は省略
PythonでCSVファイルを読み込む
それでは早速PythonでCSVファイルを読みこみます.今回はAnaconda3をインストールした際に使えるようになるSpyderという環境で操作します.Python単体でも同様のスクリプトで実行可能ですが,Spyderにはいろいろな補助機能があるため,こちらを使っていきましょう.
手順1.参考データ(CSV)をダウンロード
※後ほどSpyder上で読み込みたいデータの場所を指定する必要があるため,デスクトップなど自分が分かりやすい場所に保存しておくことをおすすめします!
手順2.Spyderを起動 ⇒ 新規ファイルを作成
- Spyderを起動
- 画面左上 新規作成ボタンアイコン をクリック
手順3.スクリプトを書き込む
- Pythonスクリプトパネル(左上パネル)に以下のスクリプトを書きこむ
- 読み込むデータファイル(robustwife.csv)をコピー
- pd.read_csv(“ここにペースト”, encoding=”utf-8″) 内に(2)をペースト
- Ctrl + Enter で全行を実行(F9キーでカーソルが当たっている行を1行ずつ実行することも可能)
# pandasライブラリをpdを名前をつけて使える状態にする
import pandas as pd
# pdに含まれるread_csvというメゾッドを使ってデータを読みこみdfとして保存
df = pd.read_csv("ここにcsvファイルのディレクトリをコピペ", encoding="utf-8")
# dfの中身を確認
print(df)
おまけ.データの中身をより馴染みのある形で見たいときは
- 変数エクスプローラー
- 中身を確認したいデータ・変数をダブルクリック
これでPython(Spyder)によるCSVデータの読み込みが完了しました!今回配布したサンプルデータであれば読み込みのエラーが起こることはないかもしれませんが,ご自身のデータを読み込んだ際にエラーが出た場合には,以下の項目に問題がないか,再度チェックしてみてください!
また,データファイルに日本語が含まれているとデータ読みこみでエラーが起こることもあるのですが,今回はファイルのエンコーディング(ファイルが作成された規格みたいなもの)を “utf-8” で指定しているので,データファイル内に日本語が含まれていても大きな問題はないはずです.
- Pythonのスクリプトに間違いはないか?
- データセットのパス/ファイル名に間違いはないか?拡張子はついているか?
- データセットのパス/ファイル名はダブルクオーテーションで囲まれているか?
- データセット内に不要な文字や図などは含まれていないか?
- データセットに日本語が含まれる場合には半角英数で置き換えてみる
PythonでExcelファイルを読み込む
次はPythonでExcelファイルを読みこみます.Excelファイルの場合にも基本的な操作はCSVと同じですが,コードを一部書き換えなければいけません.
ここでもサンプルとしてrobustwife.xlsxデータセットを配布します(上記のCSVファイルと拡張子が異なるだけです).
手順1.参考データ(Excel)をダウンロード
※後ほどSpyder上で読み込みたいデータの場所を指定する必要があるため,デスクトップなど自分が分かりやすい場所に保存しておくことをおすすめします!
手順2.Spyderを起動 ⇒ 新規ファイルを作成
- Spyderを起動
- 画面左上 新規作成ボタンアイコン をクリック
手順3.スクリプトを書き込む
- Pythonスクリプトパネル(左上パネル)に以下のスクリプトを書きこむ
- 読み込むデータファイル(robustwife.xlsx)をコピー
- pd.read_xlsx(“ここにペースト”, encoding=”utf-8″) 内に(2)をペースト
- Ctrl + Enter で全行を実行(F9キーでカーソルが当たっている行を1行ずつ実行することも可能)
# pandasライブラリをpdを名前をつけて使える状態にする
import pandas as pd
# pdに含まれるread_xlsxというメゾッドを使ってデータを読みこみdfとして保存
df = pd.read_xlsx("ここにcsvファイルのディレクトリをコピペ", encoding="utf-8")
# dfの中身を確認
print(df)
おまけ.データの中身をより馴染みのある形で見たいときは
- 変数エクスプローラー
- 中身を確認したいデータ・変数をダブルクリック
これでPython(Spyder)によるExcelデータの読み込みが完了しました!今回配布したサンプルデータであれば読み込みのエラーが起こることはないかもしれませんが,ご自身のデータを読み込んだ際にエラーが出た場合には,以下の項目に問題がないか,再度チェックしてみてください!
また,データファイルに日本語が含まれているとデータ読みこみでエラーが起こることもあるのですが,今回はファイルのエンコーディング(ファイルが作成された規格みたいなもの)を “utf-8” で指定しているので,データファイル内に日本語が含まれていても大きな問題はないはずです.
- Pythonのスクリプトに間違いはないか?
- データセットのパス/ファイル名に間違いはないか?拡張子はついているか?
- データセットのパス/ファイル名はダブルクオーテーションで囲まれているか?
- データセット内に不要な文字や図などは含まれていないか?
- データセットに日本語が含まれる場合には半角英数で置き換えてみる
おまけ.編集したpythonファイルを名前をつけて保存
まだまだプログラミングを始めたばかりだと分からないことも多いと思いますので,今回作成したpythonファイルを保存しておいて,次回以降にも使えるようにするための方法を説明しておきます.
手順1.ファイルを名前をつけて保存
- ファイル ⇒ 名前を付けて保存(あるいは Ctrl + S)
- 保存したい場所を指定
- 任意のファイル名を付ける ⇒ 保存(ファイルの拡張子は .py となる)
おまけ.次回以降に保存したファイルを開く方法
- フォルダマーク(あるいは Ctrl + O)
- 使いたい .py ファイルを指定 ⇒ 開く
まとめ
今回はPythonおよびSpyderによるデータセットの読みこみ方法を紹介しました.Pythonによるデータの読み込み方法も非常に多様ではありますが,まずはここで紹介した方法をマスターしてもらうと,データ解析までの準備が円滑になるかと思います.
※実際に実務上はこの方法で読み込むことがほとんどです.
統計ソフトに読みこめるようにデータを準備する,またデータをエラーなく読み込む,読みこんだあとに解析できる形に編集することは,統計解析やAIプログラミングの非常に重要かつ大変なステップです.まずは基本から抑えて,慣れていきましょう!
またAIや機械学習,Pythonの実践的な使い方を体系的に学びたいという方は以下のスクールがおすすめです.以下の記事でこれらのスクールの比較も行っていますので,ぜひ参考にしてみてくださいね.
コメント