【初心者向け】csvのデータから特定の文字の場所検索【pandas】｜工場プログラマーのモダン開発プラクティス

本記事ではPythonのライブラリのpandasを使って、csvファイル中から特定の行のデータを抽出するコードを紹介します。

このコードだけでもpandasについて色々学べるため、是非読んでいってください。

今回使用するCSVとお題

fruitdata.csvというname, number, priceのデータが入った下記の画像のようなデータを使用します。

このCSVから以下の４パターンのデータを取得するコードを考えていきます。

nameが「ばなな」のデータが何行目か

Pythonコード

基本的には

(i) 　CSVファイルを読み込む
(ii)　条件を満たすロジックを書いていく

という順で実装していきます。

pandasのread_csvメソッドを使ってdf(データフレーム)というpndasの型に落とし込んで
そこからdfのname列からデータが「ばなな」になっているものを探します。

import pandas as pd

# CSVファイルを読み込む
df = pd.read_csv('fruitdata.csv')

# Trueのインデックスを取得
true_indices = df.index[df['name'] == 'ばなな'].tolist()

# 結果を出力＝＞
print(true_indices)

このコードの中にも
いくつか覚えて置いたほうがいい事があるので紹介していきます。

pd.read_csv

基本的にはCSVやエクセルファイルなんかは、pandasで読み込むのが良いです。
個人的な1番のポイントは今回のような日本語の情報が入ったファイルの取り扱いがしやすいからです。

numpyなどでcsvは読み込めますが、デフォルトでCSV読み込むと日本語入っているだけでエラー吐くのでpandasをオススメ。

dfをprintで出力すると

のように左端にインデックスをつけてくれます。０から始まるところがPython仕様って感じがします。

df.index

df.indexはdfのインデックス部分を指します。dfを出力したの左端の列の数字です。

余談なのですがdf.indexをprintしてみると

と表示されて[0, 1, 2, 3]ではない形で表現されます。
これはメモリ効率的に表現するための方法だそうです。数値が連続している場合に範囲とステップだけを記録することで、メモリ使用量を削減しています。

なので

df.index[条件].tolist()

という形でdf.indexは条件を書いた後に、tolist()を書いてlist化しています。

おわりに

ここまで読んでいただき、誠にありがとうございました。

csvファイルの取り扱いは多くの職場で行うことなので、本記事が参考になれば幸いです。

javaScriptを書くようになっても、結局Pythonを使って何か処理はする今日この頃。
ライブラリもこの数年で色々出ていそうだから今度のGWに勉強してみたいです。

それでは。

リンク

Post Views: 3,258

仕事 Pytohnプログラマー Pandas

【初心者向け】csvのデータから特定の文字の場所検索【pandas】

今回使用するCSVとお題

Pythonコード

pd.read_csv

df.index

おわりに

【初心者用】機械学習ライブラリPyCaretで回帰テスト【Python】

【Pythonアプリ作成】PyPDF2でPDFを分割するツール【コピペOK】

【yfinance】Pythonで日本企業の株価一覧を取得してランキング化

COMMENT コメントをキャンセル

【pandas】csvの特定の行・列範囲を削除して保存

【Python】画像中の文字認識の簡単実装【EasyOCR】

【playsound】Pythonでmp3ファイルを再生する

【Numpy】先鋭化フィルターで画像をくっきりさせる　【鮮明化】

Tkinterアプリを閉じたらPythonも終了するコード

【Python】画像の簡単切り抜き【Rembg】

【RetinaFace, MTCNNなど】Pythonによる人の顔検出比較

【Python】製造装置とのシリアル通信のポート番号自動検知

【Python】動画へのテロップ挿入【MoviePy】

【Python】コールバック関数と高階関数

【Python】自動翻訳ライブラリ【Googletrans】

【Python】Excel中の条件に一致した行の抽出【pandas】

【困り事メモ】matplotlibのcolorbarの大きさの調整【Python】

【Python】pandasでExcelデータからグラフ作成【散布図】

【yfinance】Pythonで日本企業の株価一覧を取得してランキング化

今回使用するCSVとお題

Pythonコード

pd.read_csv

df.index

おわりに

【初心者用】機械学習ライブラリPyCaretで回帰テスト【Python】

【Pythonアプリ作成】PyPDF2でPDFを分割するツール【コピペOK】

【yfinance】Pythonで日本企業の株価一覧を取得してランキング化

COMMENT コメントをキャンセル

【pandas】csvの特定の行・列範囲を削除して保存

【Python】画像中の文字認識の簡単実装【EasyOCR】

【playsound】Pythonでmp3ファイルを再生する

【Numpy】先鋭化フィルターで画像をくっきりさせる 【鮮明化】

Tkinterアプリを閉じたらPythonも終了するコード

【Python】画像の簡単切り抜き【Rembg】

【RetinaFace, MTCNNなど】Pythonによる人の顔検出比較

【Python】製造装置とのシリアル通信のポート番号自動検知

【Python】動画へのテロップ挿入【MoviePy】

【Python】コールバック関数と高階関数

【Python】自動翻訳ライブラリ【Googletrans】

【Python】Excel中の条件に一致した行の抽出【pandas】

【困り事メモ】matplotlibのcolorbarの大きさの調整 【Python】

【Python】pandasでExcelデータからグラフ作成【散布図】

【yfinance】Pythonで日本企業の株価一覧を取得してランキング化

【Numpy】先鋭化フィルターで画像をくっきりさせる　【鮮明化】

【困り事メモ】matplotlibのcolorbarの大きさの調整【Python】