どうもこんにちは、コンです。
現在私はGoogle Cloud Platformが資格として設定している、Professional Machine Learning Engineerの取得に向けて頑張っております。
今はグーグルが無料で提供してくれているオンデマンドビデオで勉強中なのですが
DataprepとDateprocというGCPが提供しているサービスが、似ている名前でよく混乱してます(笑)
なのでこの2つの違いについて、勉強したメモを共有させてもらえたらと思って記事にしました。
この2つが登場するフェーズ
機械学習において、1番重要な事。それは、、
学習に使用するデータをしっかり整理・整頓すること
そのために使うのがDateprepやDataprocになります。
DataprocやDataprepはETL(Extract, Transform, Load)と呼ばれる機能になります。
データソース(Cloud StrageやCloud Storageなど) ⇨ 変換処理(ETL) ⇨ またデータベースという流れになります。
上の図はDataprepがどのポジションで使われているかの図になります。
Dataprep とは
DataprepはGUI操作で機械学習に使用する構造化データと非構造化データを視覚的に探索、クリーニング、準備できるサービスです。
実際にDataprepを使っている動画を下記に貼り付けます。
Dataprep は内部的に Dataflow または BigQuery を使用しているそうです。
GCPの資格取得という観点ではDataprepはDataflowとペアとして使うイメージがあれば大丈夫です。
DataflowとDataproc
DataprocはDataflowと比べられることが多いです。(機能が似ているらしい)
①Dataflow
Apache Beamベースにしたデータ処理のサービス。
ストリーム処理とバッチ処理両方に対応しており、オートスケールにも対応しているので重い処理や複雑な処理に向いている。
特にストリーム処理に自信ありそうな感じ。
②Dataproc
SparkやHadoopなどのクラスタを構築してくれるサービス。
基本的にDataflowを使えば良くて、SarkやHadoopを使いたい方はDataprocをどうぞ!
みたいなものでした。
参考になる情報
・基本的なGCPのことがしっかりまとめてくれている教科書
・Compare AWS and Azure services to Google Cloud(GCPの公式ページ)
・GCP入門[第7回]ビッグデータその3 Cloud Dataflow / Cloud Dataprep(日経XTech)