【ざっくり言うと】
データレイクとは、「あとで使うかもしれないから、とりあえず何でも放り込んでおく巨大な沼(ため池)」のことやで。
- 整理整頓なんてしなくていい。そのままドボンと保存する場所。
- エクセルの表だけじゃなくて、画像とか動画とか「形の決まってないデータ」もOK。
- 倉庫(DWH)に入れる前の「一時保管所」みたいなもんや。
【詳しく教えて!】
どうも、ワイです。
さっき解説したデータウェアハウス(DWH)は、綺麗に整理された「お店の商品棚」でしたよね。
でも、世の中には「棚に並べられないモノ」っていっぱいあるじゃないですか。
例えば、お客さんとの通話音声とか、防犯カメラの映像とか、ぐちゃぐちゃのメモ書きとか。
これを無理やりDWHに入れようとしても、「形が合いません!」ってエラーが出て弾かれちゃいます。
そこで登場するのが、データレイクです。
🌊 「キレイな倉庫」と「泥だらけの沼」
データレイクは、文字通り「湖(レイク)」です。
ここには、どんな形のデータでも、加工せずにそのまま「ドボン!」と投げ込んでOKです。
イメージとしては、「実家の押入れ」が近いです。
「いつか使うかもしれないから、とりあえずダンボールに詰めて突っ込んでおけ!」っていう、あの感じです。
💬 職場の風景で見てみよう
Aさん(新人):「先輩…困りました。コールセンターの『お客様の声(音声データ)』を分析しろって言われたんですけど、いつものDWHに入らないんです…。」
Bさん(ベテラン):「そりゃそうだよ。DWHは『エクセルみたいに表になってるデータ』しか受け付けない箱入り娘だからな。」
Aさん:「じゃあ、この大量の音声データ、捨てちゃうんですか?」
Bさん:「もったいない! そういうのはデータレイクに放り込んでおくんだよ。」
Aさん:「レイク…? 湖ですか?」
Bさん:「そう。Amazon S3とかGoogle Cloud Storageみたいな安い場所に、とりあえず保存しておくの。で、必要になったらそこから取り出して、AIで文字起こしして、綺麗なデータにしてからBigQueryに移せばいいんだよ。」
Aさん:「なるほど! とりあえずの避難場所なんですね!」
そう、まずは「データレイク」に全部貯めておく。
そこから必要なものだけを綺麗に洗って(加工して)、「データウェアハウス(DWH)」に移す。
これがプロのやり方なんです。
【結局どういうこと?】
ビジネスの現場では、「今は使い道がわからなくても、将来AIとかで使えるかもしれないから、安いコストでデータを丸ごと保存しておく場所」として使います。
まぁ、そんな感じです。


コメント