データレイクとは何かざっくり解説!

業務効率化

【ざっくり言うと】

データレイクとは、「あとで使うかもしれないから、とりあえず何でも放り込んでおく巨大な沼(ため池)」のことやで。

  • 整理整頓なんてしなくていい。そのままドボンと保存する場所。
  • エクセルの表だけじゃなくて、画像とか動画とか「形の決まってないデータ」もOK。
  • 倉庫(DWH)に入れる前の「一時保管所」みたいなもんや。

【詳しく教えて!】

どうも、ワイです。

さっき解説したデータウェアハウス(DWH)は、綺麗に整理された「お店の商品棚」でしたよね。
でも、世の中には「棚に並べられないモノ」っていっぱいあるじゃないですか。

例えば、お客さんとの通話音声とか、防犯カメラの映像とか、ぐちゃぐちゃのメモ書きとか。

これを無理やりDWHに入れようとしても、「形が合いません!」ってエラーが出て弾かれちゃいます。
そこで登場するのが、データレイクです。

🌊 「キレイな倉庫」と「泥だらけの沼」

データレイクは、文字通り「湖(レイク)」です。
ここには、どんな形のデータでも、加工せずにそのまま「ドボン!」と投げ込んでOKです。

イメージとしては、「実家の押入れ」が近いです。
「いつか使うかもしれないから、とりあえずダンボールに詰めて突っ込んでおけ!」っていう、あの感じです。

💬 職場の風景で見てみよう

Aさん(新人):「先輩…困りました。コールセンターの『お客様の声(音声データ)』を分析しろって言われたんですけど、いつものDWHに入らないんです…。」

Bさん(ベテラン):「そりゃそうだよ。DWHは『エクセルみたいに表になってるデータ』しか受け付けない箱入り娘だからな。」

Aさん:「じゃあ、この大量の音声データ、捨てちゃうんですか?」

Bさん:「もったいない! そういうのはデータレイクに放り込んでおくんだよ。」

Aさん:「レイク…? 湖ですか?」

Bさん:「そう。Amazon S3とかGoogle Cloud Storageみたいな安い場所に、とりあえず保存しておくの。で、必要になったらそこから取り出して、AIで文字起こしして、綺麗なデータにしてからBigQueryに移せばいいんだよ。」

Aさん:「なるほど! とりあえずの避難場所なんですね!」

そう、まずは「データレイク」に全部貯めておく。
そこから必要なものだけを綺麗に洗って(加工して)、「データウェアハウス(DWH)」に移す。
これがプロのやり方なんです。


【結局どういうこと?】

ビジネスの現場では、「今は使い道がわからなくても、将来AIとかで使えるかもしれないから、安いコストでデータを丸ごと保存しておく場所」として使います。

まぁ、そんな感じです。

コメント

タイトルとURLをコピーしました