【ざっくり言うと】
ETLツール(イーティーエル)とは、泥だらけの野菜を「洗って・皮をむいて・カットして」から冷蔵庫に入れてくれる「全自動調理ロボット」のことやで。
- バラバラの場所にあるデータを集めてくる(E:Extract)。
- 使いやすい形にキレイに加工する(T:Transform)。
- 決まった倉庫に保存する(L:Load)。
【詳しく教えて!】
どうも、ワイです。
前回、データレイク(泥だらけの野菜置き場)と、データウェアハウス(キレイな野菜室)の話をしましたよね。
でも、泥だらけの野菜をそのまま野菜室に入れたらどうなります?
……そう、大惨事ですよね。お母さんに激怒されます。
だからといって、手作業で1個ずつ泥を落とすのは面倒くさい。
その「下ごしらえ」を全自動でやってくれるのがETLツールなんです。
🥕 カレー作りで例えてみよう
ETLは、英語の頭文字を取った言葉です。
カレー作りでイメージすると一発で分かります。
- E (Extract = 抽出):
畑(データレイク)から、人参やジャガイモを引っこ抜いてくる作業。
(まだ泥だらけです) - T (Transform = 変換・加工):
泥を水で洗い流して、皮をむいて、一口サイズにカットする作業。
(ここで初めて料理に使える形になります) - L (Load = 格納):
カットした野菜を、お鍋や冷蔵庫(DWH)に入れる作業。
この3ステップを、人間が寝ている間に勝手にやってくれるのがETLツールなんです。
💬 職場の風景で見てみよう
Aさん(新人):「先輩…また怒られました。データレイクにある顧客データをそのままDWHに移そうとしたら、『形式が違います!』ってエラーが出て…。」
Bさん(ベテラン):「そりゃそうだよ。レイクのデータは『半角カタカナ』とか『全角数字』が混ざった泥付き野菜なんだから。そのまま入るわけないだろ。」
Aさん:「えっ、じゃあこれ、私がエクセルで1万行修正するんですか…? 今日帰れませんよ…。」
Bさん:「違う違う。そこでETLツールを使うんだよ。『全角は半角に直してね』って設定しておけば、移動するときに勝手にキレイにしてくれるから。」
Aさん:「なにそれ便利! データの『洗い場』を通すイメージですね!」
最近のエンジニアは、このETLを使って「データが毎日自動で綺麗になってDWHに届くパイプライン」を作っているわけです。
【結局どういうこと?】
ビジネスの現場では、「人間が手作業でやっていた『コピペ』や『データ修正』という不毛な時間をゼロにして、寝ている間に分析データを完成させる」ために使います。
まぁ、そんな感じです。


コメント