ETLツールについて。その内容と周辺ツールとの違い

IT化によって様々な業務アプリケーションや基幹系システムが乱立しています。これからのDX(デジタルトランスフォーメーション)が進む現代では、それらから収集される膨大なデータから必要なデータを素早くかつ的確に取り出し、分析し、ビジネスに活かすことが求められます。そこで今回は、膨大で多様なデータを効率的に統合するツールである、ETLツールについて紹介します。

ETLツールとは

ETLツールとは、日々の業務において蓄積された膨大なデータを集約する、ITプロダクトのカテゴリーのうちの1つです。

具体的には、各種業務アプリケーションやデータベース、Excelやテキストファイルのデータといった膨大なデジタルデータを、

  • 抽出・収集(Extract)し、
  • 利用しやすい形に変換・加工(Transform)したうえで、
  • 新しい格納場所に書き出し(Load)する

という一連の処理を行います。上記3単語の頭文字をとってETLと呼ばれます。

ETLツールが行う一連の処理

Extract(抽出)

企業活動で日々生成され、蓄積された膨大なデータから、目的や必要に応じたデータを抽出します。売上や予算、勤怠、会計、人事など様々なデータベースに存在するデータを取り出し、各システムに散らばっているデータを取り揃えていく工程です。

Transform(変換)

抽出されたデータを適切なフォーマットに変換します。データの誤りや不足を補正・補完し、最適化する作業(データクレンジング)を行う工程です。

Load(書き出し)

変換されたデータをDWH(後段で解説)などのデータストアと呼ばれる場所へ書き出します。

ETLツールの導入で期待できる効果

社内システムのデータが増えていく中で、データの所在もフォーマットもバラバラになっていき、必要な情報を1ヶ所から取得することが困難になっていきます。

そこでETLツールを導入することにより期待できる効果は以下の3つです。

データの加工や集計を自動化することで、人為的ミスを軽減できる

ETLツールがデータの重複や誤り、表記の揺れなどを自動で修正するため、質の高いデータ統合ができます。

定型タスクの実行に要する時間を大幅に削減できる

複数のシステムからデータを抽出してまとめることは手作業でも可能ですが、かなりの手間と時間がかかります。ETLツールを使うことで、データの集計や管理にかかる時間を大幅に削減することができます。

社内のIT担当者をデータ統合以外の業務に回せる

ETLツールを導入することで、ある程度のIT開発知識があれば、システム間データ連携を短時間でスムーズに構築することが可能になります。さらに、メンテナンスも容易に実施することができるため、技術者をETLツールの運用に回す必要がなく、他の業務に専念させることができます。

ETLツールと周辺ツール

EAI (Enterprise Application Integrator)との違い

EAIツールは、組織内外に複数ある業務アプリケーションのデータを統合するITプロダクトです。EAI・ETLツールともに、異なるシステム間のデータを連携し、業務改善や意思決定の迅速化を図るという点では同じです。しかし、その目的・得意とするところは異なります。

EAIの目的は、システム間のデータ連携を高速で行うことです。
EAIツールは「イベント指向」のデータ処理を得意としています。つまり、業務プロセスと密接した細かなデータ連携に適しています(例:ファイルが更新されたタイミングでのデータ連携など)。データ連携頻度が高く双方向性が強いため、その連携単位あたりのデータ量は少なくなります。すなわち、高速なデータ連携に向いているものの、処理できるデータ量には制限があります。

一方、ETLツールの目的は、企業内データを単一のデータベースに集約することです。
ETLツールは「バッチ指向」でのデータ処理を得意としています。つまり、比較的大量のデータを一括処理する必要性があるデータ連携に適しています(例:日次処理、月次処理など)。データ連携頻度が低く単方向性が強いため、その連携単位あたりのデータ量は多くなります。すなわち、高速なデータ連携には不向きであるものの、処理できるデータ量は多くなります。

DWH(Data Ware House)/BI (Business Intelligence)との関係性

DWHはデータ保管庫、BIはデータ分析ツールです。ETLツールによって抽出・加工されたデータをDWHに書き出し、BIツールを用いて分析を行います。

ETLツールがない場合、加工されていないデータをそのままDWHに入れることとなり、BIツールによるデータ分析の正確さとスピードが損なわれてしまいます。ETLツール、DWH、BIツールすべてを適切に活用することで、データを効率的に利用することが可能になります。

RPA (Robotic Process Automation)との連携

RPAは、それまで人手で行っていたPC上での定型作業を自動化・ロボット化することです。RPAとETLツールを連携させることで、自動化の範囲をさらに広げることができます。

ETLツールによるデータ収集は、データソースのシステムに直接接続してデータを取得できる必要があります。そこで、ETLツールが直接接続することができないようなケースがRPAの出番となります。

具体的な例としては、利用しているWEBサービスのデータ提供方法としてAPI(Application Programming Interface)が提供されておらず、条件指定したCSVファイルのダウンロードに限定されている場合があげられます。この条件指定とダウンロード作業をRPAが担い、ダウンロードファイルが特定のフォルダーに保存されたタイミングで、ETLツールのタスクが起動するといったデータフローが考えられます。

おわりに

このように、ETLツールを利用すれば、異なるシステム間でのデータ連携を正確に、高速で行うことが可能となります。ETLツールで、企業内に蓄積されたデータを効率的に活用してみてはいかがでしょうか。

 

Yuimediでは、データの利活用促進を通じて、医療・ヘルスケアにかかわるすべての人への価値提供を目指し、医療データのクレンジングソフトウェア「Yuicleaner」の提供やRWDの利活用のコンサルテーションを実施しています。
YuicleanerおよびYuimediにご興味のある方は、こちらからお気軽にお問合せください。

 

参考リンク

ETLツールとは:データフロー全体像のなかで担う領域と期待できる効果 | 簡単・高速・信頼の純国産ETL:データ連携ツール Waha! Transformer

いまさら聞けない「ETL」とは? – Informatica Blog Japan

EAIとETL、その違いってそもそもなんでしょう?

選び方ガイド – aebis

ETLやDWH(データウェアハウス)を用いたBIツールの活用方法

データ連携の頼れる味方!ETLによる効率的な変換と有効活用