はじめに近年、データ活用の現場ではクラウドネイティブな分析基盤の利用が一般化してきました。その代表格として挙げられるのが Snowflake と Databricks です。本記事では、2大クラウドデータ基盤の一角である 「Databricks」 と、マイクロソフトのBIツール Power BI を連携させ、データを可視化するまでの流れを解説します。「ローカルのエクセルやCSVだけでなく、クラウド上の分析基盤に蓄積したビッグデータもPower BIで扱いたい」と考えている方におすすめです。Power BIとは?BIツールの特徴とできることPower BI は、マイクロソフトが提供する データ分析・可視化プラットフォーム です。下図のように直感的な操作でグラフやダッシュボードを作成でき、Excelに慣れているユーザーであれば比較的短期間で使いこなせるようになります。PowerBIは、一般的に以下のような特徴があります。多様なデータソースに対応:ExcelやCSVはもちろん、SQL Server、Oracle、Salesforce、さらにはSnowflakeやDatabricksなどのクラウド基盤とも接続可能。直感的な可視化機能:ドラッグ&ドロップ操作で棒グラフ、折れ線、散布図、マップなどを作成できる。共有・配信機能:作成したレポートをPower BI Serviceに公開すれば、チーム全体でブラウザやモバイルから参照可能。Databricksとは?Snowflakeと並ぶクラウドネイティブ分析基盤 Databricks は、データレイクハウス(Data Lakehouse) という新しいアーキテクチャを提唱する分析クラウドサービスです。Apache Spark をベースにした分析基盤としてスタートし、現在では以下の特徴を持っています。大規模データ処理:機械学習やETL処理、大規模ログ解析などに強み。オープンテーブルフォーマットの採用:Delta Lakeの技術を使用してデータレイク上のデータに対してACIDトランザクションを実現。SQLインターフェース:従来のSparkだけでなく、SQLベースでテーブル操作が可能。クラウドネイティブ:AWS、Azure、GCP上で動作し、スケーラブルかつセキュアに利用可能。Snowflakeと並んで代表的なクラウドデータ基盤であり、データ可視化ツールであるPower BIと組み合わせることでユーザーに対して非常にわかりやすくデータを説明することができます。下図はDatabricksが提供するNotebook環境のGUI画面で、SQLやPython、Rなどを組み合わせたデータ分析や機械学習が直感的に行えます。さらにGUIベースでデータフレームの内容を確認しながら前処理や変換を進められるため、エンジニアからアナリストまで幅広く使いやすい設計になっています。Power BIとの連携により、Sparkで処理した結果をリアルタイムに可視化することが可能となり、データ探索から意思決定までを一気通貫で行うことができます。Power BIはExcelやCSVだけでなくクラウドデータソースに対応Power BIを初めて使う人の多くは「ExcelやCSVファイルの可視化ツール」としてのイメージを持っています。確かにローカルデータを読み込んで簡単にレポートを作成できるのはPower BIの大きな魅力です。しかし実際には、Power BIは クラウドデータ基盤との接続 で本領を発揮できます。DatabricksやSnowflakeのようなSaaSに直接接続すれば、オンプレミスでは扱いにくい大規模データを効率的にビジュアル化できます。上図で示す通り、クラウドをはじめとする様々なオンラインの「データソース(PowerBIがデータを可視化するデータの源)」に対応しています。Power BIとDatabricksを接続する方法についてそれでは、実際にPower BIからDatabricksに接続する流れを見ていきましょう。今回は下記の構成を前提として、接続する方法を見ていきます。あらかじめ、PowerBIからSaaSであるDatabrickに接続する際に接続先のホストの情報HTTPパスが必要になります。また接続時の認証情報として、今回は「個人用アクセストークン(PAT)」を使用してアクセスしてみたいと思います。1.接続先のホストの情報 / HTTPパス接続先のホストの情報 / HTTPパスは、「SQL warehouse」から自身が使用している「Compute」を選択します。今回は「Serverless Starter Warehouse」を選択します。その後、そのサーバの「Server hostname」「HTTP path」が表示されるので、その値をコピーします。2.個人用アクセストークン(PAT)個人用アクセストークン(PAT)は、「setting」画面から「Generate new token」を選択します。Generate new tokenの画面から「Generate」を押下して、生成されるtoken情報をコピーしておきます。それでは、PowerBIを起動してDatabricksのデータ基盤に接続してみましょう。1.Power BI Desktopを起動まず、「データを取得」メニューから「Azure」カテゴリを選びます。2.Databricksを選択「Azure Databricks」を選択して「接続」を押下すると、接続ウィザードが表示されます。先ほど、コピーしておいた「サーバーホスト名」/「HTTP path」 を入力します。3.認証情報の入力Databricksでは「個人用アクセストークン(PAT)」か「Azure Active Directory認証」を利用します。組織アカウントを利用している場合はSSOを推奨。個人利用や検証環境ではPATでも可能です。今回は、個人用アクセストークン(PAT)を使用した例を見てみましょう。先ほど、コピーした「個人用アクセストークン(PAT)」を貼り付けて「接続」を押下します。4.接続成功後、テーブル選択接続に成功すると、エクスプローラにDatabricks上のフォルダが表示されます。PowerBIに取り込みたい「テーブル」を、カタログ → スキーマ → テーブルから選び、「読み込み」を押下して取り込みを行います。接続が成功すると、通常のExcelやCSVと同じようにフィールドを選択してレポートを作成することができます。下図は、例としてDatabricks上の「sales_customers」テーブルの「country」カラムを円グラフで可視化したものです。このようにDatabricks上の大規模データも、Power BIのGUIで簡単に可視化することができます。最後に:Power BIとDatabricks連携でクラウドデータ活用を加速させるPower BIは単なる「ローカルExcelの可視化ツール」ではなく、DatabricksやSnowflakeといったクラウドネイティブ分析基盤と接続できる強力なBIプラットフォームです。ローカルデータからクラウドビッグデータまで幅広く対応Databricksとの接続により、データサイエンスからビジネス活用までを橋渡し可能Power BI Serviceと組み合わせれば、チーム全体でデータドリブン経営を実現今後、企業がクラウドデータ活用を進める中で、「Databricks × Power BI」 は非常に強力な組み合わせになるでしょう。DatabricksやPower BIを活用したデータ分析基盤の構築・可視化に関するご相談は、UDATAまでお気軽にお問い合わせください。導入支援や運用設計など、お客様の課題に合わせた最適なご提案をいたします。👉 お問い合わせはこちら