Skip to main content

Databricks Unity Catalog

接続タイプ

ODBC (64ビット)

ドライバー設定要件

ホストはDatabricks Unity CatalogクラスターJDBC/ODBCサーバーのホスト名である必要があります。

AWSとAzureの両方でサポートされています。

サポートのタイプ

読み込み&書き込み、インデータベース

検証済み

DatabricksクラスターおよびSQL Warehouse、Simba Apache Sparkドライバー2.9.4.1013

ドライバーの詳細

インデータベース処理には、64ビットのデータベースドライバが必要です。

接続に使用するAlteryxツール

標準的なワークフロー処理

インデータベースのワークフロー処理

注記

Databricks Unity Catalogのサポートは、DCMを使用する場合のみサポートされます。

Databricks Unity Catalogは、DSNレス接続を使用する場合のみサポートされます。

Databricks Unity Catalogへの書き込みは、In-DBツール を使用する場合のみサポートされています。

Databricks Unity Catalog用のMergeInDBをサポートしています。データ書込In-DBツール を参照してください。Blue icon with floppy disk. データ書込In-DBツール

入力ツールの設定

このツールは、DCMの Simba Databricks Unity Catalog経由Apache Spark ODBC DSNレス 接続テクノロジーを使用します。

  1. DCMが有効になっていることを確認します。

  2. 入力ツールで [接続を設定します] を選択します。

  3. [データソース] タブを選択します。

  4. Databricks Unity Catalog の下にある [クイック接続] オプションを選択します。

  5. DCM接続マネージャーは、Simba Databricks Unity Catalog経由Apache Spark ODBC DSNレス 接続のみを表示するように事前にフィルタリングされています。

  6. 既存のDCM接続を選択するか、[+新規] を選択して新しい接続を作成します。DCMを使用して新しい接続を設定する方法については、以下を参照してください

  7. [テーブルの選択またはクエリを指定] ウィンドウがロードされ、テーブルを選択できます。

In-DB接続の設定

  1. In-DB接続の管理 を開きます。

  2. [データソース] ドロップダウンで [Databricks Unity Catalog] を選択します。

  3. [新規] を選択して新しい接続を作成します。

  4. 接続名を入力します。

  5. [読み取り] タブで [接続セットアップ] を選択して、Databricks Unity CatalogのDCM接続マネージャーを開きます。DCM接続マネージャーは、Simba Databricks Unity Catalog経由Apache Spark ODBC DSNレス 接続のみを表示するように事前にフィルタリングされています。

  6. 既存の接続を選択するか、[+新規] をクリックして新しい接続を作成します。DCMを使用して新しい接続を設定する方法については、以下を参照してください

  7. [書き込み] タブで [接続セットアップ] を選択してDatabricks接続のDCM接続マネージャーを開きます。DCM接続マネージャーは、Simba Databricks Unity Catalog経由Apache Spark ODBCバルクDSNレス 接続のみを表示するように事前にフィルタリングされています。

  8. 既存の接続を選択するか、[+新規] を選択して新しい接続を作成します。DCMを使用して新しい接続を設定する方法については、以下を参照してください

  9. [書き込み] タブで [接続セットアップ] を選択して、Delta Lake接続のDCM接続マネージャーを開きます。DCM接続マネージャーは、Delta Lake 接続のみを表示するように事前にフィルタリングされています。

  10. 既存の接続を選択するか、[+新規] を選択して新しい接続を作成します。DCMを使用して新しい接続を設定する方法については、以下を参照してください

  11. [適用] と [OK] を選択して接続を保存し、ウィンドウを閉じます。

  12. [In-DB接続の管理] に接続In-DBツールからアクセスした場合は、[テーブルの選択またはクエリを指定] ウィンドウがロードされ、テーブルを選択できます。

注: Databrick Unity Catalogでは、読み取りに対する最小アクセス権として次の権限が必要です。

  • 情報スキーマ(既定)

  • CATALOGのUSE CATALOG

  • SCHEMAのUSE SCHEMA

  • 対応するテーブルのBROWSE(既定)

  • 対応するテーブルのSELECT

DCMでのSimba Databricks Unity Catalog経由Apache Spark ODBC DSNレスの設定

この接続は、Databricks Unity Catalogからデータを読み取るために使用されます。

  1. データ接続マネージャーを開き、[Simba Databricks Unity Catalog経由Apache Spark ODBC DSNレス] に移動します。

    • 入力ツールまたは [In-DB接続の管理] から、DCMは事前にフィルタリングされています。

    • [ファイルメニュー]から、[ファイル] > [接続を管理] > [+新規] > [Apache Spark] > [Simba Databricks Unity Catalog経由Apache Spark ODBC DSNレス]に移動します

  2. データソース名 を入力します。

  3. Databricks Unity Catalogのホスト 名を入力します。

  4. 既定ではポートは443に設定されます。必要に応じて変更します。

  5. httpパスを入力します。httpパスは、DatabricksコンピューティングリソースのURLです。

  6. [保存] を選択して、データソースを保存します。

  7. [+資格情報の接続] を選択します。

    • [認証方法] を選択します。

    • 個人のアクセストークンを使用するには、認証方法として [ユーザー名とパスワード] を選択し、ユーザー名を「トークン」にします。

    • Azure ADを使用するには、[Databricks Azure Oauth認証] を参照してください。

    • [既存の資格情報] を選択する か、[新しい資格情報の作成] を選択して新しい資格情報を作成し、個人のアクセストークンまたはAzure ADの情報を入力します。

  8. [リンク] を選択して資格情報をデータソースにリンクし、[接続] を選択します。

DCMでのSimba Databricks Unity Catalog経由Apache Spark ODBCバルクDSNレスの設定

この接続は、Databricks Unity Catalogへのデータ書き込みに使用されます。

  1. データ接続マネージャーを開き、[Simba Databricks Unity Catalog経由Apache Spark ODBCバルクDSNレス] に移動します。

    • 入力ツールまたは [In-DB接続の管理] から、DCMは事前にフィルタリングされています。

    • [ファイルメニュー]から、[ファイル] > [接続を管理] > [+新規] > [Apache Spark] > [Simba Databricks Unity Catalog経由Apache Spark ODBC DSNレス]に移動します。

  2. データソース名 を入力します。

  3. Databricks Unity Catalogのホスト 名を入力します。

  4. 既定ではポートは443に設定されます。必要に応じて変更します。

  5. httpパスを入力します。httpパスは、DatabricksコンピューティングリソースのURLです。

  6. カタログ を入力します。これにより、データの書き込みとテーブルの作成に使用するカタログが設定されます。

  7. スキーマ を入力します。これにより、データの書き込みとテーブルの作成に使用するスキーマが設定されます。

  8. [保存] を選択して、データソースを保存します。

  9. [+資格情報の接続] を選択して、資格情報を追加します。

    • [認証方法] を選択します。

    • 個人のアクセストークンを使用するには、認証方法として [ユーザー名とパスワード] を選択し、ユーザー名を「トークン」にします。

    • Azure ADを使用するには、[Databricks Azure Oauth認証] を参照してください。

    • [既存の資格情報] を選択する か、[新しい資格情報の作成] を選択して新しい資格情報を作成し、個人のアクセストークンまたはAzure ADの情報を入力します。

  10. [リンク] を選択して、資格情報をデータソースにリンクします。

  11. [接続] を選択して接続します。

DCMでのDelta Lake接続の設定

この接続は、AWS S3またはADLSのデータのステージングに使用されます。

  1. データ接続マネージャーを開き、[AWS上のDelta Lake] または [Azure上のDelta Lake] に移動します。

    1. 入力ツールまたは [In-DB接続の管理] から、DCMは事前にフィルタリングされています。

    2. [ファイルメニュー]から、[ファイル] > [接続を管理] > [+新規] > [Delta Lake] > [AWS上のDelta Lake/Azure上のDelta Lake]に移動します。

  2. AWS上のDelta Lakeの場合

    1. データソース名 を入力します。

    2. エンドポイント を入力するか、[Default] のままにします。[Default] を使用すると、選択したバケットに基づいてAmazonがエンドポイントを決定します。

    3. 特に別の指示がない限り、[認証に署名V4を使用する] が選択されていることを確認します。チェックされていない場合は、署名V2が使用されます。2014年1月30日より後に作成された地域では、署名バージョン4のみがサポートされます。次の地域では、署名バージョン 4 認証が必要です。

      • アメリカ東部(オハイオ)地域、

      • カナダ(中央)地域、

      • アジア太平洋(ムンバイ)地域、

      • アジア太平洋(ソウル)地域、

      • EU(フランクフルト)地域、

      • EU(ロンドン)地域、

      • 中国(北京)地域。

    4. 必要なサーバー側の暗号化のレベルを選択します。既定では [None] です。

      • None (Default): 暗号化方式は使用されません。

      • SSE-KMS: AWS KMS で管理されたキーでサーバーサイドの暗号化を使用します。KMS キー ID を指定することもできます。この方法を選択したときは、[認証に署名V4を使用する] の選択が必要です。

    5. ステージングに使用する バケット名 を入力します。ユーザーは、バケットの読み取り、書き込み、削除の権限を持っている必要があります。

  3. Azure上のDelta Lakeの場合

    1. データソース名ADLSコンテナストレージアカウントを入力します。

    2. ストレージの [一時ディレクトリ] はオプションです。一時ディレクトリを入力するときは、コンテナ名を繰り返さないでください。ここで入力したディレクトリが存在しない場合は、Alteryxによって作成されます。Alteryxでは、ステージングされたテーブルごとにそのテーブル名がついたサブフォルダーが1つ作成されます。

  4. [保存] を選択して、データソースを保存します。

  5. [+資格情報の接続] を選択します。

    1. [認証方法] を選択します。

      • AWS上のDelta Lakeの場合、認証方法は AWS IAMアクセスキー のみです。

      • Azure上のDelta Lakeの場合、[共有アクセスキー] または [Azure AD] 認証のどちらかを選択できます。

    2. 既存の資格情報 を選択するか、新しい資格情報の作成 で新しい資格情報を作成します。

      • 資格情報名と、AWS IAMアクセスキーまたはAzure共有キーを入力します。

  6. [リンク] を選択して、資格情報をデータソースにリンクします。

  7. [接続]を選択します。

DatabricksのUPSERTのサポート

DesignerでIn-DBマージ機能が拡張され、DatabricksのUPSERT動作を完全にサポートするようになりました。

一致した行に対するUPDATEDELETEの操作に加えて、一致しない行に対してオプションで、WHEN NOT MATCHED条件を使用してINSERTを実行できるようになりました。これにより、1つのワークフローで一致したレコードと一致しないレコードを管理できます。

UPSERT用にデータ書込In-DBを設定する

  • データ書込In-DBツールをキャンバスにドラッグし、出力モードを[テーブルのマージ]に設定します。

  • マージ操作を実行するターゲットテーブルをDatabricksで指定します。

  • 入力行とターゲット行を一致させる1つ以上のキー列を選択します。

    例:

    people10m.id = people10mupdates.id

  • アクションの設定

    • WHEN MATCHED – 一致したレコードに対してUPDATEまたはDELETEのどちらを使用するかを選択します。

    • WHEN NOT MATCHED (オプション) – 一致しない行を挿入するには、INSERTを選択します。

  • ワークフローを実行して、DatabricksでUPSERT操作を実行します。この操作は、指定されたとおりにレコードを更新、削除、または挿入します。

重要

この機能は完全な下位互換性を提供します。[WHEN NOT MATCHED]を選択しない場合、Designerは以前と同様に動作します。