Databricks

Type de connexion	ODBC (64 bits)
Configuration requise pour le pilote	L’hôte doit correspondre à un nom d’hôte JDBC/ODBC Server du cluster Databricks. Pour obtenir des performances optimales, vous devez activer l’option Fast SQLPrepare dans les Options avancées du pilote afin de permettre à Alteryx de récupérer les métadonnées sans exécuter une requête. La case Traduction activée pour CTAS doit être décochée dans le DSN. Elle est cochée par défaut. Pour utiliser le Générateur de requêtes visuelles, sélectionnez l’option Obtenir les tables avec la requête dans les Options avancées du pilote. Pris en charge pour AWS et Azure.
Type de prise en charge	Lecture et écriture, En base de données
Validé le	Cluster Databricks Interactive et de point de terminaison SQL, pilote Simba Apache Spark 2.06.23.

Outils Alteryx utilisés pour la connexion

Traitement standard de workflow

Outil Entrée de données Input Data Tool

Lien

Traitement de workflow en base de données

Outil Connecter en BDD

Blue icon with database being plugged in.

Lien

Outil Entrée du flux de données

Blue icon with a stream-like object flowing into a database.

Lien

Si vous rencontrez des problèmes avec la lecture ou l'écriture de caractères Unicode®, accédez au pilote ODBC Simba Impala. Dans Options avancées , sélectionnez Utiliser les types Unicode SQL .

La longueur de la chaîne est contrôlée par le pilote. Vous pouvez la modifier dans les Options avancées du DSN ODBC ou dans les Options avancées de la Configuration du pilote, qui se trouvent dans le dossier d'installation de celui-ci.

Prise en charge de la lecture

Installez et configurez le pilote Apache Spark ODBC :

Type de serveur Spark : sélectionnez le type de serveur approprié à la version du moteur Apache Spark que vous exécutez. Si vous disposez de Spark 1.1 ou d'une version ultérieure, sélectionnez Apache SparkThriftServer.
Mécanisme d'authentification : consultez le guide d'installation téléchargé avec le pilote Simba Apache Spark pour configurer ce paramètre en fonction de votre configuration.

Pour configurer les Options avancées du pilote, consultez le guide d'installation téléchargé avec le pilote Simba Apache Spark.

Prise en charge de l’écriture

Pour les workflows standard et en base de données, utilisez l' outil Entrée du flux de données pour écrire dans Databrick. L’écriture est prise en charge grâce au Chargeur en masse Databricks. Accédez à la section Gérer les connexions en base de données - Écriture .

Configuration de l'onglet Écriture

Sélectionnez Chargeur en masse Databricks (Avro) ou Chargeur en masse (CSV) . Pour écrire une table avec des noms de champ totalisant plus de 4 000 caractères, utilisez CSV au lieu d'Avro. Le délimiteur utilisé pour CSV est le début du caractère de titre (SOH).
Sélectionnez la liste déroulante Chaîne de connexion , puis sélectionnez Nouvelle connexion à Databricks .
Sélectionnez une source de données ODBC existante ou cliquez sur Administration ODBC pour en créer une.
Saisissez un nom d'utilisateur et un mot de passe. Ces champs ne peuvent pas être vides.
Saisissez l'URL de Databricks
https://abc-abc123-123a.cloud.databricks.com
Avertissement
L'inclusion d'un « / » de fin dans l'URL (par exemple https://abc-abc123-123a.cloud.databricks.com /) entraînera une erreur.

Connexion en masse Databricks Delta Lake

Suivez les étapes ci-dessous pour configurer la connexion en masse Databricks Delta Lake.

Important

La connexion en masse Databricks Delta Lake est uniquement disponible dans la version 2022.1 et ultérieure de Designer.

Sélectionnez Chargeur en masse Databricks Delta Lake (Avro) ou Chargeur en masse Databricks Delta Lake (CSV) . Pour écrire une table avec des noms de champ totalisant plus de 4 000 caractères.
Sélectionnez la liste déroulante Chaîne de connexion , puis sélectionnez Nouvelle connexion à la base de données .
Sélectionnez une source de données ODBC existante ou cliquez sur Administration ODBC pour en créer une.
Saisissez un nom d'utilisateur et un mot de passe. Ces champs ne peuvent pas être vides. Alteryx prend en charge les jetons d'accès personnels. Le nom d'utilisateur est « jeton ». Le mot de passe est le jeton d'accès personnel.
Sélectionnez une Méthode de préparation (prise en charge pour AWS et Azure) :
1. Pour Amazon S3
  1. Entrez la Clé d'accès AWS et la Clé secrète pour vous authentifier ;
  2. Sélectionnez un Point de terminaison ou laissez-le par Défaut ;
  3. Sélectionnez Utiliser Signature V4 pour l'authentification ;
  4. Sélectionnez le niveau de Chiffrement côté serveur requis, Aucun est la valeur par défaut ;
  5. Sélectionnez un Nom de compartiment à utiliser comme emplacement de préparation.
2. Pour ADLS Azure
  Important
  Pour le chargement en masse pour Azure, il n'y a que la prise en charge d' ADLS Gen 2 .
  1. Sélectionnez le Conteneur ADLS ;
  2. Entrez la Clé partagée ;
  3. Entrez le Compte de stockage ;
  4. Entrez un Répertoire temporaire facultatif. Lorsque vous entrez dans le Répertoire temporaire, ne répétez pas le Nom du conteneur .
    exemple
    Si la structure du dossier est Container/MyTempFolder/TempTables, entrez uniquement « MyTempFolder/TempTables ».
    Si le répertoire saisi ici n'existe pas déjà, Alteryx en créera un.
    Alteryx créera un sous-dossier avec le nom de la table pour chaque table préparée.
3. Sélectionnez OK pour appliquer.

Dans cette section:

Authentification Databricks avec OAuth Azure

Databricks

Outils Alteryx utilisés pour la connexion

Traitement standard de workflow

Outil Entrée de données Input Data Tool

Traitement de workflow en base de données

Outil Connecter en BDD

Outil Entrée du flux de données

Prise en charge de la lecture

Prise en charge de l’écriture

Configuration de l'onglet Écriture

Connexion en masse Databricks Delta Lake

Résultats de la recherche