Formats de fichiers pris en charge
Cette section contient des informations sur les formats de fichiers et les schémas de compression pris en charge pour l'entrée et la sortie de Alteryx Analytics Cloud (AAC).
Note
Pour travailler avec des formats propriétaires d'une application de bureau, telle que Microsoft Excel, vous n'avez pas besoin d'installer l'application en question sur votre bureau.
Noms de fichiers
Note
Lors de l'importation, AAC identifie les formats de fichiers en fonction de l'extension du nom de fichier. Si aucune extension n'est fournie, AAC suppose que le fichier envoyé est un fichier texte. Les formats de fichiers non textuels, tels que Avro et Parquet, nécessitent des extensions de nom de fichier.
Note
Les noms de fichiers qui comportent des caractères spéciaux peuvent causer des problèmes lors de l'importation ou de la publication dans une banque de données basée sur des fichiers.
Limites de longueur des chemins d'accès aux fichiers
Limites maximales de caractères pour les chemins d'accès aux fichiers :
Chemins d'accès aux sources des jeux de données importés :
1024
Astuce
Cette limite (
storagelocations
) s'applique à la fois aux fichiers et aux tables.Chemins d'accès aux fichiers de sortie :
2048
Astuce
Cette limite (
writesettings
) s'applique aux fichiers stockés à n'importe quel emplacement de stockage basé sur des fichiers.
Caractères interdits dans les noms de fichiers d'importation
Les caractères suivants posent des problèmes dans les sections répertoriées du produit. Le cas échéant, la liste suivante peut fournir des indications sur l'origine du problème.
Astuce
Vous devez éviter d'utiliser ces caractères dans les noms de vos fichiers d'importation. Cette liste peut ne pas être complète pour tous les environnements d'exécution disponibles.
Général :
"/"
Navigateur Seb :
"\"
Noms de fichiers Excel :
"#","{","}"
Environnement d'exécution basé sur Spark :
"{", "*", "\"
Formats de fichiers d'entrée natifs
AAC peut lire et importer directement ces formats de fichiers :
CSV
JSON
Note
AAC peut lire les fichiers JSON nativement, mais cela nécessite souvent davantage de travail pour bien les structurer sous forme de tableau. Selon la configuration de AAC (v1 ou v2), il se peut que vous deviez convertir les fichiers JSON pour qu'ils soient disponibles dans l'application.
Note
AAC nécessite que vous soumettiez des fichiers JSON avec un objet JSON valide par ligne. Les objets JSON mal formés de manière constante ou les objets qui chevauchent des sauts de ligne peuvent faire échouer l'importation.
Limite de taille recommandée du fichier source : 1 Go. La conversion ayant lieu dans le nœud Trifacta, cette limite peut varier en fonction de la mémoire du nœud Trifacta.
La taille de chaque enregistrement JSON doit être inférieure à 20 Mo.
Les extensions du nom de fichier doivent être
.json
ou.JSON
.Pour de meilleurs résultats, vous devez mettre entre guillemets toutes les clés et toutes les valeurs, et les importer sous forme de chaînes.
Vous pouvez échapper les valeurs entre guillemets pour les traiter de manière littérale dans vos chaînes en utilisant la barre oblique inverse (
\
).Lorsque vous importez les valeurs dans la page Transformateur, AAC déduit à nouveau le type de données pour chaque colonne.
Texte brut
LOG
TSV
Parquet
Note
Lorsque vous travaillez avec des jeux de données provenant de fichiers Parquet, les informations de traçabilité et la référence
$sourcerownumber
ne sont pas prises en charge.
Avro
Note
Lorsque vous travaillez avec des jeux de données provenant de fichiers Avro, les informations de traçabilité et la référence
$sourcerownumber
ne sont pas prises en charge.Google Sheets
Note
Les utilisateurs individuels doivent autoriser l'accès à leur Google Drive. Google Drive ne lit aucune autre donnée que Google Sheets.
Formats de fichiers convertis
Les fichiers des types suivants ne sont pas lus dans le produit dans leur format natif. En revanche, ces types de fichiers sont convertis à l'aide du service de conversion en un format de fichier pris en charge nativement, stocké dans la couche de stockage de base, puis ingéré pour être utilisé dans le produit.
Note
Les fichiers compressés nécessitant une conversion du format de fichier sous-jacent ne sont pas pris en charge par le produit.
Formats de fichiers convertis :
Excel (XLS/XLSX)
Note
Les autres formats Excel, tels que le format XLSM, ne sont pas pris en charge. Si vous rencontrez des problèmes, essayez d'enregistrer le fichier au format XLS ou XLSX depuis l'application Microsoft Excel.
Astuce
Vous pouvez importer plusieurs feuilles de calcul d'un même classeur à la fois.
Google Sheets
Astuce
Vous pouvez importer plusieurs feuilles d'un même fichier Google Sheets à la fois.
PDF
JSON
Formats de fichiers de sortie natifs
Designer Cloud peut écrire dans les formats de fichiers suivants :
Note
Certains formats de sortie doivent être activés par un administrateur.
CSV
JSON
Hyper
Note
La publication des résultats au format Hyper peut nécessiter une configuration supplémentaire. Voir ci-après.
Avro
Note
Les environnements d'exécution Trifacta Photon et Spark appliquent la compression Snappy à ce format.
Parquet
Note
Les environnements d'exécution Trifacta Photon et Spark appliquent la compression Snappy à ce format.
Algorithmes de compression
Lorsqu'un fichier est importé,
AAC tente de déduire l'algorithme de compression utilisé en fonction de l'extension du nom de fichier. Par exemple, les fichiers
.gz
sont supposément compressés avec GZIP.
Note
L'importation d'un fichier compressé dont le format sous-jacent nécessite une conversion via le service de conversion n'est pas prise en charge.
Lecture des formats de fichiers natifs
GZIP | BZIP | Snappy | Remarques | |
CSV | Pris en charge | Pris en charge | Pris en charge | |
JSON v2 | Non prise en charge | Non prise en charge | Non prise en charge | Format de fichier converti. Voir ci-dessus. |
JSON v1 | Pris en charge | Pris en charge | Pris en charge | Format de fichier non converti. Voir ci-dessus. |
Avro | Pris en charge |
Écriture des formats de fichiers natifs
GZIP | BZIP | Snappy | |
CSV | Pris en charge | Pris en charge | Pris en charge |
JSON | Pris en charge | Pris en charge | Pris en charge |
Avro | Pris en charge ; toujours activé |
Formats de compression Snappy
Designer Cloud prend en charge les variantes suivantes du format de compression Snappy :
Extension de fichier | Nom du format | Remarques |
---|---|---|
.sz | Format Framing2 | Voir : https://github.com/google/snappy/blob/master/framing_format.txt |
.snappy | Format Hadoop-snappy | Voir : https://code.google.com/p/hadoop-snappy/ Note Le format snappy-java de Xerial, qui est également écrit avec une extension de fichier
|
Formats de fichiers pris en charge par application
Les applications individuelles peuvent prendre en charge un sous-ensemble des formats de fichiers et des algorithmes de compression répertoriés sur cette page.
Application | Description |
---|---|
Designer Experience | Vous pouvez importer un certain nombre de formats de fichiers plats à utiliser dans Designer Experience. Accédez aux options de format de fichier Designer Cloud . |
Trifacta Classic | Tous les formats de fichiers et les algorithmes de compression de la plateforme sont pris en charge. |
Reporting | Reporting utilise les données de vos workflows comme entrées. Accédez à Designer Experience. Les rapports peuvent être exportés aux formats XLSX et PDF. Accédez à l' interface utilisateur de Reporting . |
Machine Learning | Les données téléchargées pour l'entraînement ou la prédiction du modèle doivent être au format CSV. Pour plus d'informations, consultez les pages Configuration du problème et Exporter et prédire . |