Azure Data Factory (ADF) est un service disponible dans l’écosystème Microsoft Azure. Ce service permet l’orchestration de différents chargements et transferts de données dans Azure. Les usines de données Azure sont composées des composants suivants :
Services liés : connecteurs vers les différents services de stockage et de calcul. Par exemple, nous pouvons avoir un pipeline qui utilisera les artefacts suivants :
Cluster HDInsight à la demande : accès au service de calcul HDInsight pour exécuter un script Hive qui utilise le stockage externe HDFS Stockage Blob Azure/SQL Azure : lors de l’exécution de la tâche Hive, cela récupère les données d’Azure et les copie dans une base de données SQL Azure. : Il existe des couches pour les données utilisées dans les pipelines. Un ensemble de données utilise un service lié.
Pipeline : le pipeline est le lien entre tous les ensembles de données. Il contient des activités qui initient des mouvements et des transformations de données. C’est le moteur de l’usine ;
sans canalisations, rien ne bougera dans l’usine.
Data Lake Store (statique)
Composant Data Lake Analytics (payé à la demande)
Microsoft a proposé Azure Data Lake, qui est, en un mot, une offre cloud pour le Big Data qui s’intègre à d’autres services Azure tels que : base de données SQL, SQL Server, entrepôt de données SQL, apprentissage automatique, Power BI et Cortana. Il nous permet également d’importer et d’exporter des données à partir de presque toutes les sources de données. Ses principaux objectifs sont la facilité d’utilisation et la rentabilité. Le service comporte deux volets principaux :