Notre DataLakeHouse n’a d’utilité que lorsqu’on l’alimente à partir des données de notre entreprise. Si de plus en plus de sources proviennent maintenant directement du cloud, il reste souvent des données On-Prem. Dans cet article, nous allons configurer le composant, le runtime, permettant de faire communiquer Azure Synapse Analytics avec nos bases de données On-Prem.
Pour faire le lien avec notre projet global, nous parlons du chapitre « La « passerelle » vers notre lake ».
La documentation officielle se trouve à cette adresse : Create a self-hosted integration runtime – Azure Data Factory & Azure Synapse | Microsoft Learn
Quelques considérations
Dans cet article, je vais procéder à l’installation d’un runtime d’intégration « simple » pour Synapse, il n’y a pas de scalabilité ni de haute dispo comme il pourrait être nécessaire en production pour des applications critiques.
Cependant, cette installation reste parfaitement fonctionnelle et exploitable en production s’il n’y a rien de critique derrière et que vous êtes alerte pour une intervention en cas de pépin.
D’autre part, en suivant cette installation, un runtime sera lié à un seul environnement Synapse et il vous faudra donc autant de runtime que d’environnement.
Configuration et installation
La configuration commence directement depuis le studio. Rendez-vous dans « Manage » / Integration Runtime » puis de cliquer sur « + New ».
Il existe deux types de runtime. L’un qui permet de faire tourner directement nos flux SSIS existants dans le cloud (Lift-and-Shift) et le « Azure Self-Hosted » runtime qui nous permettra d’exécuter nos dataflows sur un runtime installé sur n’importe quelle machine.
Nous choisissons donc le « Azure, Self-Hosted ».
Le Runtime en question peut être installé sur n’importe quelle machine et peux même être installé en mode « Serverless » dans Azure. Dans notre cas, nous allons l’installer sur un Serveur OnPrem (Self-Hosted) afin de justement faire la passerelle entre nos bases On-Prem et notre Synapse dans le cloud.
La configuration commence par donner un nom à notre runtime et éventuellement une description. (Etant sur un environnement, je vais installer celui-ci sur ma machine. Je l’identifie donc comme tel).
Plusieurs méthodes d’installation s’offrent à nous, mais auront exactement le même résultat. La première option est utile si l’on installe le runtime sur la machine depuis laquelle nous sommes actuellement connectés. Ceci est mon cas, car je travaille depuis mon portable et que je vais installé pour mon environnement de dev le runtime sur celui-ci.
Nous allons continuer la procédure avec cette option mais avant un petit mot sur la deuxième option.
Option 2: Installation manuelle
L’installation manuelle s’effectue en deux étapes:
- le téléchargement et l’installation de l’exécutable
- Enregistrement du runtime en utilisant les clefs d’authentification
Nous sommes dans un environnement Microsoft donc il n’y a rien de bien compliqué, tout ce déroule en cliquant sur « suivant / suivant / suivant / … ».
Option 1: Installation automatique
Le plus aisé, si nous avons la main sur notre serveur, est encore de lancer l’installation directement depuis celui-ci et de choisir l’option 1.
L’installeur se télécharge et il suffit ensuite de l’exécuter.
L’installation est ensuite entièrement automatisée.
Une fois l’installation terminée, on peut fermer la fenêtre d’installation et revenir sur l’interface de Synapse pour fermer la fenêtre de configuration de l’Integration Runtime.
Options avancées
Nous ne l’utilisons pas dans notre première installation principalement, car nous sommes sur un environnement de développement, mais il est possible de faire de la haute disponibilité et de rendre scalable notre IR en créant des nœuds d’IR. Globalement, ce sont plusieurs Integration Runtime qui sont regroupés pour ne former qu’un ! –> Un Cluster d’IR.
Il est ensuite possible de configurer la manière dont les IR vont s’updater directement depuis l’interface synapse en utilisant l’onglet « Auto update ».
A la suite de cette manipulation, nous devons maintenant voir dans la page des runtimes, notre « Self-Hosted » en statut « running ».
Sur le poste de travail / serveur, une icône de notification apparait pour indiquer le statut du runtime.
Il est possible de configurer certains paramètres et d’interagir sur notre runtime en double cliquant sur l’icône pour ouvrir sont interface de gestion.
Conclusion
Nous avons maintenant une IR opérationnelle qui nous permettra plus tard d’importer des données depuis une base de données locale (ou autre source).