Viale Premuda 14, 20129 Milano - academy@digiacademy.it - 0250030724

Corsi Microsoft

Data Engineering on Microsoft Azure

Codice corso: DP-203T00-A
Durata corso: 4gg

INTRODUZIONE

In questo corso, lo studente apprenderà gli schemi e le pratiche di data engineering visto che si riferiscono al lavoro con soluzioni analitiche in batch e in tempo reale utilizzando tecnologie della piattaforma dati Azure. Gli studenti inizieranno comprendendo le tecnologie centrali di calcolo e conservazione che vengono usate per costruire una soluzione analitica. Esploreranno poi come progettare layer analitici utili e concentrarsi su riflessioni di stampo data engineering per lavorare con file sorgente. Gli studenti impareranno come esplorare interattivamente i dati conservati in un data lake. Impareranno le varie tecniche di incorporazione che possono essere usate per caricare dati usando le potenzialità di Apache Spark su Azure Synapse Analytics o Azure Databricks, o come incorporare usando pipeline Azure Data Factory o Azure Synapse. Lo studente imparerà anche i diversi modi per trasformare i dati usando le stesse tecnologie impiegate per incorporarli. Durante il corso lo studente dedicherà del tempo ad apprendere come monitorare e analizzare le prestazioni di sistemi analitici in modo che possano ottimizzare le prestazioni di carichi di dati o query emesse nei confronti dei sistemi. Lo studente comprenderà l'importanza di implementare la sicurezza per assicurarsi che i dati siano protetti sia che siano a riposo o in transito. Verrà poi mostrato come possono essere usati i dati in un sistema analitico per creare dashboard o costruire modelli predittivi su Azure Synapse Analytics.

PROFILO DEI DESTINATARI

Il pubblico principale per questo corso è rappresentato da professionisti nel campo dei dati, architetti dati e professionisti nel campo dell'intelligence aziendale che desiderano approfondire il mondo data engineering e costruire soluzioni analitiche usando le tecnologie con piattaforme dati esistenti su Microsoft Azure. Il pubblico secondario per questo corso è costituito da analisti e ricercatori dati che lavorano con soluzioni analitiche sviluppate su Microsoft Azure.

PREREQUISITI

Gli studenti che avranno successo in questo corso hanno delle conoscenze pregresse nel campo del cloud computing e dei concetti centrali riguardanti i dati, ed esperienza professionale con soluzioni dati.

In particolare, completando:

  • AZ-900 - Azure Fundamentals
  • DP-900 - Microsoft Azure Data Fundamentals

STRUTTURA DEL CORSO

MODULO 1: Esplorare opzioni di calcolo e conservazione per carichi di lavoro data engineering

Questo modulo offre una panoramica sulle opzioni tecnologiche di calcolo e conservazione di Azure che sono disponibili a data engineers che sviluppano carichi di lavoro analitici. Questo modulo è volto all'insegnamento di metodi per strutturare il data lake e ottimizzare i file per l'esplorazione, lo streaming e carichi di lavoro batch. Gli studenti impareranno come organizzare i data lake in livelli di perfezionamento dati mentre trasformeranno file tramite processi di batch e streaming. Impareranno poi come creare indici sui propri dataset, come file CSV, JSON, e Parquet, e usarli per possibili query o accelerazioni del carico di lavoro.

Lezioni

Dopo aver completato questo modulo, gli studenti saranno in grado di:

  • Illustrare Azure Synapse Analytics
  • Illustrare Azure Databricks
  • Illustrare la conservazione su Azure Data Lake
  • Illustrare l'architettura Delta Lake
  • Illustrare Azure Stream Analytics

Lab: Esplorare opzioni di calcolo e conservazione per carichi di lavoro data engineering

MODULO 2: Progettare e implementare il layer utile

Questo modulo insegna come progettare e implementare archivi di dati in un magazzino dati moderno e ottimizzare carichi di lavoro analitici. Lo studente apprenderà anche come progettare uno schema multidimensionale per archiviare fatti e dati dimensionali. Poi lo studente imparerà come popolare dimensioni in lento cambiamento attraverso dati incrementali da Azure Data Factory.

Lezioni

Dopo aver completato questo modulo, gli studenti saranno in grado di:

  • Progettare uno schema principale per carichi di lavoro analitici
  • Popolare le dimensioni in lento cambiamento con Azure Data Factory e mappature di flussi dati

Lab: Progettare e Implementare il Layer Utile

MODULO 3: Considerazioni data engineering per file sorgente

Questo modulo esplora le considerazioni data engineering che sono comuni quando si caricano i dati in un moderno data warehouse da file archiviati in un Azure Data Lake, e offre una comprensione delle considerazioni di sicurezza associate all'archiviazione dei file nel data lake.

Lezioni

Dopo aver completato questo modulo, gli studenti saranno in grado di:

  • Progettare un Data Warehouse Moderno con Azure Synapse Analytics
  • Rendere sicuro un Data Warehouse su Azure Synapse Analytics

Lab: Considerazioni data engineering

MODULO 4: Eseguire query interattive usando pool serverless SQL su Azure Synapse Analytics

In questo modulo gli studenti impareranno come lavorare con file archiviati in un data lake e sorgenti file esterne, tramite istruzioni T-SQL eseguite da un pool serverless SQL su Azure Synapse Analytics. Gli studenti cercheranno file Parquet archiviati in un data lake, e anche file CSV archiviati in un archivio dati esterno. Poi, creeranno gruppi di sicurezza su Azure Active Directory e rafforzeranno l'accesso ai file nel data lake tramite il Role-Based Access Control (RBAC) e le Access Control Lists (ACLs).

Lezioni

Dopo aver completato questo modulo, gli studenti saranno in grado di:

  • Capire le potenzialità dei pool serverless SQL su Azure Synapse
  • Cercare dati nel lake usando pool serverless SQL usando Azure
  • Creare oggetti metadati su pool serverless SQL su Azure Synapse
  • Rendere sicuri dati e gestire utenti su pool serverless SQL su Azure Synapse

Lab: Lanciare query interattive usando pool serverless SQL

MODULO 5: Esplorare, trasformare e caricare dati nel Data Warehouse usando Apache Spark

Questo modulo insegna come esplorare i dati archiviati in un data lake, trasformare i dati, e caricare i dati in un archivio dati relazionale. Lo studente esplorerà file Parquet e JSON e userà tecniche per cercare e trasformare i file JSON con una struttura gerarchica. Poi lo studente userà Apache Spark per caricare i dati nel data warehouse e unire i dati Parquet nel data lake con dati nel pool SQL dedicato.

Lezioni

Dopo aver completato questo modulo, gli studenti dovrebbero essere in grado di:

  • Illustrare i big data engineering con Apache Spark su Azure Synapse Analytics
  • Incorporare i dati con appunti Apache Spark su Azure Synapse Analytics
  • Trasformare i dati con DataFrames in pool Spark su Azure Synapse Analytics
  • Integrare pool SQL e Spark su Azure Synapse Analytic

Lab: Esplorare, trasformare e caricare i dati nel Data Warehouse usando Apache Spark

MODULO 6: Esplorazione e trasformazione dei dati su Azure Databricks

Questo modulo insegna come usare diversi metodi di Apache Spark DataFrame per esplorare e trasformare dati su Azure Databricks. Lo studente imparerà come eseguire metodi standard DataFrame per esplorare e trasformare dati. Imparerà anche come eseguire compiti più avanzati, come rimuovere dati doppi, manipolare valori dati/tempo, rinominare le colonne e aggregare i dati.

Lezioni

Dopo aver completato questo modulo, gli studenti saranno in grado di:

  • Illustrare Azure Databricks
  • Leggere e scrivere dati su Azure Databricks
  • Lavorare con DataFrames su Azure Databricks
  • Lavorare con metodi avanzati DataFrames su Azure Databricks

Lab: Esplorazione e Trasformazione su Azure Databricks

MODULO 7: Incorporare e caricare dati nel data warehouse

Questo modulo insegna agli studenti come incorporare dati nel data warehouse tramite script T-SQL e pipeline di integrazione Synapse Analytics. Lo studente imparerà come caricare dati in pool dedicati SQL su Synapse con PolyBase e COPY, usando T-SQL. Lo studente imparerà anche come usare la gestione del carico di lavoro insieme all'attività Copy in una pipeline Azure Synapse per un'incorporazione dati nell'ordine di petabyte.

Lezioni

Dopo aver completato questo modulo, gli studenti saranno in grado di:

  • Usare le migliori pratiche di caricamento dati su Azure Synapse Analytics
  • Incorporare nell'ordine di petabyte con Azure Data Factory

Lab: Incorporare e caricare Dati nel Data Warehouse

MODULO 8: Trasformare dati con Azure Data Factory o Azure Synapse Pipelines

Questo modulo insegna agli studenti come costruire pipeline di integrazione tra dati per un'incorporazione da più sorgenti dati, come trasformare i dati usando la mappatura di flussi di dati, ed eseguire movimenti di dati in uno o più data sink.

Lezioni

Dopo aver completato questo modulo, gli studenti saranno in grado di:

  • Eseguire l'integrazione di dati con Azure Data Factory
  • Eseguire una trasformazione senza codici su scala con Azure Data Factory

Lab: Trasformare Dati con Azure Data Factory o Azure Synapse Pipelines

MODULO 9: Organizzare il movimento e la trasformazione dati su Azure Synapse Pipelines

In questo modulo imparerai come creare servizi connessi e organizzare il movimento e la trasformazione dei dati usando gli appunti su Azure Synapse Pipelines.

Lezioni

Dopo aver completato questo modulo; gli studenti saranno in grado di:

  • Organizzare il movimento e la trasformazione dei dati su Azure Synapse Pipelines

Lab: Organizzare il movimento e la trasformazione dei dati su Azure Synapse Pipelines

MODULO 10: Ottimizzare le prestazioni con pool SQL dedicati su Azure Synapse

In questo modulo gli studenti impareranno strategie per ottimizzare l'archiviazione e l'elaborazione dei dati durante l'uso di pool dedicati SQL su Azure Synapse Analytics. Lo studente imparerà a usare funzionalità per sviluppatori, come le funzioni windowing e HyperLogLog, usare le migliori pratiche di caricamento dati e ottimizzare e migliorare le prestazioni query.

Lezioni

Dopo aver completato questo modulo, gli studenti saranno in grado di:

  • Ottimizzare le prestazioni query nella data warehouse su Azure Synapse Analytics
  • Capire le funzionalità per sviluppatori nella data warehouse di Azure Synapse Analytics

Lab : Ottimizzare le Prestazioni Query Performance con Pool Dedicati SQL su Azure Synapse

MODULO 11: Analizzare e Ottimizzare l'Archiviazione del Data Warehouse

In questo modulo gli studenti impareranno come analizzare e poi ottimizzare l'archiviazione dei dati dei pool dedicati SQL di Azure Synapse. Lo studente imparerà delle tecniche per comprendere l'uso dello spazio della tabella e i dettagli di archiviazione delle colonne. Poi lo studente apprenderà a confrontare requisiti di archiviazione tra tabelle identiche che usano diversi tipi di dati. Infine, lo studente osserverà l'impatto che le viste materializzate hanno quando vengono eseguite al posto di ricerche complesse, e imparerà quindi come evitare registrazioni estensive ottimizzando le operazioni di cancellazione.

Lezioni

Dopo aver completato questo modulo, gli studenti saranno in grado di:

  • Analizzare e ottimizzare l'archiviazione nel data warehouse su Azure Synapse Analytics

Lab: Analizzare e Ottimizzare l'Archiviazione nella Data Warehouse

MODULO 12: Supporto Hybrid Transactional Analytical Processing (HTAP) con Azure Synapse Link

In questo modulo gli studenti impareranno come Azure Synapse Link consente una connettività perfetta di un account Azure Cosmos DB in uno spazio di lavoro Synapse. Lo studente capirà come abilitare e configurare il collegamento con Synapse, poi come fare ricerche nell'archivio analitico Azure Cosmos DB usando Apache Spark e serverless SQL.

Lezioni

Dopo aver completato questo modulo, gli studenti saranno in grado di:

  • Progettare un'elaborazione transazionale ibrida e analitica usando Azure Synapse Analytics
  • Configurare Azure Synapse Link c onAzure Cosmos DB
  • Fare ricerche su Azure Cosmos DB con Apache Spark per Azure Synapse Analytics
  • Fare ricerche su Azure Cosmos DB con serverless SQL per Azure Synapse Analytics

Lab: Supporto Hybrid Transactional Analytical Processing (HTAP) con Azure Synapse Link

MODULO 13: Sicurezza end-to-end con Azure Synapse Analytics

In questo modulo gli studenti impareranno come rendere sicuro un ambiente di lavoro Synapse Analytics e la sua infrastruttura di supporto. Lo studente osserverà la SQL Active Directory Admin, gestirà le regole firewall IP, gestirà informazioni segrete con Azure Key Vault e accederà alle stesse tramite un servizio collegato Key Vault linked service e attività pipeline. Lo studente capirà come implementare la sicurezza a livello delle colonne, la sicurezza a livello delle righe e come mascherare i dati dinamici durante l'uso di pool dedicati SQL.

Lezioni

Dopo aver completato questo modulo, gli studenti saranno in grado di:

  • Rendere sicuro un data warehouse su Azure Synapse Analytics
  • Configurare e gestire informazioni segrete su Azure Key Vault
  • Implementare i controlli di conformità per dati sensibili

Lab: Sicurezza end-to-end con Azure Synapse Analytics

MODULO 14: Elaborazione in Tempo Reale dei Flussi con Stream Analytics

In questo modulo gli studenti impareranno come elaborare i flussi di dati con Azure Stream Analytics. Lo studente incorporerà dati telemetrici di un veicolo su Event Hubs, poi elaborerà quei dati in tempo reale usando diverse funzioni di windowing su Azure Stream Analytics. Erogherà poi quei dati su Azure Synapse Analytics. Infine, lo studente imparerà come scalare l'attività su Stream Analytics per aumentare la produttività.

Lezioni

Dopo aver completato questo modulo, gli studenti saranno in grado di:

  • Abilitare una messaggistica affidabile per applicazioni Big Data usando Azure Event Hubs
  • Lavorare con flussi di dati usando Azure Stream Analytics
  • Incorporare flussi di dati con Azure Stream Analytics

Lab: Elaborazione in Tempo Reale dei Flussi con Stream Analytics

MODULO 15: Creare una Soluzione di Elaborazione Flusso con Event Hubs e Azure Databricks

In questo modulo gli studenti impareranno come incorporare ed elaborare flussi su scala con Event Hubs e Spark Structured Streaming su Azure Databricks. Lo studente imparerò le funzionalità e gli usi chiave di Structured Streaming. Lo studente implementerà finestre scorrevoli per raggruppare blocchi di dati e applicare il watermarking per rimuovere i dati non aggiornati. Infine, lo studente si connetterà a Event Hubs per leggere e scrivere flussi.

Lezioni

Dopo aver completato questo modulo, gli studenti saranno in grado di:

  • Elaborare i flussi di dati con Azure Databricks structured streaming

Lab: Creare una Soluzione di Elaborazione Flusso con Event Hubs e Azure Databricks

MODULO 16: Costruire report usando l'integrazione di Power BI con Azure Synapse Analytics

In questo modulo lo studente imparerà come integrare Power BI con il proprio spazio di lavoro Synapse al fine di costruire report su Power BI. Lo studente creerà una nuova sorgente dati e un report Power BI su Synapse Studio. Poi lo studente imparerà come migliorare le prestazioni query con viste materializzate e cache dei risultati. Infine, lo studente esplorerà il data lake con pool serverless SQL e creerà visualizzazioni di quei dati su Power BI.

Lezioni

Dopo aver completato questo modulo, gli studenti saranno in grado di:

  • Creare report con Power BI usando la sua integrazione con Azure Synapse Analytics

Lab: Costruire report usando l'integrazione di Power BI con Azure Synapse Analytics

Modulo 17: Eseguire Processi Integrati Machine Learning su Azure Synapse Analytics

Questo modulo esplora l'esperienza integrata end-to-end Azure Machine Learning e Azure Cognitive Services su Azure Synapse Analytics. Imparerai come connetterti a uno spazio di lavoro Azure Synapse Analytics in uno spazio di lavoro Azure Machine Learning usando un Servizio Collegato e poi innescare un esperimento Automatizzato ML che usa i dati da una tabella Spark. Imparerai anche come usare modelli addestrati da Azure Machine Learning o Azure Cognitive Services per arricchire i dati in una tabella pool SQL e poi fornire risultati predittivi usando Power BI.

Lezioni

Dopo aver completato questo modulo, gli studenti saranno in grado di:

  • Usare i processi integrati di apprendimento automatico su Azure Synapse Analytics

Lab: Eseguire Processi Integrati Machine Learning su Azure Synapse Analytics

P.IVA 06249920965
C.C.I.A.A. REA: MI - 1880014
Cap. Soc. € 12.000,00

Contatti

Viale Premuda n. 14 ,20129 Milano
Questo indirizzo email è protetto dagli spambots. È necessario abilitare JavaScript per vederlo.
Tel.: +39 02 50030 724
Fax.: +39 02 50030 725

© Copyright DI.GI. Academy
Privacy Policy | Cookie Policy

L’area Formazione è certificata ISO 9001