Informatica ETL: una guida per principianti alla comprensione di ETL utilizzando Informatica PowerCenter

Comprensione dei concetti di Informatica ETL e delle varie fasi del processo ETL e pratica di un caso d'uso che coinvolge il database dei dipendenti.

Lo scopo di Informatica ETL è fornire agli utenti non solo un processo di estrazione dei dati dai sistemi di origine e di introduzione nel data warehouse, ma anche fornire agli utenti una piattaforma comune per integrare i propri dati da varie piattaforme e applicazioni.Ciò ha portato ad un aumento della domanda di .Prima di parlare di Informatica ETL, dobbiamo prima capire perché abbiamo bisogno di ETL.

Perché abbiamo bisogno di ETL?

Ogni aziendaquesti giorni devono elaborare grandi serie di dati da varie fonti. Questi dati devono essere elaborati per fornire informazioni approfondite per prendere decisioni aziendali. Tuttavia, molto spesso tali dati presentano le seguenti sfide:





  • Le grandi aziende generano molti dati e una quantità così grande di dati può essere in qualsiasi formato. Sarebbero disponibili in più database e molti file non strutturati.
  • Questi dati devono essere raccolti, combinati, confrontati e fatti funzionare come un insieme senza soluzione di continuità. Ma i diversi database non comunicano bene!
  • Molte organizzazioni hanno implementato interfacce tra questi database, ma hanno dovuto affrontare le seguenti sfide:
    • Ogni coppia di database richiede un'interfaccia unica.
    • Se si modifica un database, potrebbe essere necessario aggiornare molte interfacce.

Di seguito puoi vedere i vari database di un'organizzazione e le loro interazioni:

Vari set di dati di un

Vari database utilizzati da diversi reparti di un'organizzazione



Diverse interazioni dei database in un'organizzazione

Come visto sopra, un'organizzazione può avere vari database nei suoi vari reparti e l'interazione tra di loro diventa difficile da implementare poiché per loro devono essere create varie interfacce di interazione. Per superare queste sfide, la migliore soluzione possibile è utilizzare i concetti di Integrazione dei dati che consentirebbe ai dati di diversi database e formati di comunicare tra loro. La figura sottostante ci aiuta a capire, come lo strumento Data Integration diventi un'interfaccia comune per la comunicazione tra i vari database.

Vari database collegati tramite Data Integration



Ma sono disponibili diversi processi per eseguire l'integrazione dei dati. Tra questi processi, ETL è il processo più ottimale, efficiente e affidabile. Attraverso ETL, l'utente non solo può importare i dati da varie fonti, ma può eseguire le varie operazioni sui dati prima di archiviare questi dati sul target finale.

Tra i vari strumenti ETL disponibili sul mercato, Informatica PowerCenter è la piattaforma di integrazione dati leader del mercato. Dopo aver testato su quasi 500.000 combinazioni di piattaforme e applicazioni, Informatica PowerCenter interagisce con la più ampia gamma possibile di standard, sistemi e applicazioni disparati. Vediamo ora di comprendere i passaggi coinvolti nel processo ETL di Informatica.

Informatica ETL | Informatica Architecture | Informatica PowerCenter Tutorial | Edureka

Questo tutorial di Edureka Informatica ti aiuta a comprendere i fondamenti di ETL utilizzando Informatica Powercenter in dettaglio.

Passaggi nel processo ETL di Informatica:

Prima di passare ai vari passaggi coinvolti in Informatica ETL, diamo una panoramica di ETL. In ETL, l'estrazione è il luogo in cui i dati vengono estratti da origini dati omogenee o eterogenee, la trasformazione in cui i dati vengono trasformati per l'archiviazione nel formato o la struttura appropriati a fini di query e analisi e il caricamento in cui i dati vengono caricati nel database di destinazione finale archivio dati operativo, data mart o data warehouse. L'immagine seguente ti aiuterà a capire come si svolge il processo ETL di Informatica.

Panoramica del processo ETL

Come visto sopra, Informatica PowerCenter può caricare dati da varie origini e archiviarli in un unico data warehouse. Ora, esaminiamo i passaggi coinvolti nel processo ETL di Informatica.

Ci sono principalmente 4 passaggi nel processo ETL di Informatica, vediamo ora di capirli in profondità:

  1. Estrai o acquisisci
  2. Strofina o pulisci
  3. Trasformare
  4. Carica e indicizza

1. Estrai o acquisisci: Come si vede nell'immagine sottostante, Capture o Extract è il primo passaggio del processo ETL di Informatica.È il processo per ottenere un'istantanea del sottoinsieme di dati scelto dall'origine, che deve essere caricata nel data warehouse. Uno snapshot è una visualizzazione statica di sola lettura dei dati nel database. Il processo di estrazione può essere di due tipi:

  • Estratto completo: I dati vengono estratti completamente dal sistema di origine e non è necessario tenere traccia delle modifiche all'origine dati dall'ultima estrazione riuscita.
  • Estratto incrementale: Questo catturerà solo le modifiche che si sono verificate dall'ultima estrazione completa.

Fase 1: estrai o acquisisci

2. Strofina o pulisci: Questo è il processo di pulizia dei dati provenienti dalla fonte utilizzando varie tecniche di riconoscimento di pattern e AI per migliorare la qualità dei dati portati avanti. Di solito, gli errori come errori di ortografia, date errate, utilizzo di campi errato, indirizzi non corrispondenti, dati mancanti, dati duplicati, incoerenze sonoevidenziato e quindi corretto o rimossoin questo passaggio. Inoltre, in questo passaggio vengono eseguite operazioni come decodifica, riformattazione, orodatario, conversione, generazione di chiavi, unione, rilevamento / registrazione degli errori e individuazione dei dati mancanti. Come mostrato nell'immagine seguente, questa è la seconda fase del processo ETL di Informatica.

Fase 2: scrubbing o pulizia dei dati

3. Trasforma: Come mostrato nell'immagine seguente, questo è il terzo e più essenziale passaggio del processo ETL di Informatica. Le trasformazioni sono l'operazione di conversione dei dati dal formato del sistema sorgente allo scheletro di Data Warehouse. Una trasformazione è fondamentalmente utilizzata per rappresentare un insieme di regole, che definiscono il flusso di dati e il modo in cui i dati vengono caricati nelle destinazioni. Per saperne di più sulla trasformazione, dai un'occhiata Trasformazioni in Informatica Blog.

Fase 3: trasformazione

4. Carica e indicizza: Questo è il passaggio finale del processo ETL di Informatica come mostrato nell'immagine seguente. In questa fase, posizioniamo i dati trasformati nel magazzino e creiamo indici per i dati. Sono disponibili due tipi principali di caricamento dei dati in base al processo di caricamento:

  • Pieno carico o carico alla rinfusa :Il processo di caricamento dei dati quando lo facciamo per la prima volta. Il lavoro estrae l'intero volume di dati da una tabella di origine e li carica nel data warehouse di destinazione dopo aver applicato le trasformazioni richieste. Sarà un lavoro una tantum eseguito dopo, quindi le sole modifiche verranno acquisite come parte di un'estrazione incrementale.
  • Caricamento incrementale o Aggiorna carico : I soli dati modificati verranno aggiornati nel target seguito dal pieno carico. Le modifiche verranno acquisite confrontando la data di creazione o modifica con la data dell'ultima esecuzione del lavoro.I dati modificati da soli vengono estratti dalla sorgente e verranno aggiornati nella destinazione senza influire sui dati esistenti.

Fase 4: caricamento e indicizzazione

Se hai compreso il processo ETL di Informatica, ora siamo in una posizione migliore per apprezzare perché Informatica è la soluzione migliore in questi casi.

Caratteristiche di Informatica ETL:

Per tutte le operazioni di integrazione dei dati e ETL, Informatica ci ha fornito Informatica PowerCenter . Vediamo ora alcune caratteristiche chiave di Informatica ETL:

  • Fornisce funzionalità per specificare un gran numero di regole di trasformazione con una GUI.
  • Genera programmi per trasformare i dati.
  • Gestisci più origini dati.
  • Supporta operazioni di estrazione, pulizia, aggregazione, riorganizzazione, trasformazione e caricamento dei dati.
  • Genera automaticamente programmi per l'estrazione dei dati.
  • Caricamento ad alta velocità dei data warehouse di destinazione.

Di seguito sono riportati alcuni degli scenari tipici in cui viene utilizzato Informatica PowerCenter:

  1. Migrazione dei dati:

Una società ha acquistato una nuova applicazione per la contabilità fornitori per il proprio reparto contabilità. PowerCenter può spostare i dati dell'account esistente nella nuova applicazione. La figura seguente ti aiuterà a capire come utilizzare Informatica PowerCenter per la migrazione dei dati. Informatica PowerCenter può facilmente preservare la derivazione dei dati per scopi fiscali, contabili e altri scopi legalmente obbligatori durante il processo di migrazione dei dati.

Migrazione dei dati da un'applicazione di contabilità precedente a una nuova applicazione

  1. Integrazione dell'applicazione:

Supponiamo che l'Azienda-A acquisti l'Azienda-B. Pertanto, per ottenere i vantaggi del consolidamento, il sistema di fatturazione della Società B deve essere integrato nel sistema di fatturazione della Società A, il che può essere facilmente eseguito utilizzando Informatica PowerCenter. La figura seguente ti aiuterà a capire come puoi utilizzare Informatica PowerCenter per l'integrazione di applicazioni tra le aziende.

Applicazione di integrazione tra aziende

  1. Data warehousing

Le azioni tipiche richieste nei data warehouse sono:

  • Combinando le informazioni da molte fonti insieme per l'analisi.
  • Spostamento dei dati da molti database al data warehouse.

Tutti i casi tipici di cui sopra possono essere facilmente eseguiti utilizzando Informatica PowerCenter. Di seguito, puoi vedere che Informatica PowerCenter viene utilizzato per combinare i dati di vari tipi di database come Oracle, SalesForce, ecc. E portarli a un data warehouse comune creato da Informatica PowerCenter.

Dati Da vari database integrati in un comune Data warehouse

  1. Middleware

Supponiamo che un'organizzazione di vendita al dettaglio utilizzi SAP R3 per le sue applicazioni di vendita al dettaglio e SAP BW come data warehouse. Una comunicazione diretta tra queste due applicazioni non è possibile a causa della mancanza di un'interfaccia di comunicazione. Tuttavia, Informatica PowerCenter può essere utilizzato come middleware tra queste due applicazioni. Nell'immagine sottostante è possibile vedere l'architettura di come Informatica PowerCenter viene utilizzato come middleware tra SAP R / 3 e SAP BW. Le applicazioni da SAP R / 3 trasferiscono i propri dati al framework ABAP che poi li trasferisce alPunto vendita SAP (POS) e SAPBills of Services (BOS). Informatica PowerCenter aiuta il trasferimento dei dati da questi servizi a SAP Business Warehouse (BW).

Informatica PowerCenter come middleware in SAP Retail Architecture

Sebbene tu abbia visto alcune funzionalità chiave e scenari tipici di Informatica ETL, spero che tu capisca perché Informatica PowerCenter è lo strumento migliore per il processo ETL. Vediamo ora un caso d'uso di Informatica ETL.

Caso d'uso: unione di due tabelle per ottenere una singola tabella dettagliata

Supponiamo che tu desideri fornire un servizio di trasporto saggio ai tuoi dipendenti poiché i reparti si trovano in varie località. Per fare ciò, devi prima sapere a quale dipartimento appartiene ogni dipendente e l'ubicazione del dipartimento. Tuttavia, i dettagli dei dipendenti vengono archiviati in tabelle diverse ed è necessario unire i dettagli del reparto a un database esistente con i dettagli di tutti i dipendenti. Per fare ciò, caricheremo prima entrambe le tabelle in Informatica PowerCenter, eseguiremo la trasformazione del qualificatore di origine sui dati e infine caricheremo i dettagli nel database di destinazione.Cominciamo:

Passo 1 : Apri PowerCenter Designer.

Di seguito è riportata la home page di Informatica PowerCenter Designer.

Collegiamoci ora al repository. Nel caso in cui non hai configurato i tuoi repository o stai riscontrando problemi, puoi controllare il nostro Blog.

Passo 2: Fare clic con il tasto destro sul repository e selezionare l'opzione di connessione.

Facendo clic sull'opzione di connessione, ti verrà richiesto con la schermata seguente, chiedendo il nome utente e la password del repository.

Dopo esserti connesso al tuo repository, devi aprire la tua cartella di lavoro come mostrato di seguito:

Ti verrà richiesto di chiedere il nome della tua mappatura. Specifica il nome della tua mappatura e fai clic su OK (l'ho chiamato come m-DIPENDENTE ).

Passaggio 3: Ora carichiamo le tabelle dal database, inizia collegandoci al database. Per fare ciò, seleziona la scheda Sorgenti e l'opzione Importa dal database come mostrato di seguito:

Facendo clic su Importa dal database, verrà visualizzata la schermata come sotto chiedendo i dettagli del database e il suo nome utente e password per la connessione (sto usando il database Oracle e l'utente HR).

Fare clic su Connetti per connettersi al database.

Passaggio 4: Poiché desidero unirmi al DIPENDENTI e DIPARTIMENTO tabelle, le selezionerò e farò clic su OK.
Le sorgenti saranno visibili nell'area di lavoro del progettista di mappe come mostrato di seguito.

Passaggio 5: Allo stesso modo, caricare la tabella di destinazione nel mapping.

Passaggio 6: Ora colleghiamo il qualificatore Source e la tabella di destinazione. Fare clic con il pulsante destro del mouse su qualsiasi punto vuoto dell'area di lavoro e selezionare Collegamento automatico come mostrato di seguito:

Di seguito è riportata la mappatura collegata da Autolink.

Passaggio 7: Poiché abbiamo bisogno di collegare entrambe le tabelle al Source Qualifier, seleziona le colonne della tabella Department e rilasciala nel Source Qualifier come mostrato di seguito:

Trascina i valori della colonna nel qualificatore di origine SQ_EMPLOYEES .

Di seguito è riportato il Source Qualifier aggiornato.

Passaggio 8: Fare doppio clic su Source Qualifier per modificare la trasformazione.

Verrà visualizzato il popup Modifica trasformazione come mostrato di seguito. Fare clic sulla scheda Proprietà.

Passaggio 9: Nella scheda Proprietà, fare clic sul campo Valore della riga Join definito dall'utente.

Otterrai il seguente editor SQL:

Passaggio 10: accedere EMPLOYEES.DEPARTMENT_ID = DEPARTMENT.DEPARTMENT_ID come condizione per unire entrambe le tabelle nel campo SQL e fare clic su OK.

Passaggio 11: Ora fai clic sulla riga Query SQL per generare l'SQL per l'unione come mostrato di seguito:

Otterrai il seguente editor SQL, fai clic sull'opzione Genera SQL.

converti binario in int java

Verrà generato il seguente codice SQL per la condizione specificata nel passaggio precedente. Fare clic su OK.

Passaggio 12: Fare clic su Applica e OK.

Di seguito è riportata la mappatura completata.

Abbiamo completato la progettazione del modo in cui i dati devono essere trasferiti dalla sorgente alla destinazione. Tuttavia, il trasferimento effettivo dei dati deve ancora avvenire e per questo dobbiamo utilizzare PowerCenter Workflow Design. L'esecuzione del flusso di lavoro porterà al trasferimento dei dati dalla sorgente alla destinazione. Per saperne di più sul flusso di lavoro, controlla il nostro Tutorial di Informatica: flusso di lavoro Blog

Passaggio 13: LOra lanciamo il gestore del flusso di lavoro facendo clic sull'icona W come mostrato di seguito:

Di seguito è riportata la home page del designer del flusso di lavoro.

Passaggio 14: Creiamo ora un nuovo flusso di lavoro per la nostra mappatura. Fare clic sulla scheda Flusso di lavoro e selezionare Crea opzione.

Otterrai il pop-up sottostante. Specificare il nome del flusso di lavoro e fare clic su OK.

Passaggio 15 : Una volta creato un flusso di lavoro, otteniamo l'icona di avvio nell'area di lavoro di Gestione flussi di lavoro.

Aggiungiamo ora una nuova sessione all'area di lavoro come mostrato di seguito facendo clic sull'icona della sessione e facendo clic sull'area di lavoro:

Fare clic sull'area di lavoro per posizionare l'icona Sessione.

Passaggio 16: Durante l'aggiunta della sessione devi selezionare la mappatura che hai creato e salvato nei passaggi precedenti. (L'avevo salvato come m-DIPENDENTE).

Di seguito è riportato lo spazio di lavoro dopo aver aggiunto l'icona della sessione.

Passaggio 17 : Ora che hai creato una nuova sessione, dobbiamo collegarla all'attività di avvio. Possiamo farlo facendo clic sull'icona Collega attività come mostrato di seguito:

Fare clic prima sull'icona Start e poi sull'icona Sessione per stabilire un collegamento.

Di seguito è riportato un flusso di lavoro connesso.

Passaggio 18: Ora che abbiamo completato il progetto, iniziamo il flusso di lavoro. Fare clic sulla scheda Flusso di lavoro e selezionare l'opzione Avvia flusso di lavoro.

Gestore del flusso di lavoro che avvia Workflow Monitor.

Passaggio 19 : Una volta avviato il flusso di lavoro, viene avviato automaticamente il gestore del flusso di lavoroeti permette di monitorare l'esecuzione del tuo flusso di lavoro. Di seguito puoi vedere il Monitor del flusso di lavoro che mostra lo stato del tuo flusso di lavoro.

Passaggio 20: Per controllare lo stato del flusso di lavoro, fare clic con il pulsante destro del mouse sul flusso di lavoro e selezionare Ottieni proprietà di esecuzione come mostrato di seguito:

Seleziona la scheda Statistiche origine / destinazione.

Di seguito puoi vedere il numero di righe che sono state trasferite tra l'origine e la destinazione dopo la trasformazione.

Puoi anche verificare il tuo risultato controllando la tabella di destinazione come mostrato di seguito.

Spero che questo blog ETL di Informatica sia stato utile per costruire la tua comprensione dei concetti di ETL utilizzando Informatica e abbia creato abbastanza interesse per farti imparare di più su Informatica.

Se hai trovato utile questo blog, puoi anche consultare la nostra serie di blog Tutorial di Informatica , Tutorial di Informatica: capire 'Inside Out' di Informatica e Trasformazioni di Informatica: il cuore e l'anima di Informatica PowerCenter . Se stai cercando dettagli sulla certificazione di Informatica, puoi controllare il nostro blog Certificazione Informatica: tutto quello che c'è da sapere .

Se hai già deciso di intraprendere una carriera in Informatica, ti consiglio di dare un'occhiata al nostro pagina del corso. Il corso di formazione sulla certificazione di Informatica presso Edureka ti renderà un esperto in Informatica attraverso sessioni dal vivo con istruttore e formazione pratica utilizzando casi d'uso reali.