Pig Programming: crea il tuo primo script Apache Pig
Nel nostro , ora impareremo come creare uno script Apache Pig. Gli script Apache Pig vengono utilizzati per eseguire collettivamente un set di comandi Apache Pig. Questo aiuta a ridurre il tempo e lo sforzo investiti nella scrittura e nell'esecuzione manuale di ogni comando mentre si esegue questa operazione nella programmazione Pig.È anche parte integrante di .Questo blog è una guida passo passo per aiutarti a creare il tuo primo script Apache Pig.
Modalità di esecuzione degli script di Apache Pig
Modalità locale : In 'modalità locale', puoi eseguire lo script pig nel file system locale. In questo caso, non è necessario archiviare i dati nel file system Hadoop HDFS, ma è possibile lavorare con i dati archiviati nel file system locale stesso.
Modalità MapReduce : In 'modalità MapReduce', i dati devono essere memorizzati nel file system HDFS ed è possibile elaborare i dati con l'aiuto di pig script.
Script Apache Pig in modalità MapReduce
Supponiamo che il nostro compito sia leggere i dati da un file di dati e visualizzare i contenuti richiesti sul terminale come output.
Il file di dati di esempio contiene i seguenti dati:
Salva il file di testo con il nome 'information.txt'
Il file di dati di esempio contiene cinque colonne Nome di battesimo , Cognome , MobileNo , Città , e Professione divisi da tasto tab . Il nostro compito è leggere il contenuto di questo file dall'HDFS e visualizzare tutte le colonne di questi record.
Per elaborare questi dati utilizzando Pig, questo file dovrebbe essere presente in Apache Hadoop HDFS.
Comando : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka
tutorial di progettazione dell'interfaccia utente di Android Studio
Passo 1: Scrivere una sceneggiatura di maiale
Crea e apri un file di script Apache Pig in un editor (ad esempio gedit).
Comando : sudo gedit /home/edureka/output.pig
Questo comando creerà un file 'output.pig' all'interno della directory home dell'utente edureka.
Scriviamo alcuni comandi PIG nel file output.pig.
A = LOAD '/edureka/information.txt' using PigStorage ('') as (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Profession: chararray) B = FOREACH A generate FName, MobileNo, Profession DUMP B
Salva e chiudi il file.
- Il primo comando carica il file 'information.txt' nella variabile A con schema indiretto (FName, LName, MobileNo, City, Profession).
- Il secondo comando carica i dati richiesti dalla variabile A alla variabile B.
- La terza riga mostra il contenuto della variabile B sul terminale / console.
Passo 2: Esegui lo script Apache Pig
Per eseguire lo script pig in modalità HDFS, eseguire il seguente comando:
Comando : pig /home/edureka/output.pig
impara pl sql online gratuitamente
Al termine dell'esecuzione, rivedere il risultato. Queste immagini sotto mostrano i risultati e la loro mappa intermedia e riducono le funzioni.
L'immagine sotto mostra che lo script è stato eseguito correttamente.
L'immagine sotto mostra il risultato del nostro script.
Congratulazioni per aver eseguito con successo il tuo primo script Apache Pig!
Ora sai come creare ed eseguire lo script Apache Pig. Quindi, il nostro prossimo blog in spiegherà come creare UDF (funzioni definite dall'utente) in Apache Pig ed eseguirlo in modalità MapReduce / HDFS.
Ora che hai creato ed eseguito Apache Pig Script, controlla il file da Edureka, una società di formazione online affidabile con una rete di oltre 250.000 studenti soddisfatti sparsi in tutto il mondo. Il corso di formazione per la certificazione Edureka Big Data Hadoop aiuta gli studenti a diventare esperti in HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume e Sqoop utilizzando casi d'uso in tempo reale nel settore Retail, Social Media, Aviation, Tourism, Finance.
Hai domande per noi? Per favore menzionalo nella sezione commenti e ti risponderemo.