Cum se pune Azure Data Factory (ADF) ) Conector fulg de zăpadă de utilizat

(Mohini Kalamkar) (3 dec. 2020)

Întreprinderile au datele stocate în diferite locații, de la baze de date interne până la platforme SaaS. Pentru a obține informații despre aceste date, ați extrage și încărca datele din diferite surse într-un depozit de date sau un lac de date. Pentru a conecta sau a construi ceea ce poate fi uneori conducte de date ETL / ELT destul de complexe, întreprinderile preferă să utilizeze instrumente moderne precum Matillion, Azure Data Factory, Fivetran, Talend Stitch și multe altele. În funcție de arhitectura și cerințele dvs. de date, puteți alege unul sau mai multe instrumente ETL / ELT pentru cazul dvs. de utilizare.

Recent, am avut ocazia să explorez atât Matillion și Azure Data Factory (ADF) pentru a încărca date în Cloud de date Snowflake . Cea mai mare parte a acestei postări se va concentra pe experiența mea cu ADF, dar voi aborda și Matillion pe scurt.

Înainte de a intra în discuția privind instrumentele de integrare a datelor, dacă luați în considerare o platformă de date cloud în oricare dintre cele 3 nori publici majori, aș recomanda verificarea fulgului de zăpadă. Snowflake continuă să impresioneze cu un serviciu de impact și performant, care verifică toate casetele cheie pentru echipa noastră de la Hashmap și este o primă soluție SQL pe care o puteți pune în funcțiune foarte repede.

Quick Thoughts pe Matillion

Am constatat că Matillion are un nivel suplimentar de maturitate în comparație cu ADF în ceea ce privește integrarea surselor cu fulg de zăpadă. În special:

  • Interfață de utilizare excelentă
  • Modificați depozitul pentru a scări în sus și în jos de la o lucrare la alta
  • Creați componenta Format fișier (creează un format de fișier numit care poate fi folosit pentru încărcarea în bloc a datelor în și descărcarea datelor din tabelele Snowflake)

Echipa Microsoft ADF lucrează în continuare pentru a adăuga unele dintre aceste caracteristici la conectorul ADF pentru Fulg de zăpadă.

Conectorul ADF fulg de zăpadă

Să sărim în conector ADF fulg de zăpadă . Voi acoperi mai multe subiecte enumerate mai jos:

  1. Utilizarea conectorului ADF Fulgi de zăpadă – Implementarea SCD tip 1 .
  2. Capabilitățile conectorului ADF Fulgi de zăpadă.
  3. Limitările conectorului ADF Fulgi de zăpadă (începând cu această scriere).

Azure Data Factory (ADF) este serviciul cloud Azure care vă permite să creați fluxuri de lucru bazate pe date pentru orchestrarea și automatizarea mișcării datelor și transformarea datelor.

ADF are o gamă de conectori încorporați care permit integrarea cu diverse surse de date și ținte, iar în iunie 2020, echipa de inginerie Microsoft ADF a adăugat suport pentru Snowflake ca magazin de date țintă.

O notă rapidă pe care am avut și nevoia să o integrez și conectați funcțiile Azure cu Snowflake, dar voi salva această discuție pentru o altă postare.

Pentru a începe explorarea conectorului ADF fulg de zăpadă, să vedem cum poate fi implementat SCD tip 1 cu conector ADF!

Noțiuni introductive

Pentru această imp lementare sunt utilizate următoarele servicii Azure: stocare Blob Azure, Azure Data Factory (Servicii conectate, seturi de date și fluxuri de date).

Condiție preliminară:

  • Servicii ADF conectate pentru blob Azure spațiul de stocare și contul dvs. de fulgi de zăpadă sunt create.
  • Este creată o tabelă Avioane în fulg de zăpadă cu schema de mai jos:
CREATE TABLE Planes (
ICAO nvarchar(200),
IATA nvarchar(200),
MAKER nvarchar(200),
DESCRIPTION nvarchar(200)
);
  1. Mai întâi, să încărcăm un fișier CSV pe blobul Azure.
fișier CSV
fișier CSV

2. În ADF, creați un set de date (sursă) pentru fișierul blob.

Set de date pentru blob
Set de date pentru fișier blob

3. Creați un set de date (sink) pentru Snowflake.

Set de date pentru Snowflake

4. Acum, să creăm un flux de date ADF cu 3 componente. Sursă, AlterRow și Sink.

După cum se arată mai jos, selectați setul de date sursă creat la Pasul 1.

Setarea sursei fluxului de date

5. Setarea sursei fluxului de date a continuat:

Setarea sursei fluxului de date

6. Acum să previzualizăm datele sursă.

Captura de ecran de mai jos prezintă previzualizarea datelor pentru Sursă.

Previzualizarea datelor sursei fluxului de date

7. Acum, după ce sursa este gata, să adăugăm transformarea Alter.Transformarea modificărilor permite inserții / actualizări / up-ups și șterge înregistrările conform condițiilor date.

Am specificat condiția pentru Upsert.

Dataflow AlterRow

8. Setarea Dataflow Sink.

După cum se arată mai jos, selectați serviciul conectat creat pentru Snowflake.

Chiuveta fluxului de date

9. Setarea chiuvetei fluxului de date.

Selectați schema fulgului de zăpadă, numele tabelului și metoda de actualizare.

Selectați cheia principală a tabelului fulg de zăpadă în „Coloane cheie”. Pe baza „Coloanelor cheie”, înregistrările vor fi inserate / supuse / șterse / actualizate în tabelul chiuvetei.

Este o bună practică să verificați „Previzualizare date” înainte de a trece la următoarea sarcină în Flux de date.

Chiuveta flux de date

10. Importați fluxul de date în Pipeline și faceți clic pe depanare.

Importați fluxul de date în canalizare

11. Acum, să verificăm tabelele Planes în Snowflake.

Toate înregistrările sunt inserate în tabelul Snowflake.

Tabel cu fulgi de zăpadă – Avioane

12. Apoi, să actualizăm fișierul CSV.

Actualizat A318 și inserat B713.

Fișier CSV actualizat

13. Depanați conducta și verificați tabelul Planes în Snowflake.

Ca imagine de mai jos arată, aveți o înregistrare actualizată pentru A318.

Înregistrare actualizată în tabelul Avioane

14. Noua înregistrare B713 este inserată în tabelul Avioane.

Tabel Avioane – înregistrare nouă inserată din tabelul CSV

După cum se arată în pașii 13 și 14, sunt disponibile înregistrări noi și actualizate în tabelul Fulgi de zăpadă.

Deci, fără a scrie niciun cod, este destul de ușor și simplu să realizezi SCD tip 1 folosind conectorul ADF Fulgi de zăpadă.

Capacitățile conectorului ADF Fulgi de zăpadă

La implementarea ADF Connecto r pentru Snowflake știți că veți avea suport pentru următoarele tipuri de activități:

Pentru mai multe detalii, consultați acest document – https://docs.microsoft.com/en-us/azure/data-factory/connector-snowflake

Deci, conectorul are câteva capabilități bune, totuși, există câteva limitări de care trebuie să știi. Să analizăm acest lucru.

Limitările conectorului ADF Snowflake

  1. În timp ce creați un serviciu conectat pentru contul Snowflake, integrarea SSO (browserul extern al autentificatorului) nu este încă acceptată.
  2. ADF Snowflake Connector nu acceptă executarea unei proceduri stocate fulg de zăpadă. Cu toate acestea, o alternativă sau o soluție la aceasta este apelarea procedurilor stocate utilizând funcțiile Azure.
  3. O tabelă cu fulgi de zăpadă trebuie să fie disponibilă înainte de încărcarea datelor.
  4. Copierea directă de la / către Snowflake este acceptată pentru următoarele formate: parchet, text delimitat și JSON (tabelul cu fulgi de zăpadă sau rezultatul interogării are doar o singură coloană și tipul de date al acestei coloane este VARIANȚĂ, OBIECT sau ARRAY). Când stocarea sau formatul de date sursă / chiuvetă nu este compatibil în mod nativ cu comanda COPIE a fulgului de zăpadă, atunci trebuie să activați copia etapizată încorporată utilizând o instanță de stocare interioară Azure Blob care adaugă costuri suplimentare facturării Azure.

Gânduri finale

Conectorul ADF fulg de zăpadă face pași în a face mai ușoară conectarea instrumentelor native Microsoft la Snowflake și implementarea SCD tip 1. La fel ca în orice instrument de integrare a datelor, este „s întotdeauna recomandat să proiectați, să arhitectați și să implementați o abordare finală a soluției, bazată pe cazurile de utilizare, modelul (modelele), SLA-urile, seturile de competențe și cerințele de consum de date pe care le dictează situația dvs. individuală.

Transformare digitală?

La Hashmap, colaborăm cu clienții noștri pentru a construi mai bine împreună.

Dacă vă gândiți să mutați produse și aplicații de date și analize în cloud sau dacă doriți ajutor și îndrumare și câteva cele mai bune practici în obținerea unor rezultate de valoare mai mare în ceea ce vă privește program cloud, atunci vă rugăm să ne contactați.

Hashmap oferă o serie de ateliere de activare și servicii de evaluare, modernizare cloud și servicii de migrare și pachete de servicii de consultanță ca parte a Cloud-ului nostru ( și Snowflake ) oferte de servicii. Ne-ar face plăcere să analizăm cerințele dvs. specifice.

Alte instrumente și conținut care vă pot plăcea

Utilități fulgi de zăpadă & Acceleratoare | Faceți mai multe cu Snowflake | Hashmap

Încercați toate utilitățile fulgului de zăpadă pe care le are Hashmap și faceți mai multe cu Snowflake: Snowflake Inspector …

www.hashmapinc.com

(

Supraîncărcați declarația de facturare a fulgului de zăpadă cu valorile utilizatorilor

Un truc simplu poate fi cheia pentru a înțelege cheltuielile de calcul ale fulgului de zăpadă

medium.com

)

Hashmap Megabytes | Seria de videoclipuri Bite-Size

Hashmap Megabytes este o serie de videoclipuri săptămânale în care ideile de mega cloud sunt explicate în porțiuni de dimensiuni bite.

www.hashmapinc.com

(

5 pași pentru a converti joburile Python în PySpark

Trecerea de la Pandas la PySpark folosind Apache Arrow sau Koalas

medium.com

)

Simțiți-vă liber să distribuiți pe alte canale și asigurați-vă și țineți pasul cu tot conținutul nou din Hashmap here . Pentru a asculta o conversație întâmplătoare despre toate lucrurile despre ingineria datelor și despre cloud, consultați podcastul Hashmap Hashmap on Tap precum și pe Spotify, Apple, Google și alte aplicații de streaming populare.

Hashmap la atingere | Hashmap Podcast

O distribuție rotativă de gazde și invitați speciali Hashmap explorează diferite tehnologii din perspective diverse, în timp ce savurează o băutură la alegere.

www.hashmapinc.com

Mohini Kalamkar este consultant în inginerie cloud și date cu Hashmap furnizarea de soluții de date, cloud, IoT și AI / ML și consultanță de expertiză în toate sectoarele de activitate cu un grup de tehnologi inovatori și experți în domeniu care accelerează rezultatele de afaceri de mare valoare pentru clienții noștri.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *