Azure Data Factoryn (ADF) asettaminen ) Käytettävä lumihiutaleliitin

(Mohini Kalamkar) (3. joulukuuta 2020)

Yritysten tiedot on tallennettu useisiin paikkoihin yrityksen sisäisistä tietokannoista SaaS-alustoihin. Saadaksesi tietoa näistä tiedoista, pura ja lataa tiedot eri lähteistä tietovarastoon tai tietojärvelle. Yritykset yhdistävät tai rakentavat joskus melko monimutkaisia ​​ETL / ELT-dataputkistoja mieluummin nykyaikaisia ​​työkaluja kuin Matillion, Azure Data Factory, Fivetran, Talend Stitch ja monia muita. Arkkitehtuuristasi ja tietovaatimuksistasi riippuen voit valita yhden tai useamman ETL / ELT-työkalun käyttötapaukseesi.

Minulla oli äskettäin mahdollisuus tutustua molempiin Matillion ja Azure Data Factory (ADF) ladataksesi tietoja Snowflake-tietopilviin . Suurin osa tästä viestistä keskittyy kokemukselleni ADF: stä, mutta kosketan myös Matillionia lyhyesti.

Ennen kuin aloitamme tietojen integrointityökalujen keskustelun, jos harkitset pilvitietojärjestelmää mitä tahansa kolmesta suurimmasta julkisesta pilvestä, suosittelen tutustumaan lumihiutaleeseen. Lumihiutaleet vaikuttavat edelleen vaikuttavalla ja kustannustehokkaalla palvelulla, joka tarkistaa kaikki tiimimme avainkotelot Hashmapissa, ja se on ensimmäinen SQL-ratkaisu, jonka kanssa voit päästä nopeasti päälle.

Pika-ajatukset Matillionilla

Huomasin, että Matillionilla on lisä kypsyysaste ADF: ään verrattuna lähteiden integroimiseksi Snowflakeen. Erityisesti:

  • loistava käyttöliittymä
  • Alter Warehouse -toiminto skaalautuu ylös- ja alaspäin työ kerrallaan
  • Luo tiedostomuoto-komponentti (luo nimetty tiedostomuoto, jota voidaan käyttää tietojen joukkolataamiseen Snowflake-taulukoihin ja tietojen purkamiseen niistä)

Microsoftin ADF-tiimi pyrkii edelleen lisäämään joitain näistä ominaisuuksista ADF-liittimeen Lumihiutale.

ADF: n lumihiutaleiden liitin

Hypätään ADF-lumihiutale-liittimeen . Käsittelen useita alla lueteltuja aiheita:

  1. ADF-lumihiutale-liittimen käyttäminen – SCD-tyypin 1 toteutus.
  2. ADF-lumihiutale-liittimen ominaisuudet.
  3. ADF-lumihiutale-liittimen rajoitukset (tämän kirjoituksen jälkeen).

Azure Data Factory (ADF) on Azurin pilvipalvelu, jonka avulla voit luoda dataohjattuja työnkulkuja tiedonsiirron ja tiedonsiirron organisoimiseksi ja automatisoimiseksi.

ADF: ssä on useita sisäänrakennettuja liittimiä jotka mahdollistavat integroinnin erilaisten tietolähteiden ja kohteiden kanssa, ja kesäkuussa 2020 Microsoftin ADF-suunnittelutiimi lisäsi tukea lumihiutaleelle kohdetietovarastoksi.

Lyhyt huomautus, että minulla on ollut myös tarve integroida ja yhdistä Azure-toiminnot lumihiutaleeseen, mutta tallennan keskustelun toiseen viestiin.

Aloita ADF-lumihiutale-liittimen tutkiminen katsomalla, kuinka SCD-tyyppi 1 voidaan toteuttaa ADF-liittimellä!

Aloittaminen

Tälle imp seuraavia Azure-palveluita käytetään: Azure Blob -tallennustila, Azure Data Factory (linkitetyt palvelut, tietojoukot ja tietovirrat).

Edellytys:

  • ADF-linkitetyt palvelut Azure blobille tallennustila ja Lumihiutale-tilisi luodaan.
  • Lumihiutaleeseen luodaan Tasot-taulukko, jolla on seuraava kaava:
CREATE TABLE Planes (
ICAO nvarchar(200),
IATA nvarchar(200),
MAKER nvarchar(200),
DESCRIPTION nvarchar(200)
);
  1. Lataa ensin CSV-tiedosto Azure-blobiin.
CSV-tiedosto
CSV-tiedosto

2. Luo ADF: ssä (lähde) tietoaineisto blob-tiedostolle.

Blob-tietojoukko
Dataset for blob-tiedosto

3. Luo (uppo) tietojoukko lumihiutaleelle.

Lumihiutale-tietojoukko

4. Luodaan nyt ADF-tietovirta, jossa on 3 komponenttia. Lähde, AlterRow ja Sink.

Kuten alla näytetään, valitse vaiheessa 1 luotu lähdeaineisto.

Tietovirtalähteen asetus

5. Tietovuon lähdeasetukset jatkuivat:

Tietovirtalähteen asetus

6. Tarkastellaan nyt lähdetietoja.

Alla olevassa kuvakaappauksessa näkyy lähteen tietojen esikatselu.

Tietovirtalähteen tietojen esikatselu

7. Nyt kun lähde on valmis, lisätään Alter-muunnos.Muutosmuunnos sallii lisäykset / päivitykset / lisäykset ja poistaa tietueet annettujen ehtojen mukaisesti.

Olen määrittänyt Upsertin ehdon.

Dataflow AlterRow

8. Dataflow Sink -asetus.

Kuten alla näytetään, valitse lumihiutaleelle luotu linkitetty palvelu.

Tietovuon nielu

9. Dataflow-nielun asetus.

Valitse lumihiutaleiden malli, taulukon nimi ja päivitystapa.

Valitse Snowflake-taulukon ensisijainen avain Avainsarakkeet-kohdasta. Avainsarakkeisiin perustuvat tietueet lisätään / lisätään / poistetaan / päivitetään altaataulukkoon.

On hyvä käytäntö tarkistaa tietojen esikatselu ennen siirtymistä seuraavaan tehtävään Dataflowssa.

Dataflow Sink

10. Tuo tietovirta putkistoon ja napsauta virheenkorjausta.

Tuo tietovirta putkistoon

11. Tarkistetaan nyt Lumihiutaleen tasot -taulukot.

Kaikki tietueet lisätään Lumihiutale-taulukkoon.

Lumihiutaleet – Lentokoneet

12. Anna seuraavaksi päivittää CSV-tiedosto.

Päivitetty A318 ja lisätty B713.

Päivitetty CSV-tiedosto

13. Tee virheenkorjaus putkistoon ja tarkista Lumihiutale-taulukko.

Kuten alla olevassa kuvakaappauksessa näyttää, sinulla on päivitetty tietue A335: lle.

Päivitetty tietue Tasot-taulukossa

14. Uusi tietue B713 lisätään Taulukot-taulukkoon.

Tasotaulukko – uusi tietue lisätty CSV-taulusta

Kuten vaiheissa 13 ja 14 näkyy, päivitetyt ja uudet tietueet ovat käytettävissä Lumihiutale-taulukossa.

Joten kirjoittamatta mitään koodia, on melko helppoa ja suoraviivaista saavuttaa SCD-tyyppi 1 ADF-lumihiutale-liittimen avulla.

ADF-lumihiutaleliitännän ominaisuudet

Kun otetaan käyttöön ADF Connecto r lumihiutaleelle tiedä, että sinulla on tuki seuraavan tyyppisille toiminnoille:

Lisätietoja on tässä asiakirjassa – https://docs.microsoft.com/en-us/azure/data-factory/connector-snowflake

Liittimellä on siis hyvät ominaisuudet, mutta muutama rajoitus on myös otettava huomioon. Tarkastellaan asiaa.

ADF-lumihiutaleiden liittimen rajoitukset

  1. Luomalla linkitettyä palvelua lumihiutale-tilille, SSO-integraatiota (ulkoista todenninta) ei vielä tueta.
  2. ADF-lumihiutaleliitin ei tue lumihiutaleeseen tallennetun toimenpiteen suorittamista. Vaihtoehto tai kiertotapa tälle on kuitenkin kutsua tallennettuja toimintoja Azure-funktioiden avulla.
  3. Lumihiutale-taulukon on oltava käytettävissä ennen tietojen lataamista.
  4. Suora kopiointi lumihiutaleesta / lumeen on vain tuettu. seuraaville muodoille: Parketti, erotettu teksti ja JSON (Lumihiutale-taulukossa tai kyselytuloksessa on vain yksi sarake ja tämän sarakkeen tietotyyppi on VARIANT, OBJECT tai ARRAY). Kun lähde / uppo-tietovarasto tai -muoto ei ole luonnostaan ​​yhteensopiva Snowflake COPY -komennon kanssa, sinun on otettava sisäänrakennettu vaiheittainen kopio käyttöön väliaikaisella Azure Blob -tallennusinstanssilla, joka lisää lisäkustannuksia Azure-laskutukseen.

Viimeiset ajatukset

ADF-lumihiutale-liitin on edistynyt helpottamaan alkuperäisten Microsoft-työkalujen yhdistämistä Snowflake-sovellukseen ja SCD-tyypin 1 toteuttamista. Kuten kaikkien tietojen integrointityökalujen kohdalla, se on aina suositeltavaa suunnitella, suunnitella ja ottaa käyttöön lopullinen ratkaisumalli, joka perustuu käyttötapoihin, -käytäntöihin, palvelutasosopimuksiin, taitopaketteihin ja henkilökohtaisen tilanteesi sanelemiin tietovaatimuksiin.

Valmiina nopeuttamaan Digitaalinen muutos?

Hashmapissa työskentelemme yhdessä asiakkaidemme kanssa rakentamaan parempia yhdessä.

Jos harkitset datan ja analyysituotteiden ja -sovellusten siirtämistä pilveen tai jos haluat apua ja ohjausta sekä muutamia parhaita käytäntöjä nykyarvosi korkeamman arvon saavuttamiseksi pilviohjelma, ota sitten meihin yhteyttä.

ja lumihiutale ) palvelutarjonta. Olisimme iloisia voidessasi selvittää erityisvaatimuksesi.

Muut ehkä pitämäsi työkalut ja sisältö

Lumihiutaleiden apuohjelmat & Kiihdyttimet | Tee enemmän lumihiutale | Hashmap

Kokeile kaikkia Hashmapin käytettävissä olevia lumihiutaleiden apuohjelmia ja tee enemmän Snowflake: Snowflake Inspector -ohjelmalla …

www.hashmapinc.com

(

Lumihiutaleiden laskutuslausekkeen lataaminen käyttäjämittareilla

Yksi yksinkertainen temppu voi olla avain lumihiutaleiden laskennallisten kulujen ymmärtämiseen

medium.com

)

Hashmap-megatavua | Puremiskokoinen videosarja

Hashmap Megabytes on viikoittainen videosarja, jossa megapilvi-ideat selitetään puremakokoisina osina.

www.hashmapinc.com

(

5 vaihetta Python-töiden muuntamiseksi PySparkiksi

Siirtyminen pandasta PySparkiin Apache Arrow- tai Koalas-sovelluksella

medium.com

)

Voit vapaasti jakaa muilla kanavilla ja olla varma ja pysyä mukana kaikessa uudessa Hashmap -sisällössä. täällä . Kuuntele rennossa keskustelussa kaikesta datatekniikasta ja pilvestä tutustumalla Hashmapin podcast Napauta hashmap myös Spotifyssä, Applessa, Googlessa ja muissa suosituissa suoratoistosovelluksissa.

Hashmap on Tap | Hashmap Podcast

Kiertävä joukko Hashmap-isäntiä ja erikoisvieraita tutkii erilaisia ​​tekniikoita eri näkökulmista nauttien valitsemastaan ​​juomasta.

www.hashmapinc.com

Mohini Kalamkar on pilvi- ja tietotekniikkakonsultti Hashmap tarjoamalla data-, pilvi-, esineiden internet- ja tekoäly- ja tekoälyratkaisuja sekä konsultointia eri aloilla innovatiivisten teknologien ja toimialojen asiantuntijoiden kanssa, mikä nopeuttaa asiakkaidemme arvokkaita liiketoiminnan tuloksia.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *