Az Azure Data Factory (ADF) elhelyezése ) Használható hópehely csatlakozó

(Mohini Kalamkar) (2020. december 3.)

A vállalkozások adatait különböző helyeken tárolják, a házon belüli adatbázisoktól a SaaS platformokig. Ha betekintést szeretne kapni ezekbe az adatokba, különféle forrásokból származó adatokat kell kinyernie és betöltenie egy adattárházba vagy egy tóba. A néha meglehetősen bonyolult ETL / ELT adatvezetékek összekapcsolásához vagy felépítéséhez a vállalkozások inkább olyan modern eszközöket használnak, mint a Matillion, az Azure Data Factory, a Fivetran, a Talend Stitch és még sok más. Az architektúrától és az adatigénytől függően választhat egy vagy több ETL / ELT eszközt a felhasználási esetéhez.

Nemrégiben lehetőségem nyílt mindkét Matillion és Azure Data Factory (ADF) az adatok betöltéséhez a Snowflake Data Cloud . A bejegyzés nagy része az ADF-tel kapcsolatos tapasztalataimra összpontosul, de röviden kitérek a Matillionra is.

Mielőtt belekezdenénk az adatintegrációs eszközök megbeszélésébe, ha felhőadat-platformot fontolgat a a 3 fő nyilvános felhő bármelyikének ajánlom a Hópehely megtekintését. A Snowflake továbbra is lenyűgöz egy hatásos és költséghatékony szolgáltatást, amely ellenőrzi csapatunk összes kulcsfontosságú mezőjét a Hashmap-on, és ez egy első SQL-megoldás, amellyel nagyon gyorsan fel tudsz állni és futtatható.

Gyors gondolatok a Matillionon

Megállapítottam, hogy a Matillion érettségi szintje az ADF-hez képest hozzáadottabb a források Hópehelybe integrálásához képest. Különösen:

  • Nagyszerű felhasználói felület
  • A Warehouse módosítása a munkakörönkénti fel- és lefelé történő méretezéshez
  • File Format komponens létrehozása (létrehoz egy megnevezett fájlformátum, amely felhasználható az adatok tömeges betöltésére és az adatok kirakására a Snowflake táblákból)

A Microsoft ADF csapata továbbra is dolgozik ezen szolgáltatások némelyikének az ADF csatlakozóhoz való hozzáadásához Hópehely.

Az ADF hópehely csatlakozója

Ugorjunk az ADF hópehely csatlakozóba . Az alább felsorolt ​​témákkal foglalkozom:

  1. Az ADF hópehely csatlakozójának használata – SCD 1-es típusú megvalósítása.
  2. ADF hópehely csatlakozó képességei.
  3. ADF hópehely csatlakozó korlátozásai (a jelen írásban).

Az Azure Data Factory (ADF) az Azure felhőszolgáltatása, amely lehetővé teszi adatközpontú munkafolyamatok létrehozását az adatmozgatás és az adatátalakítás hangszereléséhez és automatizálásához.

Az ADF beépített csatlakozókkal rendelkezik amelyek lehetővé teszik az integrációt a különféle adatforrásokkal és célokkal, és 2020 júniusában a Microsoft ADF mérnöki csapata támogatást adott a Snowflake számára, mint céladattár.

Rövid megjegyzés, hogy integrációra is szükségem volt. és csatlakoztassa az Azure Functions alkalmazást a Snowflake-hez, de ezt a beszélgetést elmentem egy másik bejegyzéshez.

Kezdő lépések

Erre az imp a következő Azure-szolgáltatásokat használják: Azure Blob storage, Azure Data Factory (összekapcsolt szolgáltatások, adatkészletek és adatfolyamok).

Előfeltétel:

  • ADF-hez kapcsolt szolgáltatások az Azure blob számára tárhely és a Hópehely-fiókja létrejön.
  • A Hópehelyben egy sík tábla jön létre az alábbi sémával:
CREATE TABLE Planes (
ICAO nvarchar(200),
IATA nvarchar(200),
MAKER nvarchar(200),
DESCRIPTION nvarchar(200)
);
  1. Először töltsön fel egy CSV-fájlt az Azure blobba.
CSV-fájl
CSV-fájl

2. Az ADF-ben hozzon létre egy (forrás) adatkészletet a blob fájlhoz.

Adatkészlet blobhoz
Adatkészlet blob fájl

3. Hozzon létre egy (süllyesztett) adatkészletet a Hópehelyhez.

Hópehely adatkészlete

4. Most hozzunk létre egy 3 komponensű ADF Dataflow-t. Forrás, AlterRow és Sink.

Az alábbiak szerint válassza ki az 1. lépésben létrehozott forrásadatkészletet.

Adatfolyam-forrás beállítása

5. Az adatfolyam-forrás beállítása folytatódott:

Dataflow forrás beállítása

6. Most nézzük meg a forrásadatokat.

Az alábbi képernyőképen látható a Forrás adatainak előnézete.

Dataflow forrásadatok előnézete

7. Miután a forrás kész, adjuk hozzá az Alter transzformációt.Az Alter átalakítás lehetővé teszi a beillesztéseket / frissítéseket / feltöltéseket, és törli a rekordokat az adott feltételeknek megfelelően.

Megadtam az Upsert feltételét.

Adatfolyam AlterRow

8. Dataflow Sink beállítása.

Az alábbiak szerint válassza ki a Hópehelyhez létrehozott összekapcsolt szolgáltatást.

Adatfolyam lefolyó

9. Az adatfolyam lefolyójának beállítása.

Válassza ki a Hópehely sémát, a táblázat nevét és a frissítési módszert.

Válassza ki a Hópehely táblázat elsődleges kulcsát a „Kulcsoszlopok” részben. A „Kulcsoszlopok” alapján a rekordok beillesztésre kerülnek / feloldásra / törlésre / frissítésre kerülnek az elsüllyesztőtáblában.

Jó gyakorlat, ha a Dataflow következő feladatára való áttérés előtt bejelöli az „Adatok előnézete” elemet.

Dataflow Sink

10. Importálja az adatfolyamot a csővezetékbe, és kattintson a hibakeresésre.

Adatfolyam importálása a csővezetékbe

11. Most ellenőrizzük a Planes táblákat a Hópehelyben.

Minden rekord beillesztésre kerül a Hópehely táblába.

Hópehely táblázat – Síkok

12. Ezután frissítsük a CSV fájlt.

Frissítve az A318-at és beillesztve a B713-at.

Frissített CSV-fájl

13. Hibaelhárítás és a Síkok táblázata a Hópehelyben

Az alábbi képernyőkép azt mutatja, hogy van egy frissített rekordja az A318-hoz.

Frissített rekord a Planes táblában

14. Új B713 rekord kerül be a Síkok táblába.

Planes table – új rekordot illesztettek be a CSV táblából

Amint a 13. és 14. lépésben látható, frissített és új rekordok állnak rendelkezésre a Hópehely táblázatban.

Tehát kód beírása nélkül az ADF hópehely csatlakozóval elég egyszerű és egyszerű elérni az 1. típusú SCD-t.

ADF hópehely csatlakozó képességei

Az ADF Connecto megvalósításakor r hópehely esetén tudja, hogy támogatást nyújt a következő típusú tevékenységekhez:

További részletekért olvassa el ezt a dokumentumot – https://docs.microsoft.com/en-us/azure/data-factory/connector-snowflake

Tehát a csatlakozó rendelkezik néhány jó képességgel, azonban néhány korlátozással is tisztában kell lenni. Vizsgáljuk meg ezt.

ADF hópehely csatlakozók korlátai

  1. A Snowflake-fiókhoz kapcsolódó szolgáltatás létrehozása közben az SSO integráció (hitelesítő külső böngésző) még nem támogatott.
  2. Az ADF hópehely csatlakozó nem támogatja a hópehely tárolt eljárás végrehajtását. Ennek alternatívája vagy megkerülő megoldása azonban a tárolt eljárások meghívása az Azure Functions használatával.
  3. Egy hópehely táblának rendelkezésre kell állnia az adatok betöltése előtt.
  4. a hópehelyről / hova történő közvetlen másolás csak támogatott. a következő formátumokhoz: Parketta, elválasztott szöveg és JSON (a Hópehely táblázat vagy lekérdezés eredménye csak egyetlen oszlopot tartalmaz, és ennek az oszlopnak az adattípusa VÁLTOZÓ, OBJEKT vagy ARRAY). Ha a forrás / mosogató adattár vagy formátum natív módon nem kompatibilis a Snowflake COPY paranccsal, akkor engedélyeznie kell a beépített szakaszos másolatot egy ideiglenes Azure Blob tárolópéldány használatával, amely plusz költséget jelent az Azure számlázásában.

Végső gondolatok

Az ADF hópehely csatlakozó előrelépést tesz annak érdekében, hogy könnyebben csatlakoztassa a natív Microsoft eszközöket a Hópehelyhez és megvalósítsa az 1. típusú SCD-t. Mint minden adatintegrációs eszköz esetében, ez is mindig ajánlott egy végső megoldási megközelítés megtervezése, megtervezése és telepítése az egyedi helyzetek diktálta felhasználási esetek, minták, SLA-k, készségek és adatfogyasztási követelmények alapján.

Készen áll az Ön felgyorsítására Digitális átalakítás?

A Hashmap-nál ügyfeleinkkel együttműködve fejlesztünk jobbakat.

Ha fontolóra veszi az adatok és elemzési termékek és alkalmazások felhőbe helyezését, vagy ha szeretné segítség és útmutatás, valamint néhány bevált gyakorlat a már meglévő magasabb értékű eredmények eléréséhez felhő programot, kérjük lépjen kapcsolatba velünk.

A Hashmap a Cloud részeként számos engedélyező műhelyt és felmérési szolgáltatást, felhő-korszerűsítési és migrációs szolgáltatásokat, valamint tanácsadási szolgáltatáscsomagokat kínál ( és hópehely ) szolgáltatáskínálat. Örömmel dolgozunk az Ön egyedi követelményein.

Egyéb eszközök és tartalmak, amelyek tetszhetnek

Hópehely segédprogramok & Gyorsítók | Tegyen többet a Hópehely | Hashmap

Próbálja ki az összes Hópehely segédprogramot, amely a Hashmap-nál elérhető, és tegyen még többet a Hópehely: Hópehely ellenőrzővel …

www.hashmapinc.com

(

Töltse fel a hópehely számlázási kimutatását a felhasználói mutatókkal

Egy egyszerű trükk lehet a kulcs a hópehely számítási kiadásainak megértéséhez

medium.com

)

Hashmap megabájt | Harapásméretű videósorozat

A Hashmap Megabytes egy heti videósorozat, amelyben a mega felhőötleteket harapásméretű részekben magyarázzák el.

www.hashmapinc.com

(

5 lépés a Python-feladatok PySparkká alakításához

Pandákról PySparkra való áttérés az Apache Arrow vagy a Koalas használatával

medium.com

)

Nyugodtan osszon meg más csatornákon, és ne felejtsen el lépést tartani a Hashmap minden új tartalmával. itt . Ha bármilyen alkalmi beszélgetést szeretne meghallgatni az adatkezelésről és a felhőről, nézze meg a Hashmap podcast Hashmap on Tap a Spotify, az Apple, a Google és más népszerű streaming alkalmazásokban is.

Hashmap on Tap | Hashmap Podcast

A Hashmap-házigazdák és a különleges vendégek változó szereplői különböző szempontokból vizsgálják a különböző technológiákat, miközben egy választott italt élveznek.

www.hashmapinc.com

Mohini Kalamkar felhő- és adatmérnöki tanácsadó a Hasmap Data-, Cloud-, IoT- és AI / ML-megoldások nyújtása és tanácsadás az ágazatokban innovatív technológusok és tartományi szakértők csoportjával, felgyorsítva ügyfeleink számára az értékes üzleti eredményeket.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük