Jak umieścić Azure Data Factory (ADF) ) Łącznik płatka śniegu do użycia

(Mohini Kalamkar) (3 grudnia 2020 r.)

Przedsiębiorstwa przechowują swoje dane w różnych lokalizacjach, od wewnętrznych baz danych po platformy SaaS. Aby uzyskać wgląd w te dane, należy wyodrębnić i załadować dane z różnych źródeł do hurtowni danych lub jeziora danych. Aby połączyć lub zbudować dość złożone potoki danych ETL / ELT, przedsiębiorstwa wolą korzystać z nowoczesnych narzędzi, takich jak Matillion, Azure Data Factory, Fivetran, Talend Stitch i wiele innych. W zależności od architektury i wymagań dotyczących danych możesz wybrać jedno lub wiele narzędzi ETL / ELT do swojego przypadku użycia.

Niedawno miałem okazję zapoznać się zarówno z Matillion i Azure Data Factory (ADF) w celu załadowania danych do chmury danych Snowflake . Większość tego posta będzie skupiać się na moich doświadczeniach z ADF, ale omówię też pokrótce Matillion.

Zanim przejdziemy do dyskusji na temat narzędzi do integracji danych, jeśli rozważasz platformę danych w chmurze w jedną z 3 głównych chmur publicznych, polecam sprawdzić Snowflake. Snowflake nadal imponuje imponującą i niedrogą usługą, która sprawdza wszystkie kluczowe pola naszego zespołu w Hashmap i jest to pierwsze rozwiązanie SQL, z którym można bardzo szybko zacząć korzystać.

Quick Thoughts on Matillion

Odkryłem, że Matillion ma dodatkowy poziom dojrzałości w porównaniu do ADF pod względem integracji źródeł z Snowflake. W szczególności:

  • Świetny interfejs użytkownika
  • Zmień magazyn, aby skalować w górę iw dół dla poszczególnych zadań
  • Utwórz komponent formatu pliku (tworzy nazwany format pliku, który może być używany do zbiorczego ładowania danych do tabel Snowflake i ich wyładowywania)

Zespół Microsoft ADF nadal pracuje nad dodaniem niektórych z tych funkcji do łącznika ADF dla Snowflake.

Złącze ADF Snowflake

Przejdźmy do złącza ADF Snowflake . Omówię kilka tematów wymienionych poniżej:

  1. Korzystanie ze złącza ADF Snowflake – implementacja SCD typu 1 .
  2. Możliwości złącza ADF Snowflake.
  3. Ograniczenia złącza ADF Snowflake (w chwili pisania tego tekstu).

Azure Data Factory (ADF) to usługa w chmurze platformy Azure, która umożliwia tworzenie przepływów pracy opartych na danych w celu organizowania i automatyzacji przenoszenia i transformacji danych.

ADF ma szereg wbudowanych łączników które umożliwiają integrację z różnymi źródłami danych i celami, aw czerwcu 2020 roku zespół inżynierów Microsoft ADF dodał obsługę Snowflake jako docelowego magazynu danych.

Krótka uwaga, że ​​musiałem również zintegrować i połącz Azure Functions z Snowflake, ale zachowam tę dyskusję na inny post.

Aby rozpocząć eksplorację łącznika ADF Snowflake, zobaczmy, jak można zaimplementować SCD typu 1 za pomocą łącznika ADF!

Pierwsze kroki

W przypadku tego imp lementation używane są następujące usługi platformy Azure: Azure Blob Storage, Azure Data Factory (usługi połączone, zestawy danych i przepływy danych).

Warunek wstępny:

  • Usługi połączone ADF dla obiektu Azure Blob przechowywania i konto Snowflake są tworzone.
  • Tabela Samoloty jest tworzona w Snowflake z poniższym schematem:
CREATE TABLE Planes (
ICAO nvarchar(200),
IATA nvarchar(200),
MAKER nvarchar(200),
DESCRIPTION nvarchar(200)
);
  1. Najpierw prześlijmy plik CSV do obiektu Azure Blob.
plik CSV
Plik CSV

2. W ADF utwórz (źródłowy) zbiór danych dla pliku blob.

Zestaw danych dla obiektu blob
Zestaw danych dla plik blob

3. Utwórz (ujście) zestaw danych dla Snowflake.

Zestaw danych dla Snowflake

4. Teraz stwórzmy przepływ danych ADF z 3 komponentami. Źródło, AlterRow i Sink.

Jak pokazano poniżej, wybierz źródłowy zestaw danych utworzony w kroku 1.

Ustawienie źródła przepływu danych

5. Kontynuacja ustawiania źródła przepływu danych:

Ustawienie źródła przepływu danych

6. Teraz przejrzyjmy dane źródłowe.

Poniższy zrzut ekranu przedstawia podgląd danych dla źródła.

Podgląd danych źródła danych

7. Teraz, gdy źródło będzie gotowe, dodajmy Zmień transformację.Transformacja Alter pozwala na wstawianie / aktualizowanie / dodawanie rekordów i usuwanie rekordów zgodnie z podanymi warunkami.

Określiłem warunek dla Upsert.

Dataflow AlterRow

8. Ustawienie Dataflow Sink.

Jak pokazano poniżej, wybierz połączoną usługę utworzoną dla Snowflake.

Dataflow Sink

9. Ustawienie ujścia przepływu danych.

Wybierz schemat Snowflake, nazwę tabeli i metodę aktualizacji.

Wybierz klucz podstawowy tabeli Snowflake w sekcji „Kolumny kluczowe”. W oparciu o „kolumny kluczowe” rekordy zostaną wstawione / podniesione / usunięte / zaktualizowane w tabeli ujścia.

Dobrą praktyką jest sprawdzenie „Podglądu danych” przed przejściem do następnego zadania w Dataflow.

Dataflow Sink

10. Importuj przepływ danych do Pipeline i kliknij debugowanie.

Importuj przepływ danych do potoku

11. Teraz sprawdźmy tabele Planes w Snowflake.

Wszystkie rekordy są wstawiane do tabeli Snowflake.

Tabela płatków śniegu – samoloty

12. Następnie zaktualizujmy plik CSV.

Zaktualizowano A318 i wstawiono B713.

Zaktualizowany plik CSV

13. Debuguj potok i sprawdź tabelę Samoloty w Snowflake.

Jak na zrzucie ekranu poniżej pokazuje, masz zaktualizowany rekord dla A318.

Zaktualizowany rekord w tabeli Planes

14. Nowy rekord B713 został wstawiony do tabeli Płaszczyzny.

Tabela samolotów – nowy rekord wstawiony z tabeli CSV

Jak pokazano w krokach 13 i 14, dostępne są zaktualizowane i nowe rekordy w tabeli Snowflake.

Tak więc bez pisania żadnego kodu osiągnięcie SCD typu 1 za pomocą złącza ADF Snowflake.

Możliwości złącza ADF Snowflake

Podczas wdrażania ADF Connecto r dla Snowflake, wiedz, że będziesz mieć wsparcie dla następujących typów działań:

Aby uzyskać więcej informacji, zapoznaj się z tym dokumentem – https://docs.microsoft.com/en-us/azure/data-factory/connector-snowflake

Zatem łącznik ma kilka dobrych możliwości, jednak istnieje kilka ograniczeń, o których również należy pamiętać. Przyjrzyjmy się temu.

Ograniczenia złącza ADF Snowflake

  1. Podczas tworzenia połączonej usługi dla konta Snowflake integracja SSO (zewnętrzna przeglądarka uwierzytelniająca) nie jest jeszcze obsługiwana.
  2. Łącznik ADF Snowflake nie obsługuje wykonywania procedury składowanej Snowflake. Jednak alternatywą lub obejściem tego problemu jest wywołanie procedur składowanych przy użyciu Azure Functions.
  3. Tabela Snowflake musi być dostępna przed załadowaniem danych.
  4. Bezpośrednie kopiowanie z / do Snowflake jest obsługiwane tylko dla następujących formatów: Parkiet, rozdzielany tekst i JSON (tabela Snowflake lub wynik zapytania ma tylko jedną kolumnę, a typ danych w tej kolumnie to VARIANT, OBJECT lub ARRAY). Gdy magazyn lub format danych źródła / ujścia nie są natywnie zgodne z poleceniem Snowflake COPY, należy włączyć wbudowaną kopię etapową za pomocą tymczasowego wystąpienia usługi Azure Blob Storage, co powoduje dodatkowe koszty rozliczeń platformy Azure.

Uwagi końcowe

Łącznik ADF Snowflake czyni postępy w ułatwianiu łączenia natywnych narzędzi firmy Microsoft ze Snowflake i implementacji SCD typu 1. Jak w przypadku każdego narzędzia do integracji danych, zawsze zaleca się zaprojektowanie, zaprojektowanie i wdrożenie ostatecznego podejścia opartego na przypadkach użycia, wzorcach, umowach SLA, zestawach umiejętności i wymaganiach dotyczących zużycia danych, które dyktuje Twoja indywidualna sytuacja.

Gotowy do przyspieszenia Cyfrowa transformacja?

W Hashmap współpracujemy z naszymi klientami, aby wspólnie tworzyć lepsze rozwiązania.

Jeśli rozważasz przeniesienie danych i produktów analitycznych oraz aplikacji do chmury lub jeśli chcesz pomoc i wskazówki oraz kilka najlepszych praktyk w zakresie uzyskiwania lepszych wyników w istniejącej firmie program w chmurze, prosimy o kontakt.

Hashmap oferuje szereg warsztatów wspierających i usług oceny, usługi modernizacji i migracji chmury oraz pakiety usług konsultingowych w ramach naszej chmury ( i Płatek śniegu ) oferty usług. Z przyjemnością spełnimy Twoje specyficzne wymagania.

Inne narzędzia i treści, które mogą Ci się spodobać

Narzędzia Snowflake & Akceleratory | Zrób więcej dzięki Snowflake | Hashmap

Wypróbuj wszystkie narzędzia Snowflake dostępne w Hashmap i zrób więcej dzięki Snowflake: Snowflake Inspector…

www.hashmapinc.com

(

Doładuj swój rachunek płatniczy Snowflake danymi użytkowników

Jedna prosta sztuczka może być kluczem do zrozumienia Twoich wydatków obliczeniowych w usłudze Snowflake

medium.com

)

Hashmap Megabajty | Seria filmów w rozmiarze ułamka

Hashmap Megabajty to cotygodniowa seria filmów, w których pomysły na mega chmury są wyjaśniane w krótkich fragmentach.

www.hashmapinc.com

(

5 kroków do konwersji zadań Pythona do PySpark

Przejście z Pandas do PySpark przy użyciu Apache Arrow lub Koalas

medium.com

)

Nie krępuj się udostępniać na innych kanałach i bądź na bieżąco z wszystkimi nowymi treściami z Hashmap tutaj . Aby posłuchać swobodnej rozmowy na temat wszystkich zagadnień związanych z inżynierią danych i chmurą, obejrzyj podcast Hashmap Hashmap on Tap także w Spotify, Apple, Google i innych popularnych aplikacjach do transmisji strumieniowej.

Hashmap on Tap | Podcast Hashmap

Obracająca się obsada gospodarzy Hashmap i gości specjalnych odkrywa różne technologie z różnych perspektyw, delektując się ulubionym napojem.

www.hashmapinc.com

Mohini Kalamkar jest konsultantem ds. chmury i inżynierii danych w Hashmap dostarczanie rozwiązań w zakresie danych, chmury, IoT i sztucznej inteligencji / ML oraz doradztwo w różnych branżach z grupą innowacyjnych technologów i ekspertów dziedzinowych, przyspieszających uzyskiwanie wartościowych wyników biznesowych dla naszych klientów.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *