ML For All: Wprowadzenie do platformy ML firmy Nordstrom

(Ariana Bray) (17 kwietnia 2020 r.)

Nasza strategia umożliwiająca samoobsługowe uczenie maszynowe na dużą skalę

Zdjęcie: Pietro Jeng z Unsplash

Od zarządzania logistyką łańcucha dostaw po (tworzenie wyselekcjonowanych stylizacji (zalecenia dotyczące stylizacji cyfrowej) dla milionów klientów), coraz więcej zespołów w firmie Nordstrom wykorzystuje moc uczenia maszynowego (ML) w celu dalszego ulepszania obsługi klienta. Od wyboru źródła danych po wybór języka programowania – każdy robi to inaczej. Gdzie wkracza zespół platformy uczenia maszynowego Nordstrom? Przedstawiamy Cerebro , platformę uczenia maszynowego dla każdego. W tym artykule omówimy naszą wizję dotyczącą Cerebro, potrzebę platformy uczenia maszynowego oraz problemy, które rozwiązaliśmy podczas projektowania Cerebro.

Nasza wizja

Nasza wizja Cerebro miał stworzyć platformę, która umożliwi naukowcom zajmującym się danymi, analitykom i innym programistom ML tworzenie skalowalnych rozwiązań ML, które mają bezpośredni wpływ na biznes – innymi słowy, naszą misją jest umożliwienie samoobsługowego uczenia maszynowego na dużą skalę. Cerebro ma na celu zapewnienie użytkownikom ujednoliconego zestawu narzędzi, których mogą użyć do szybkiego rozwijania i pewnego wdrażania swoich rozwiązań ML.

Podsumowując, głównym celem Cerebro jest zapewnienie łatwego sposobu zarządzać cyklem życia modelu. Cerebro ma bezpośredni wpływ na cały Nordstrom nie tylko umożliwiając szybsze wypychanie modeli do produkcji, ale także umożliwiając innym zespołom korzystanie z Cerebro SDK w celu zastąpienia ich usług naszymi rozwiązaniami ML. Cerebro był już używany przez wiele zespołów w firmie Nordstrom do obsługi ich projektów. Nasza platforma została wykorzystana do zasilania narzędzi wewnętrznych, takich jak prognozowanie modeli. Przy podejmowaniu decyzji projektowych kierujemy się następującymi wskazówkami:

Osiągamy te cele, używając automatyzacji, aby zapewnić wygodną obsługę.

Automatyzacja zapewniająca wygodę użytkownika

Potrzeba

Przez długi czas naukowcy zajmujący się danymi Nordstrom szukali nowych sposobów rozwiązania to pytanie – jak włączyć kompleksowy przepływ pracy systemów uczących się na poziomie produkcyjnym .

Przepływ pracy musi również obejmować wiele aspektów uczenia maszynowego.

Osadzanie inżynierów danych w każdym zespole w celu tworzenia jednorazowych rozwiązań dla tych potrzeb po prostu nie jest opłacalne opcja. Zezwolenie zespołom zajmującym się analizą danych na zarządzanie całym cyklem życia uczenia maszynowego (od pozyskiwania danych do udostępniania modelu) zajęłoby niedopuszczalnie dużo czasu i spowolniłoby organizację jako całość. Krótko mówiąc, potrzebowaliśmy sposobu, aby wyodrębnić inżynierię z uczenia maszynowego.

Możliwości

Istnieją powszechnie znane problemy , które pojawiają się przy wdrażaniu modelu do produkcji. Oprócz tych problemów zespół platformy ML musi również zająć się problemami specyficznymi dla Nordstrom:

  • Wiele modeli, wiele standardów : Nordstrom korzysta z rozwiązań do pomiaru i rejestrowania danych klasy korporacyjnej – ale bez jednego punktu kontaktowego dla wyników tych metryk i dzienników, jak naprawdę są one skuteczne? Kto jest odpowiedzialny za utrzymanie kondycji usługi i modułu równoważenia obciążenia? Jakie wskaźniki należy monitorować?
  • Skala : przypadki użycia nauki o danych są ograniczone do pojedyncze, samodzielne wystąpienie obliczeniowe. Z powodu braku platformy ML dla przedsiębiorstw rozproszone obliczenia nie są wykorzystywane.
  • Przepływ pracy : W przypadku braku przepływów pracy ML zespoły inżynierów w firmie Nordstrom często muszą wprowadzać istotne poprawki w projekcie opartym na nauce o danych, aby był gotowy do produkcji.
  • Nauka nowych narzędzi: W przypadku braku abstrakcji między uczeniem maszynowym a inżynierią osoby pracujące nad projektami ML muszą nauczyć się nowych narzędzi i technologii. Ten wysiłek jest czasochłonny, wymaga wsparcia inżynieryjnego i powoduje opóźnienia w tworzeniu modelu gotowego do produkcji.

Dlaczego nie skorzystać po prostu z istniejącej platformy?

Istnieje wiele luk w istniejących ofertach ML SaaS:

  • Brak scentralizowanego magazynu funkcji
  • Brak obsługi wszystkich modeli i języków
  • Modele specyficzne dla oprogramowania
  • Brak śledzenia modeli; nie kod → funkcja → model pochodzenie
  • Specyficzne dla platformy, uogólnione strojenie hiperparametrów
  • Wyzwania związane z integracją z istniejącą infrastrukturą
  • Kosztowne modele subskrypcji

Postanowiliśmy zbudować platformę, która zapewni analitykom danych to, czego potrzebują i wypełnia wiele luk pozostawionych przez inne rozwiązania platform ML.

Dlaczego budujemy Cerebro

Cerebro to platforma demokratyzująca uczenie maszynowe. Zasadniczo Cerebro wzmacnia partnerstwo i wypełnia lukę między nauką o danych a inżynierią.

Cerebro oferuje użytkownikom szereg korzyści, z których niektóre zostały opisane poniżej:

* Samoobsługa – zmniejsza się zależność użytkownika od oddzielnego zespołu inżynierów;

* Spójne – nasze podejście jest zgodne z istniejącymi przepływami pracy ML używanymi przez społeczność naukowców zajmujących się danymi;

* Mniej nowych technologii – potrzeba uczenia się nowych technologii przez użytkownika jest ograniczona do absolutnego minimum, ponieważ zapewniamy abstrakcję przez nasze interfejsy;

* Łatwy w użyciu – Cerebro nie spowalnia procesu produkcja modeli.

Zamiast zatrudniać więcej inżynierów do obsługi stale rozwijających się przypadków użycia nauki o danych , stworzyliśmy platformę , którą można skalować, aby umożliwić takie przypadki użycia. Zamiast podejmować decyzje oparte na oprogramowaniu innych firm, chcemy podejmować niestandardowe decyzje oparte na algorytmach.

Korzyści z używania Cerebro

Come as You Are: Abstrakcje dla standardowego przepływu pracy

Nasz zespół nie chciał przyjąć podejścia nakazowego i poprosić każdy zespół o używanie tych samych narzędzi i technologii. Zamiast tego opracowaliśmy abstrakcje, które pomagają stworzyć ustandaryzowany przepływ pracy – spokój ponad burzą. Użytkownicy mają do wyboru różne sposoby tworzenia, rozwijania i wdrażania swoich projektów.

Brak zastrzeżonej technologii

Nie wprowadzamy żadnej technologii, która byłaby prawnie zastrzeżona dla żadnej firmy ani organizacji – dlatego nie ponosimy kosztów licencji.

Brak nowego Potrzebna infrastruktura obliczeniowa

Wykorzystujemy platformy obliczeniowe już ustanowione w Nordstrom, nie konfigurując żadnych nowych.

Wybierz własną Źródło danych

Zamiast prosić każdy zespół o użycie określonego źródła danych, Cerebro umożliwia użytkownikom bezpieczne łączenie się z kilkoma najpopularniejszymi bazami danych i hurtowniami danych. W miarę dojrzewania platformy umożliwimy połączenia z jeszcze większą liczbą źródeł danych.

Cloud Provider-Agnostic

Chociaż Cerebro ma pewne zależności od konkretnych dostawców usług w chmurze, pracujemy nad w pełni rozwiązanie niezależne od chmury, które można łatwo rozszerzyć w celu obsługi wielu ofert w chmurze.

Brak ograniczeń dotyczących obsługiwanych struktur szkolenia modeli

Cerebro obsługuje większość popularnych frameworków ML po wyjęciu z pudełka. Każdy framework, którego chciałby użyć analityk danych, może być obsługiwany z minimalnymi zmianami lub bez zmian.

Pochodzenie między kodem, danymi i modelem

Dzięki cennym metadanym dostępnym na każdym kroku, Cerebro umożliwia powiązanie ze sobą kodu zapisane → dane użyte → i wygenerowane model . Użytkownicy mogą uzyskać informacje o tym, jak model jest obsługiwany, a także włączyć pomiar wydajności / skuteczności modelu.

Testowanie i kontrola jakości

Cerebro ułatwia bezproblemowe testowanie logiki w ramach procesu ciągłej integracji. Jakość danych jest zapewniana na każdym etapie.

Punkt kompleksowej obsługi

Cerebro sobie z tym wszystkim poradzi. Użytkownicy mogą:

  • utworzyć projekt uczenia maszynowego z własnym repozytorium Gitlab
  • wykonać programowanie lokalne
  • udostępniać modele offline i online
  • zaaranżuj projekt za pomocą Kubernetes lub Apache Spark na Kubernetes
  • zarządzaj potokami projektów za pomocą oprogramowania open source klasy korporacyjnej

Opowieść o dwóch użytkownikach

Jeśli użytkownik nie dba o abstrakcje, nie musi ich używać. Jednak zdecydowana większość użytkowników korzysta z naszych abstrakcji do realizacji swoich projektów.

Ponieważ zespół platformy uczenia maszynowego nadal tworzy Cerebro, zasady, których się trzymamy, służą jako ważne przypomnienie o naszym celu końcowym.

Nasze zasady

  • Modułowość : Cerebro to znacznie więcej niż tylko punkt końcowy, który naukowcy zajmujący się danymi przekazują modele w – opracowaliśmy zestaw SDK i mamy wiele przykładowych projektów, dzięki czemu naukowcy zajmujący się danymi mogą zobaczyć najlepsze przypadki użycia dla swoich projektów. Egzekwując sprawdzone metody w naszym SDK, nasi użytkownicy mogą niezależnie korzystać z naszej platformy przy minimalnej pomocy zespołu MLP i mieć pewność że narzędzia, których używają na każdym etapie cyklu życia modelu, są właściwe.
  • Otwarta komunikacja : Nie ma sensu budować niczego, jeśli nikt z tego nie korzysta – w tym celu nasz zespół ma dwa razy w tygodniu godziny pracy, w których każdy może wpaść, aby rozwiązać bardziej szczegółowe pytania, których nie można rozwiązać za pomocą wiadomości. Ponadto co dwa tygodnie zespół organizuje spotkania z zespołami zajmującymi się badaniami danych, aby zrozumieć ich potrzeby i zapobiec zbaczaniu z kursu. Ponieważ dostarczamy nowe funkcje co dwa miesiące, ta stała komunikacja jest kluczowa.
  • Wysoka adaptacja : Mamy pracują nad integracją naszego SDK z powszechnie używanymi narzędziami Nordstrom, takimi jak NordyPy , co pozwoli na wygodną obsługę. Wraz z rozwojem platformy bariera wejścia będzie coraz niższa. Dzięki temu konsumenci platformy mogą pochodzić z całego Nordstrom – nie tylko nauki i inżynierii danych .

Co dalej?

W przyszłości artykułów, omówimy przyszłość Cerebro, nadchodzące funkcje i potencjał platformy open-source.

Chcielibyśmy podziękować Nate Lee – innemu inżynierowi ML Platform, który pomógł napisać ten artykuł – a także Rizky Ramdhani, Xingtai Li i Owais Malik, członkowie zespołu ML Platform, którzy przekazali cenne opinie.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *