ML mindenkinek: Bevezetés a Nordstrom ML platformjába

(Ariana Bray) (2020. április 17.)

Stratégiánk az önkiszolgáló gépi tanulás méretarányos bekapcsolására

Fotó: Pietro Jeng a Unsplash

Az ellátási lánc logisztikájának irányításától kezdve (a kurátori külső kialakításáig (digitális stílus ajánlások) több millió ügyfél számára) a Nordstrom egyre több csapata használja ki a gépi tanulás (ML) ereje az ügyfelek élményének további javítása érdekében. Az adatforrás kiválasztásától a programozási nyelv kiválasztásáig mindenki másképp csinálja. Hol jön be a Nordstrom Machine Learning Platform csapata? Bemutatjuk a Cerebro gépi tanulási platformot mindenki számára. Ebben a cikkben megvitatjuk a Cerebróval kapcsolatos elképzeléseinket, a gépi tanulási platform szükségességét és azokat a problémákat, amelyekkel a Cerebro tervezésénél foglalkoztunk.

Víziónk

A jövőképünk Cerebro-nak olyan platformot kellett létrehoznia, amely felhatalmazza az adatkutatókat, elemzőket és más ML-fejlesztőket olyan skálázható ML-megoldások létrehozására, amelyek közvetlen üzleti hatást gyakorolnak – más szóval, küldetésünk az, hogy lehetővé tegyük az önkiszolgáló gépi tanulást. A Cerebro célja, hogy a felhasználók számára egységes eszközöket nyújtson az ML-megoldások gyors fejlesztéséhez és magabiztos telepítéséhez.

Összefoglalva, a Cerebro fő célja, hogy egyszerű módon kezelni a modell életciklusát. A Cerebro nemcsak az egész Nordstromot érinti, nemcsak azáltal, hogy lehetővé teszi a modellek gyorsabb gyártását, hanem más csapatok számára is lehetővé teszi a Cerebro SDK használatát, hogy szolgáltatásaikat az ML megoldásainkkal helyettesítsék. A Cerebrót már több csapat is felhasználta a Nordstrom-on belül projektjeik kiszolgálására. Platformunkat olyan belső eszközök, mint például a modell előrejelzése céljából hajtották végre. A következő irányelveket tartjuk tervezési döntéseink élén:

Ezeket a célokat automatikák segítségével valósítjuk meg a kényelmes felhasználói élmény érdekében.

Automatizálás a kényelmes felhasználói élmény érdekében

A szükség

A Nordstrom adatkutatói hosszú ideje új megoldásokat kerestek ez a kérdés – hogyan engedélyezhetem a gyártási szintű végpontok közötti gépi tanulási munkafolyamatot .

A munkafolyamatnak tartalmaznia kell a gépi tanulás sok szempontját is.

Adatmérnökök beágyazása az egyes csapatokba, hogy egyszeri megoldásokat hozzanak létre ezekre az igényekre, egyszerűen nem költséghatékony választási lehetőség. Ha lehetővé tenné ezeknek az adattudományi csapatoknak a gépi tanulás teljes életciklusának kezelését (az adatok bevitelétől a modellkiszolgálásig), elfogadhatatlan időbe telik, ami lelassítja a szervezet egészét. Röviden, szükségünk volt arra, hogy elvonjunk a gépi tanulástól.

A lehetőségek

Vannak széles körben ismert problémák , amelyek egy modell gyártásba történő bevezetésével járnak. Ezen problémák mellett az ML Platform csapatának meg kell küzdenie a Nordstrom-specifikus problémákkal is:

  • Sok modell, sok szabvány : A Nordstrom nagyvállalati szintű mutatókat és naplózási megoldásokat használ – ezeknek a mutatóknak és naplóknak az eredményeiért azonban egyetlen kapcsolattartási pont nélkül, mennyire hatékonyak? Ki felelős a szolgáltatás és a terheléselosztó egészségének megőrzéséért? Milyen mutatókat kell figyelni?
  • Skála : Az adattudomány felhasználási esetei egyetlen, önálló számítási példány. Vállalati szintű ML platform hiánya miatt az elosztott számítás nincs kihasználva.
  • Munkafolyamat : ML munkafolyamatok hiányában a Nordstrom mérnöki csoportjainak gyakran jelentős kiigazításokat kell végrehajtaniuk egy adattudomány által irányított projektben, hogy az gyártásra kész legyen.
  • Új eszközök megtanulása: Az ML és a mérnöki munka absztrakciójának hiányában az ML projekteken dolgozóknak új eszközöket és technológiákat kell megtanulniuk. Ez az erőfeszítés időigényes, mérnöki támogatást igényel, és késleltetéseket ad hozzá a gyártásra kész modell létrehozásának ütemtervéhez.

Miért ne csak egy meglévő platformot használna?

A meglévő ML SaaS kínálatban sok hiányosság van:

  • Nincs központosított funkciótároló
  • Nincs támogatás minden modellhez és nyelvhez
  • Szoftver-specifikus modellek
  • Nincs modellkövetés; nincs kód → funkció → modell vonal
  • keretrendszer-specifikus, általánosított hiperparaméterek hangolása
  • Integrációs kihívások a meglévő infrastruktúrával
  • Költséges előfizetési modellek

Úgy döntöttünk, hogy felépítünk egy olyan platformot, amely az adatkutatóknak megadja azokat, amelyekre szükségük van sok hiányosság, amelyet más ML platform megoldások hagynak.

Miért építjük a Cerebro

A Cerebro egy olyan platform, amely demokratizálja a gépi tanulást. Alapjában véve a Cerebro megerősíti a partnerséget, és áthidalja a szakadékot az adattudomány és a mérnöki munka között.

A Cerebro számos előnyt kínál a felhasználóknak, amelyek közül néhányat az alábbiakban emelünk ki:

* Önkiszolgálás – a felhasználó külön mérnöki csapatra való támaszkodása csökken;

* következetes – megközelítésünk igazodik az adattudományi közösség által használt meglévő ML munkafolyamatokhoz;

* Kevesebb új technológia – annak szükségessége, hogy a felhasználó megtanulja az új technológiákat, abszolút minimumra csökken, mert az absztrakciókat az interfészeinken keresztül biztosítjuk; >

* Könnyen kezelhető – A Cerebro nem lassítja a modellek gyártása .

Ahelyett, hogy több mérnököt alkalmazna az egyre bővülő adattudományi felhasználási esetek támogatására , felépítettünk egy platformot , amely méretezhető, hogy lehetővé tegye ezeket a felhasználási eseteket. Harmadik féltől származó szoftveralapú döntések helyett egyéni algoritmusvezérelt döntéseket akarunk hozni.

A Cerebro használatának előnyei

Jöjjetek úgy, ahogy vagytok: Absztrakciók egy szabványosított munkafolyamathoz

Csapatunk nem akarta előírni az előírást, és arra kért minden csapatot, hogy ugyanazokat az eszközöket és technológiákat használja. Ehelyett olyan absztrakciókat dolgoztunk ki, amelyek elősegítik a szabványosított munkafolyamat létrehozását – a nyugodt át a vihart. A felhasználóknak számos lehetőségük van projektjeik létrehozására, fejlesztésére és telepítésére.

Nincs saját technológia

Nem vezetünk be egyetlen olyan technológiát sem, amely bármely vállalat vagy szervezet tulajdonában van, ezért nincsenek licencköltségeink.

Nincs új Szükséges számítási infrastruktúra

Kihasználjuk a Nordstromnál már létrehozott számítási platformokat, újakat nem állítunk be.

Válassza ki a sajátját Adatforrás

Ahelyett, hogy minden csapattól egy adott adatforrást kérne, a Cerebro lehetővé teszi a felhasználók számára, hogy biztonságosan csatlakozzanak a legnépszerűbb adatbázisokhoz és adattárházakhoz. Amint a platform lejár, lehetővé tesszük a kapcsolatokat még több adatforrással.

Cloud Provider-Agnostic

Noha a Cerebro bizonyos mértékben függ bizonyos felhőszolgáltatóktól, mi egy teljes körű szolgáltatás felé haladunk. felhő-agnosztikus megoldás, amely könnyen kiterjeszthető több felhőalapú ajánlat támogatására.

Nincsenek korlátozások a támogatott modellképzési keretrendszerekben

A Cerebro már a dobozon kívül támogatja a népszerű ML keretek többségét. Bármely olyan keretrendszer, amelyet egy adatkutató használni szeretne, minimális változtatás nélkül támogatható.

A kód, az adatok és a

A minden lépésben elérhető értékes metaadatokkal a Cerebro lehetőséget nyújt a írta → a adatokat használt → és a létrehozott modell . A felhasználók információkat szerezhetnek a modell kiszolgálásáról, valamint engedélyezhetik a modell teljesítményének / hatékonyságának mérését.

Tesztelés és minőségellenőrzés

A Cerebro megkönnyíti a logika zökkenőmentes tesztelését a folyamatos integrációs folyamat részeként. Az adatok minősége minden lépésben érvényesül.

Egyablakos ügyintézés

A Cerebro képes kezelni az egészet. A felhasználók:

  • létrehozhatnak egy gépi tanulási projektet a saját Gitlab-tárházukkal
  • helyi fejlesztést végezhetnek
  • offline és online modelleket is szolgálhatnak
  • a Kubernetes vagy a Kubernetes Apache Spark alkalmazásával vezényelje a projektet
  • kezelje a projektvezetékeket vállalati szintű nyílt forráskódú szoftverekkel

Két felhasználó meséje

Ha egy felhasználó nem törődik az absztrakcióval, akkor nem kell használnia őket. A felhasználók túlnyomó többsége azonban szívesen használja absztrakcióinkat projektjeik befejezéséhez.

Amint a Machine Learning Platform csapata tovább építi a Cerebro-t, azok az alapelvek, amelyeknek tartjuk magunkat, fontos emlékeztetőként szolgálnak a végcélunkra.

Alapelveink

  • Modularitás : A Cerebro sokkal több, mint pusztán az a végpont, amelyen az adatkutatók átadják a modelleket – fejlesztettünk ki egy SDK-t, és több bemutató projektünk van, hogy az adatkutatók láthassák a projektek legjobb felhasználási lehetőségeit. Az SDK-n belüli bevált gyakorlatok érvényesítésével a felhasználóink ​​ függetlenül felhasználhatják platformunkat az MLP csapatának minimális segítségével, és magabiztosak lehetnek hogy az általuk a modell életciklusának minden szakaszában használt eszközök a megfelelőek.
  • Nyílt kommunikáció : Nincs értelme semmit sem építeni, ha senki nem használja – ennek érdekében csapatunknak hetente kétszer vannak hivatali órái, ahol bárki betérhet, hogy megoldja az üzenetküldéssel nem megoldható részletesebb kérdéseket. Ezenkívül a csapat kéthetente találkozókat tart az adattudományi csoportokkal, hogy megértsék igényeiket és megakadályozzák a tanfolyamtól való elmozdulást. Mivel minden második hónapban új szolgáltatásokat nyújtunk, ez az állandó kommunikáció elengedhetetlen.
  • Magas befogadás : Mi azon dolgozunk, hogy SDK-junkat széles körben használt Nordstrom eszközökkel, például NordyPy integráljuk, lehetővé téve a kényelmes felhasználói élményt. A platform fejlődésével a belépés gátja egyre alacsonyabb lesz. Ez lehetővé teszi, hogy a platform fogyasztói a Nordstrom egész területéről érkezzenek – nemcsak az adattudomány és a mérnöki tudományok ból.

Mi következik?

A jövőben cikkekben megvitatjuk a Cerebro jövőjét, a közelgő szolgáltatásokat és a platform nyílt forráskódú lehetőségeit.

Szeretnénk köszönetet mondani Nate Lee-nek – egy másik ML Platform mérnöknek, aki segített a cikk megírásában – valamint Rizky Ramdhani, Xingtai Li és Owais Malik, az ML Platform csapat tagjai, akik értékes visszajelzéseket adtak.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük