ML kaikille: Johdanto Nordstromin ML-alustaan ​​

(Ariana Bray) (17. huhtikuuta 2020)

Strategia itsepalvelukoneen oppimisen mahdollistamiseksi mittakaavassa

Kuva: Pietro Jeng osoitteessa Unsplash

Toimitusketjun logistiikan hallinnasta aina (kuratoidun ulkoasun (digitaalisen tyylisuosituksen) rakentamiseen miljoonille asiakkaille) yhä useammat Nordstromin tiimit hyödyntävät koneoppimisen (ML) voima parantaa asiakaskokemusta. Tietolähteen valitsemisesta ohjelmointikielen valitsemiseen jokainen tekee sen eri tavalla. Mistä Nordstromin koneoppimisalustaryhmä tulee? Esittelyssä Cerebro , joka on koneoppimisalusta kaikille. Tässä artikkelissa keskustelemme visiomme Cerebrosta, koneoppimisalustan tarpeesta ja ongelmista, joita käsittelimme suunnitellessamme Cerebroa.

Visiomme

Visio Cerebron oli tarkoitus luoda foorumi, joka antaa datatieteilijöille, analyytikoille ja muille ML-kehittäjille mahdollisuuden luoda skaalautuvia ML-ratkaisuja, jotka edistävät suoraa liiketoimintaa – toisin sanoen tehtävämme on mahdollistaa itsepalvelukoneen oppiminen mittakaavassa. Cerebron tavoitteena on tarjota käyttäjille yhtenäinen joukko työkaluja, joita he voivat käyttää ML-ratkaisujensa nopeaan kehittämiseen ja käyttöönottoon.

Yhteenvetona Cerebron päätarkoitus on tarjota helppo tapa hallita mallin elinkaarta. Cerebro vaikuttaa suoraan koko Nordstromiin paitsi sallimalla mallien nopeamman tuotannon, mutta myös antamalla muiden ryhmien käyttää Cerebro SDK: ta korvaamaan palvelunsa ML-ratkaisuillamme. Useat Nordstromin tiimit ovat jo käyttäneet Cerebroa palvelemaan projektejaan. Alustamme on käytetty sisäisten työkalujen, kuten mallien ennustamisen, tehostamiseen. Pidämme seuraavat ohjeet suunnittelupäätöksemme eturintamassa:

Saavutamme nämä tavoitteet luomalla mukavan käyttökokemuksen automaatioiden avulla.

Automaatiot mukavaan käyttökokemukseen

Tarve

Jo pitkään Nordstromin tutkijat ovat etsineet uusia tapoja ratkaista tämä kysymys – miten tuotantotason koneen oppimisen työnkulku otetaan käyttöön.

Työnkulun on myös sisällytettävä koneoppimisen monia näkökohtia.

Tietojenkäsittelytietojen upottaminen kuhunkin joukkueeseen kertaluonteisten ratkaisujen luomiseksi näihin tarpeisiin ei yksinkertaisesti ole kustannustehokasta vaihtoehto. Sallimalla näiden tietojenkäsittelytiimien hallita koko koneoppimisen elinkaarta (tiedonsiirrosta mallin tarjoamiseen) kuluu kohtuuttoman paljon aikaa, mikä hidastaa organisaatiota kokonaisuutena. Lyhyesti sanottuna tarvitsimme tapaa abstrakti suunnittelu koneoppimisesta.

Mahdollisuudet

laajalti tunnetut ongelmat , jotka liittyvät mallin käyttöönottoon tuotantoon. Näiden ongelmien lisäksi ML Platform -tiimin on myös puututtava Nordstromiin liittyviin ongelmiin:

  • Monet mallit, monet standardit : Nordstrom käyttää yritystason mittareita ja kirjausratkaisuja – mutta kuinka tehokkaita ne ovat, jos ilman näiden tietojen ja lokien tuloksia ei ole yhteyttä? Kuka on vastuussa palvelun terveyden ylläpitämisestä ja kuormituksen tasaajasta? Mitä mittareita on valvottava?
  • Scale : Tietojenkäsittelyn käyttötapaukset ovat rajoitettuja yksittäinen, itsenäinen laskentatapa. Yritystason ML-alustan puuttuessa hajautettua laskentaa ei hyödynnetä.
  • Työnkulku : ML-työnkulkujen puuttuessa Nordstromin suunnittelutiimien on usein tehtävä merkittäviä muutoksia datatieteen vetämään projektiin, jotta se olisi valmis tuotantoon.
  • Uusien työkalujen oppiminen: ML: n ja tekniikan välillä ei ole abstraktiota, joten ML-projektien parissa työskentelevien on opittava uusia työkaluja ja tekniikoita. Tämä työ on aikaa vievää, vaatii teknistä tukea ja lisää viiveitä tuotantovalmiiden mallien luomiseen.

Miksi ei vain käyttää olemassa olevaa alustaa?

Nykyisissä ML SaaS -tuotteissa on monia aukkoja:

  • Ei keskitettyä ominaisuuskauppaa
  • Ei tukea kaikille malleille ja kielille
  • Ohjelmistokohtaiset mallit
  • Ei mallin seurantaa; ei koodia → ominaisuutta → mallia linja
  • kehyskohtainen, yleistetty hyperparametrien viritys
  • Integraation haasteet olemassa olevaan infrastruktuuriin
  • Kalliit tilausmallit

Päätimme rakentaa alustan, joka antaa datatieteilijöille tarvitsemansa ja täytteet monet muiden ML-alustaratkaisujen jättämistä aukoista.

Miksi rakennamme Cerebroa

Cerebro on foorumi, joka demokratisoi koneoppimista. Ytimessä Cerebro vahvistaa kumppanuutta ja yhdistää kuilun datatieteen ja tekniikan välillä.

Cerebro tarjoaa käyttäjille useita etuja, joista joitain on korostettu alla:

* Itsepalvelu – käyttäjän riippuvuus erillisestä suunnittelutiimistä vähenee;

* Johdonmukainen – lähestymistapamme on linjassa nykyisten tietotekniikkayhteisön käyttämien ML-työnkulkujen kanssa;

* Vähemmän uusia tekniikoita – käyttäjän tarve oppia uusia tekniikoita vähennetään ehdottomasti minimiin, koska tarjoamme abstraktiota rajapintojemme kautta;

* Helppo käyttää – Cerebro ei hidasta tuotanto -malleja.

Sen sijaan, että palkkaisit enemmän insinöörejä tukemaan jatkuvasti laajenevia datatieteen käyttötapauksia , olemme rakentaneet alustan , joka voi skaalata mahdollistamaan nuo käyttötapaukset. Kolmansien osapuolten ohjelmistopohjaisten päätösten sijaan haluamme tehdä mukautettuja algoritmipohjaisia ​​päätöksiä.

Cerebron käytön edut

Tule sellaisena kuin olet: Standardoidun työnkulun abstraktit

Tiimimme ei halunnut noudattaa ohjetta ja pyytää kaikkia tiimejä käyttämään samoja työkaluja ja tekniikoita. Sen sijaan olemme kehittäneet abstraktioita, jotka auttavat luomaan standardoidun työnkulun – rauhallisen myrskyn yli . Käyttäjillä on valikoima tapoja luoda, kehittää ja ottaa käyttöön projekteja.

Ei omaa tekniikkaa

Emme ota käyttöön mitään tekniikkaa, joka on omistettu mille tahansa yritykselle tai organisaatiolle, joten meillä ei ole lisensointikustannuksia.

Ei uutta Laskentainfrastruktuuri tarvitaan

Hyödynnämme jo Nordstromiin perustettuja laskenta-alustoja emmekä asenna uusia.

Valitse oma Tietolähde

Sen sijaan, että pyytäisi kaikkia tiimejä käyttämään tiettyä tietolähdettä, Cerebron avulla käyttäjät voivat muodostaa yhteyden turvallisesti useisiin suosituimpiin tietokantoihin ja tietovarastoihin. Alustan kypsyessä mahdollistamme yhteyden vielä useampaan tietolähteeseen.

Cloud Provider-Agnostic

Vaikka Cerebrolla on joitain riippuvuuksia tietyistä pilvipalvelujen tarjoajista, rakennamme kohti täysin pilvi-agnostinen ratkaisu, joka voidaan helposti laajentaa tukemaan useita pilvitarjouksia.

Ei rajoituksia tuetuille mallikoulutuskehyksille

Cerebro tukee useimpia suosittuja ML-kehyksiä alusta alkaen. Kaikkia puitteita, joita datatieteilijä haluaa käyttää, voidaan tukea minimaalisilla muutoksilla tai ei muutoksilla.

Koodin, datan ja mallin

Koska jokaisessa vaiheessa on käytettävissä arvokkaita metatietoja, Cerebro tarjoaa tavan sitoa koodi kirjoitettu → käytetty data käytetty → ja luotu malli . Käyttäjät voivat saada tietoa mallin tarjoamisesta ja mahdollistaa myös mallin suorituskyvyn / tehokkuuden mittaamisen.

Testaus ja laadunvalvonta

Cerebron avulla on helppo testata logiikkaa saumattomasti osana jatkuvaa integraatioprosessia. Tietojen laatu väitetään jokaisessa vaiheessa.

Keskitetyt palvelupisteet

Cerebro pystyy käsittelemään kaiken. Käyttäjät voivat:

  • luoda koneoppimisprojektin omalla Gitlab-arkistollaan
  • suorittaa paikallista kehitystä
  • palvella malleja offline-tilassa ja verkossa
  • organisoi projekti Kubernetesin tai Kubernetesin Apache Sparkin avulla
  • hallitse projektin putkistoja yritystason avoimen lähdekoodin ohjelmistoilla

Kahden käyttäjän tarina

Jos käyttäjä ei välitä abstraktioista, hänen ei tarvitse käyttää niitä. Suurin osa käyttäjistä kuitenkin nauttii abstraktien käyttämisestä projektien loppuunsaattamiseen.

Kun Machine Learning Platform -tiimi jatkaa Cerebron rakentamista, periaatteet, joihin pidämme itsemme, ovat tärkeitä muistutuksia lopullisesta tavoitteestamme.

Periaatteemme

  • Modulaarisuus : Cerebro on paljon muutakin kuin vain päätepiste, jonka datatutkijat läpäisevät mallit osaksi – olemme kehittäneet SDK: n ja meillä on useita esittelyprojekteja, jotta datatieteilijät näkevät parhaan käyttötapansa projekteilleen. Valvomalla SDK: n parhaat käytännöt käyttäjät voivat itsenäisesti käyttää alustaamme mahdollisimman pienellä MLP-tiimin avulla ja olla luottavainen että mallin elinkaaren jokaisessa vaiheessa käyttämät työkalut ovat oikeita.
  • Avoin viestintä : Ei ole mitään järkeä rakentaa mitään, jos kukaan ei käytä sitä – tätä tarkoitusta varten tiimillämme on kaksi kertaa viikossa toimistotunnit, joissa kuka tahansa voi mennä paikalleen selvittämään tarkempia kysymyksiä, joita ei voida ratkaista viestien avulla. Lisäksi tiimi järjestää kahden viikon välein tapaamisia tietojenkäsittelytiimien kanssa ymmärtääkseen heidän tarpeensa ja estääkseen kurssin ulkopuolelta siirtymisen. Koska toimitamme uusia ominaisuuksia joka toinen kuukausi, tämä jatkuva viestintä on ratkaisevan tärkeää.
  • Korkea käyttöönotto : Me työskentelemme SDK: n integroimiseksi laajalti käytettyjen Nordstrom-työkalujen, kuten NordyPy , kanssa, jotta käyttäjäkokemus olisi mukava. Alustan kehittyessä pääsyn este laskee ja laskee. Tämän ansiosta alustan kuluttajat voivat tulla eri puolilta Nordstromia – ei pelkästään tietojenkäsittelytieteen ja suunnittelun ulkopuolelle.

Mitä seuraavaksi? artikkeleita, keskustelemme Cerebron tulevaisuudesta, tulevista ominaisuuksista ja alustan avoimen lähdekoodin potentiaalista.

Haluamme kiittää Nate Leeä – toista ML Platform -insinööriä, joka auttoi kirjoittamaan tämän artikkelin. – samoin kuin Rizky Ramdhani, Xingtai Li ja Owais Malik, ML Platform -tiimin jäsenet, jotka antoivat arvokasta palautetta.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *