Învățare profundă pentru a interveni acolo unde contează

Cum am creat o buclă de feedback pentru a optimiza învățăturile de învățare

(Marianne Sorba) (14 august 2018)

Învățarea nu este ușoară. Pentru a ușura ceva mai mult, am lansat (In-Course Help), oferind ghidaje comportamentale și pedagogice pe măsură ce cursanții se deplasează prin materialul de curs. În această postare, acoperim procesul și învățăturile noastre în implementarea unei bucle de feedback de învățare automată pentru personalizarea și optimizarea acestor impulsuri.

În prima implementare a ajutorului în curs, toți cursanții la un moment dat într-un anumit moment cursul – de exemplu, finalizarea prelegerii 9 a cursului A sau eșecul testului 3 al cursului B – a primit același mesaj. Acest lucru ne-a permis să intervenim în moduri utile în medie și a mutat acul asupra progresului și păstrării cursului.

Dar am observat, de asemenea, eterogenitatea impactului între cursanți și mesaje. În mod corespunzător, într-o lume în care toți cursanții dintr-un anumit moment dintr-un anumit curs au primit mesajul, ne-am ferit de lansarea prea multor mesaje.

Pentru următoarea implementare, am creat o buclă de feedback inteligentă pentru a controla care cursanți au primit fiecare mesaj. Modelul este o rețea neuronală care ia ca intrare o gamă largă de caracteristici, inclusiv următoarele:

  • Ratele de clic din trecut ale cursantului pentru diferite mesaje
  • Demografia sa ( de exemplu, sex, vârstă, țară, nivel de angajare, nivel de educație)
  • Datele sale comportamentale pe platformă (de exemplu, dacă înscrierea este plătită, limba browserului, numărul de cursuri finalizate)
  • Caracteristici la nivel de curs (de exemplu, domeniu, dificultate, evaluare)

Folosind aceste caracteristici, modelul prezice cât de probabil este un anumit cursant să găsească un anumit tip de mesaj pop-up util la un punct special în învățarea ei. Dacă prezice că mesajul va avea un impact suficient de pozitiv, acesta declanșează mesajul; în caz contrar, reține mesajul. Ponderile modelului și predicțiile sale se actualizează noaptea în timp ce echipa noastră de științe de date doarme – o îmbunătățire semnificativă față de linia de bază a testelor A / B imbricate complexe și de lungă durată, echipa făcând ajustări manuale la intervenții pe baza rezultatelor observate. Sistemul de buclă de feedback se extinde, de asemenea, în mod natural, pentru a ne permite să alegem între mai multe versiuni ale unui mesaj care poate fi trimis în același punct aceluiași cursant, declanșând doar versiunea prevăzută pentru a avea cel mai pozitiv rezultat pentru cursant.

Astăzi avem două niveluri de filtrare: o filtrare la nivel de curs-articol-stare pentru a decide ce mesaje să păstreze în jur, deoarece acestea sunt suficient de utile și o filtrare la nivel de utilizator-curs-articol-stare pentru a personaliza ce mesaje merg la care cursanți în orice moment de învățare dat.

Pe scurt, pentru fiecare posibilă împingere a fiecărei stări de element în fiecare curs, modelul de nivel curs-articol-stare prezice probabilitatea medie ca un cursant să găsească mesajul util bazat pe interacțiunile anterioare cu mesajul și datele la nivel de curs. Intuitiv, dacă modelul prezice că mesajul nu este suficient de util, îl reținem cu totul în acel punct declanșator (cu condiția ca numărul de afișări să fie suficient de mare). Această filtrare la nivel de declanșare este utilă în special, deoarece extindem inventarul de mesaje, deoarece detectează și filtrează automat mesajele care nu sunt utile – sau care nu sunt pentru o anumită clasă sau punct de declanșare.

Elementul de curs- modelul la nivel de stare este stratificat sub o buclă de feedback similară care se filtrează la nivelul utilizator-curs-articol-stare. Luați un exemplu simplu: vrem să știm dacă îi trimitem un anumit mesaj lui Alan într-un anumit moment al călătoriei sale de învățare. Pentru expunere, luați în considerare un mesaj pentru care colectăm direct utilitatea auto-raportată de la cursant. În implementarea actuală, există trei posibilități.

  1. Alan ar putea fi ales aleatoriu (astăzi cu probabilitate de 10%) pentru a primi mesajul indiferent ce ; acest lucru ne asigură că avem suficiente date imparțiale pentru ca modelul să continue să învețe – și să îmbunătățească – noaptea.
  2. Alan ar putea fi ales aleatoriu (astăzi cu probabilitate de 90%) pentru a primi potențial mesajul, dar Alan este un cursant nou și abia a interacționat cu mesajele noastre. Deoarece nu avem suficiente date despre el pentru a face o predicție de încredere, îi trimitem mesajul pentru a colecta date.
  3. Alan ar putea fi ales aleatoriu (cu aceeași probabilitate 90%) pentru a primi mesajul, și a interacționat cu suficiente mesaje ALICE pentru ca modelul să facă o predicție de încredere.Apoi, pe baza datelor din profilul de cursant al lui Alan și a interacțiunilor sale anterioare cu mesajele de ajutor în curs, modelul redă trei probabilități: a) probabilitatea ca Alan să facă clic pe „Da, acest lucru a fost util”; b) probabilitatea ca Alan să facă clic pe „Nu, nu a fost de ajutor”; c) probabilitatea ca Alan să nu interacționeze cu mesajul.

Trimitem mesajul dacă și numai dacă a) depășește suficient b) și c). Astăzi, bucla de feedback reține aproximativ 30% din mesaje și mărește raportul de rapoarte utile cu cele ne-utile cu 43%.

Deci, ce urmează?

Mai întâi, facem o iterație asupra funcției de optimizare. Exemplul de mai sus consideră optimizarea pentru o absorbție pozitivă a îndemnului la acțiune (fie raportarea mesajului a fost utilă, fie făcând clic pe recomandare). Cu toate acestea, pentru unele lovituri, funcția de optimizare poate și ar trebui să fie în aval. De exemplu, dacă invităm cursantul să revizuiască materialul important, făcând clic pe linkul furnizat nu ne oferă suficiente informații cu privire la faptul că acel material de evaluare a ajutat-o ​​efectiv la rezultatele învățării – doar dacă a urmat recomandarea noastră. Pentru aceste tipuri de intervenții, extindem funcția de optimizare pentru a încorpora rezultatele învățării din aval, cum ar fi elementele finalizate.

În al doilea rând, cu această tehnologie de securitate integrată, facem brainstorming și lansăm noi tipuri de intervenții. Întrucât modelul alege în mod automat care împingeri să continue să ruleze unde și pentru cine, putem explora noi modalități de a atrage cursanții, încrezători că cei care nu sunt de ajutor vor fi în mod eficient reținuți.

Interesat să aplice știința datelor la educație? Coursera angajează !

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *