Dyp læring å gripe inn der det teller

Hvordan vi bygde en tilbakemeldingsløyfe for å optimalisere læringsknapper

(Marianne Sorba) (14. august 2018)

Læring er ikke lett. For å gjøre det litt enklere lanserte vi (In-Course Help), som leverer atferdsmessige og pedagogiske trykk når elevene beveger seg gjennom kursmateriellet. I dette innlegget dekker vi prosessen og læringene våre i implementering av tilbakemeldingsløyfe for maskinlæring for å tilpasse og optimalisere disse knuffene.

I den første implementeringen av In-Course Help, alle elever på et gitt punkt i et gitt kurs – for eksempel å fullføre forelesning 9 i kurs A, eller ikke bestå Quiz 3 på kurs B – fikk den samme meldingen. Dette tillot oss å gripe inn på måter som var nyttige i gjennomsnitt , og flyttet nålen på kursforløp og oppbevaring.

Men vi observerte også heterogenitet av innvirkning på tvers av elever og meldinger. Tilsvarende, i en verden der alle elever på et gitt punkt i et gitt kurs mottok meldingen, var vi skeptiske til å rulle ut for mange meldinger.

For neste implementering opprettet vi en smart tilbakemeldingssløyfe for å kontrollere hvilke elever som mottok hver melding. Modellen er et nevralt nettverk som tar i bruk et bredt spekter av funksjoner, inkludert følgende:

  • Elevenes tidligere klikkfrekvenser for ulike meldinger
  • Hennes demografi ( f.eks. kjønn, alder, land, sysselsettingsnivå, utdanningsnivå)
  • Hennes atferdsdata på plattformen (f.eks. om påmeldingen er betalt, nettleserspråk, antall gjennomførte kurs)
  • Kursnivåegenskaper (f.eks. Domene, vanskeligheter, vurdering)

Ved å bruke disse funksjonene, forutsier modellen hvor sannsynlig en bestemt elev er for å finne en bestemt type popup-melding nyttig på et spesielt poeng i læringen hennes. Hvis den forutsier at meldingen vil ha tilstrekkelig positiv innvirkning, utløser den meldingen; ellers holder den meldingen tilbake. Vekten av modellen og dens spådommer oppdateres hver natt mens datavitenskapsteamet vårt sover – en stor forbedring fra baseline av komplekse og langvarige nestede A / B-tester, med teamet som gjør manuelle justeringer av inngrepene basert på observerte resultater. Tilbakemeldingssløyfesystemet strekker seg også naturlig slik at vi kan velge mellom flere versjoner av en melding som kan sendes på samme tidspunkt til den samme eleven, og utløser bare den versjonen som er spådd å ha det mest positive resultatet for eleven.

I dag har vi to filtreringsnivåer: en filtrering av kurs-element-tilstandsnivå for å bestemme hvilke meldinger vi vil beholde, fordi de er tilstrekkelig nyttige, og en filter-kurs-element-tilstand-nivå for å tilpasse hvilke meldinger som går elever til enhver gitt læringsøyeblikk.

Kort fortalt, for hver mulige knusing på hver elementtilstand i hvert kurs, forutsier modellen for kurs-element-tilstand-nivå gjennomsnittlig sannsynlighet for at en elev finner meldingen nyttig basert på tidligere interaksjoner med meldingen og data på kursnivå. Intuitivt, hvis modellen forutsier at meldingen ikke er tilstrekkelig nyttig, holder vi den meldingen helt tilbake på det triggerpunktet (forutsatt at antall visninger er tilstrekkelig stort). Denne filtreringen på utløsernivå er spesielt nyttig ettersom vi utvider meldingsbeholdningen fordi den automatisk oppdager og filtrerer ut meldinger som ikke er nyttige – eller som ikke er for en bestemt klasse eller et triggerpunkt.

Kurselementet- tilstandsnivåmodell er lagdelt under en lignende tilbakemeldingssløyfe som filtrerer på bruker-kurs-element-tilstandsnivå. Ta et enkelt eksempel: Vi vil vite om vi skal sende en bestemt melding til Alan på et bestemt tidspunkt i læringsreisen. Tenk på en melding som vi direkte samler inn egenrapportert hjelpsomhet fra eleven. I den nåværende implementeringen er det tre muligheter.

  1. Alan kunne velges tilfeldig (i dag med sannsynlighet 10%) for å motta meldingen uansett hva ; dette sikrer at vi har nok objektive data for at modellen kan fortsette å lære – og forbedre – hver natt.
  2. Alan kan velges tilfeldig (i dag med sannsynlighet 90%) for å potensielt motta meldingen, men Alan er en ny elev og har knapt samhandlet med budskapene våre. Siden vi ikke har tilstrekkelig data om ham til å gi en pålitelig spådom, sender vi ham meldingen om å samle inn data.
  3. Alan kan velges tilfeldig (med samme sannsynlighet 90%) for å potensielt motta meldingen, og har samhandlet med nok ALICE-meldinger til at modellen kan gi en pålitelig spådom.Basert på data fra Alans lærerprofil og hans tidligere interaksjoner med hjelpemeldinger i løpet av kurset, viser modellen tre sannsynligheter: a) sannsynligheten for at Alan klikker: «Ja, dette var nyttig»; b) sannsynligheten for at Alan klikker, «Nei, dette var ikke nyttig»; c) sannsynligheten for at Alan ikke samhandler med meldingen.

Vi sender meldingen hvis og bare hvis a) tilstrekkelig overstiger b) og c). I dag holder tilbakemeldingssløyfen tilbake 30% av meldingene og øker forholdet mellom nyttige og ikke-nyttige rapporter med 43%.

Så hva er det neste?

Først gjentar vi oss om optimaliseringsfunksjonen. Eksemplet ovenfor vurderer å optimalisere for et positivt opptak av oppfordringen til handling (enten å rapportere meldingen var nyttig eller klikke på anbefalingen). For noen knotter kan og bør optimaliseringsfunksjonen imidlertid være lenger nedstrøms. Hvis vi for eksempel inviterer eleven til å gjennomgå viktig materiale, gir ikke henne å klikke på lenken som er gitt oss tilstrekkelig informasjon om hvorvidt gjennomgangsmaterialet faktisk hjalp hennes læringsutbytte – bare om hun fulgte vår anbefaling. For denne typen intervensjoner utvider vi optimaliseringsfunksjonen til å inkludere nedstrøms læringsutbytte som fullførte elementer.

For det andre, med denne innebygde feilsikkerheten, brainstormer og lanserer nye typer intervensjoner. Siden modellen automatisk velger hvilke knuffer som skal fortsette å løpe hvor og for hvem, kan vi utforske nye måter å engasjere elever på, sikre på at de som ikke er nyttige vil bli holdt tilbake effektivt.

Interessert i å søke datavitenskap til utdanning? Coursera ansetter !

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *