Dyb læring at gribe ind, hvor det tæller

Hvordan vi byggede en feedback-loop til optimering af læringsknuder

(Marianne Sorba) (14. aug. 2018)

Det er ikke let at lære. For at gøre det lidt lettere lancerede vi (In-Course Help), der leverer adfærdsmæssige og pædagogiske knudepunkter, når eleverne bevæger sig gennem kursusmateriale. I dette indlæg dækker vi vores proces og læring i implementering af en feedback-løkke til maskinindlæring til personalisering og optimering af disse knudepunkter.

I den første implementering af In-Course Help er alle elever på et givet tidspunkt i et givet kursus – for eksempel at gennemføre forelæsning 9 på kursus A eller ikke bestå Quiz 3 på kursus B – modtog den samme besked. Dette tillod os at gribe ind på måder, der var nyttige i gennemsnit og bevægede nålen på kursets fremskridt og fastholdelse.

Men vi observerede også heterogenitet af påvirkning på tværs af elever og meddelelser. Tilsvarende i en verden, hvor alle elever på et givet tidspunkt i et givet kursus modtog beskeden, var vi forsigtige med at udrulle for mange meddelelser.

Til den næste implementering oprettede vi en smart feedback-loop til kontrol hvilke elever modtog hver besked. Modellen er et neuralt netværk, der tager som input en lang række funktioner, herunder følgende:

  • Elevernes tidligere klikhastigheder for forskellige meddelelser
  • Hendes demografi ( fx køn, alder, land, beskæftigelsesniveau, uddannelsesniveau)
  • Hendes on-platform adfærdsmæssige data (f.eks. om tilmeldingen er betalt, browsersprog, antal gennemførte kurser)
  • Kursusniveaukarakteristika (f.eks. Domæne, sværhedsgrad, bedømmelse)

Ved hjælp af disse funktioner forudsiger modellen, hvor sandsynligt en bestemt elev er for at finde en bestemt type pop-up-besked, der er nyttigt ved et bestemt punkt i hendes læring. Hvis det forudsiger, at meddelelsen vil have en tilstrækkelig positiv indvirkning, udløser den beskeden; ellers holder det beskeden tilbage. Vægtene på modellen og dens forudsigelser opdateres hver aften, mens vores datavidenskabsteam sover – en stor forbedring fra basislinjen for komplekse og langvarige indlejrede A / B-tests, hvor teamet foretager manuelle justeringer af interventionerne baseret på observerede resultater. Feedback-loop-systemet strækker sig naturligvis også til at give os mulighed for at vælge mellem flere versioner af en besked, der kan sendes på samme tidspunkt til den samme elev, hvilket kun udløser den version, der forventes at have det mest positive resultat for eleven.

I dag har vi to niveauer for filtrering: et kursus-element-tilstandsniveau-filtrering for at bestemme, hvilke meddelelser der skal opbevares, fordi de er tilstrækkeligt nyttige, og et filter til bruger-kursus-element-tilstandsniveau til at personalisere, hvilke meddelelser der går til hvilke elever på ethvert givet læringsmoment.

Kort fortalt forudsiger kursus-element-tilstand-niveau-modellen for hver mulig knap på hver elementtilstand i hvert kursus den gennemsnitlige sandsynlighed for, at en elev finder beskeden hjælpsom baseret på tidligere interaktioner med meddelelsen og data på kursusniveau. Intuitivt, hvis modellen forudsiger, at meddelelsen ikke er tilstrækkelig hjælpsom, holder vi den besked tilbage ved det triggerpunkt helt (forudsat at antallet af visninger er tilstrækkeligt stort). Denne filtrering på triggerniveau er især nyttig, da vi udvider vores meddelelsesbeholdning, fordi den automatisk registrerer og filtrerer meddelelser, der ikke er nyttige – eller ikke er til en bestemt klasse eller et triggerpunkt.

Course-item- tilstandsniveaumodel er lagdelt under en lignende feedback-sløjfe, der filtrerer på bruger-kursus-element-tilstandsniveau. Tag et simpelt eksempel: Vi vil vide, om vi skal sende en bestemt besked til Alan på et bestemt tidspunkt i hans læringsrejse. Til redegørelse skal du overveje en besked, som vi direkte indsamler selvrapporteret hjælpsomhed fra eleven til. I den nuværende implementering er der tre muligheder.

  1. Alan kunne vælges tilfældigt (i dag med sandsynlighed 10%) til at modtage beskeden uanset hvad ; dette sikrer, at vi har nok upartiske data til, at modellen kan fortsætte med at lære – og forbedre – om natten.
  2. Alan kunne vælges tilfældigt (i dag med sandsynlighed 90%) til potentielt at modtage meddelelsen, men Alan er en ny elev og har næppe interageret med vores budskaber. Da vi ikke har tilstrækkelige data om ham til at forudsige en pålidelig forudsigelse, sender vi ham beskeden om at indsamle data.
  3. Alan kunne tilfældigt vælges (med samme sandsynlighed 90%) til potentielt at modtage meddelelsen, og har interageret med nok ALICE-meddelelser til, at modellen kan forudsige en pålidelig forudsigelse.Derefter, baseret på data fra Alans lærerprofil og hans tidligere interaktioner med Hjælp-beskeder i kurset, udsender modellen tre sandsynligheder: a) sandsynligheden for, at Alan klikker, “Ja, dette var nyttigt”; b) sandsynligheden for, at Alan klikker: “Nej, dette var ikke nyttigt”; c) sandsynligheden for, at Alan ikke interagerer med beskeden.

Vi sender beskeden, hvis og kun hvis a) tilstrækkeligt overstiger b) og c). I dag holder feedback-sløjfen tilbage ca. 30% af meddelelserne og øger forholdet mellem nyttige og ikke-nyttige rapporter med 43%.

Så hvad er det næste?

Først gentager vi optimeringsfunktionen. Eksemplet ovenfor overvejer at optimere til en positiv optagelse af opfordringen til handling (enten at rapportere meddelelsen var nyttig eller klikke igennem på henstillingen). For nogle knudepunkter kan og bør optimeringsfunktionen imidlertid være længere nedstrøms. For eksempel, hvis vi opfordrer eleven til at gennemgå vigtigt materiale, giver hendes klik på det givne link os ikke tilstrækkelig information om, hvorvidt dette gennemgangsmateriale faktisk hjalp hendes læringsresultater – kun om hun fulgte vores anbefaling. For denne type interventioner udvider vi optimeringsfunktionen til at indarbejde downstream-læringsresultater såsom færdige emner.

For det andet, med denne fejlsikre indbyggede, brainstormer vi og lancerer nye slags interventioner. Da modellen automatisk vælger, hvilke skubber der skal løbe, hvor og for hvem, kan vi udforske nye måder at engagere eleverne på, i tillid til at de, der ikke er nyttige, bliver holdt tilbage effektivt.

Interesseret i at anvende datavidenskab til uddannelse? Coursera ansætter !

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *