Tiefes Lernen, dort einzugreifen, wo es darauf ankommt

Wie wir eine Rückkopplungsschleife aufgebaut haben, um Lernschübe zu optimieren

(Marianne Sorba) (14. August 2018)

Lernen ist nicht einfach. Um es ein wenig einfacher zu machen, haben wir (In-Course Help) gestartet, um Verhaltens- und pädagogische Anstöße zu geben, während sich die Lernenden durch das Kursmaterial bewegen. In diesem Beitrag behandeln wir unseren Prozess und unsere Erkenntnisse bei der Implementierung einer Feedbackschleife für maschinelles Lernen zur Personalisierung und Optimierung dieser Nudges.

Bei der ersten Implementierung der In-Course-Hilfe haben alle Lernenden zu einem bestimmten Zeitpunkt einen bestimmten Zeitpunkt erreicht Der Kurs – zum Beispiel das Abschließen von Vorlesung 9 von Kurs A oder das Nichtbestehen von Quiz 3 von Kurs B – erhielt dieselbe Nachricht. Dies ermöglichte es uns, auf eine Weise einzugreifen, die im Durchschnitt hilfreich war, und die Nadel hinsichtlich des Kursfortschritts und der Beibehaltung zu bewegen.

Wir beobachteten jedoch auch eine Heterogenität der Auswirkungen zwischen Lernenden und Botschaften. Entsprechend waren wir in einer Welt, in der alle Lernenden an einem bestimmten Punkt in einem bestimmten Kurs die Nachricht erhalten haben, vorsichtig, zu viele Nachrichten zu veröffentlichen.

Für die nächste Implementierung haben wir eine intelligente Rückkopplungsschleife zur Steuerung erstellt welche Lernenden jede Nachricht erhalten haben. Das Modell ist ein neuronales Netzwerk, das eine Vielzahl von Funktionen als Eingabe verwendet, darunter die folgenden:

  • Die Klickraten der Lernenden in der Vergangenheit für verschiedene Nachrichten
  • Ihre Demografie ( zB Geschlecht, Alter, Land, Beschäftigungsniveau, Bildungsniveau)
  • Ihre Verhaltensdaten auf der Plattform (z. B. ob die Einschreibung bezahlt wird, Browsersprache, Anzahl der abgeschlossenen Kurse)
  • Merkmale auf Kursebene (z. B. Domäne, Schwierigkeitsgrad, Bewertung)

Mithilfe dieser Funktionen sagt das Modell voraus, wie wahrscheinlich es ist, dass ein bestimmter Lernender eine bestimmte Art von Popup-Nachricht findet, die bei hilfreich ist ein besonderer Punkt in ihrem Lernen. Wenn vorausgesagt wird, dass die Nachricht eine ausreichend positive Auswirkung hat, wird die Nachricht ausgelöst. Andernfalls wird die Nachricht zurückgehalten. Die Gewichte des Modells und seine Vorhersagen werden jede Nacht aktualisiert, während unser Data Science-Team schläft – eine große Verbesserung gegenüber der Basis komplexer und lang laufender verschachtelter A / B-Tests, wobei das Team die Interventionen basierend auf den beobachteten Ergebnissen manuell anpasst. Das Rückkopplungsschleifensystem erweitert sich natürlich auch, um die Auswahl zwischen mehreren Versionen einer Nachricht zu ermöglichen, die am selben Punkt an denselben Lernenden gesendet werden können, wodurch nur die Version ausgelöst wird, von der vorhergesagt wird, dass sie für den Lernenden das positivste Ergebnis erzielt.

Heute gibt es zwei Filterebenen: eine Filterung auf Kurselement-Statusebene, um zu entscheiden, welche Nachrichten aufbewahrt werden sollen, weil sie ausreichend hilfreich sind, und eine Filterung auf Benutzerkurs-Elementstatus-Ebene, um zu personalisieren, welche Nachrichten an welche gesendet werden Lernende zu einem bestimmten Lernzeitpunkt.

Kurz gesagt, für jeden möglichen Anstoß zu jedem Artikelstatus in jedem Kurs sagt das Modell auf Kursgegenstandsebene die durchschnittliche Wahrscheinlichkeit voraus, dass ein Lernender die Nachricht findet hilfreich basierend auf früheren Interaktionen mit der Nachricht und Daten auf Kursebene. Wenn das Modell vorhersagt, dass die Nachricht nicht ausreichend hilfreich ist, halten wir diese Nachricht intuitiv an diesem Triggerpunkt insgesamt zurück (vorausgesetzt, die Anzahl der Impressionen ist ausreichend groß). Diese Filterung auf Triggerebene ist besonders nützlich, wenn wir unser Nachrichteninventar erweitern, da sie automatisch Nachrichten erkennt und herausfiltert, die nicht hilfreich sind – oder nicht für eine bestimmte Klasse oder einen bestimmten Triggerpunkt.

Das Kurselement – Das Modell auf Statusebene ist unter einer ähnlichen Rückkopplungsschleife geschichtet, die auf der Ebene des Benutzerkurs-Item-Status filtert. Nehmen Sie ein einfaches Beispiel: Wir möchten wissen, ob wir Alan an einem bestimmten Punkt seiner Lernreise eine bestimmte Nachricht senden sollen. Betrachten Sie zur Darstellung eine Nachricht, für die wir direkt selbst gemeldete Hilfsbereitschaft vom Lernenden sammeln. In der aktuellen Implementierung gibt es drei Möglichkeiten:

  1. Alan könnte zufällig ausgewählt werden (heute mit einer Wahrscheinlichkeit von 10%), um die Nachricht zu erhalten, egal was ; Dies stellt sicher, dass wir über genügend unvoreingenommene Daten verfügen, damit das Modell jede Nacht weiter lernen und sich verbessern kann.
  2. Alan könnte zufällig ausgewählt werden (heute mit einer Wahrscheinlichkeit von 90%), um möglicherweise die Nachricht zu empfangen, aber Alan ist ein neuer Lernender und hat kaum mit unseren Nachrichten interagiert. Da wir nicht genügend Daten über ihn haben, um eine zuverlässige Vorhersage zu treffen, senden wir ihm die Nachricht, um Daten zu sammeln.
  3. Alan könnte zufällig ausgewählt werden (mit der gleichen Wahrscheinlichkeit von 90%), um die Nachricht möglicherweise zu empfangen. und haben mit genügend ALICE-Nachrichten interagiert, damit das Modell eine zuverlässige Vorhersage treffen kann.Basierend auf Daten aus Alans Lernprofil und seinen früheren Interaktionen mit In-Course-Hilfemeldungen gibt das Modell drei Wahrscheinlichkeiten aus: a) die Wahrscheinlichkeit, dass Alan auf „Ja, das war hilfreich“ klickt; b) die Wahrscheinlichkeit, dass Alan klickt: „Nein, das war nicht hilfreich“; c) die Wahrscheinlichkeit, dass Alan nicht mit der Nachricht interagiert.

Wir senden die Nachricht genau dann, wenn a) b) und c) ausreichend überschreitet. Heute hält die Rückkopplungsschleife etwa 30% der Nachrichten zurück und erhöht das Verhältnis von hilfreichen zu nicht hilfreichen Berichten um 43%.

Wie geht es weiter?

Zuerst iterieren wir die Optimierungsfunktion. Im obigen Beispiel wird eine Optimierung für eine positive Aufnahme des Aufrufs zum Handeln in Betracht gezogen (entweder das Melden der Nachricht war hilfreich oder das Durchklicken der Empfehlung). Für einige Nudges kann und sollte die Optimierungsfunktion jedoch weiter stromabwärts liegen. Wenn wir die Lernende beispielsweise einladen, wichtiges Material zu überprüfen, gibt uns das Klicken durch den angegebenen Link nicht genügend Informationen darüber, ob dieses Überprüfungsmaterial tatsächlich zu ihren Lernergebnissen beigetragen hat – nur darüber, ob sie unserer Empfehlung gefolgt ist. Für diese Art von Interventionen erweitern wir die Optimierungsfunktion, um nachgelagerte Lernergebnisse wie abgeschlossene Elemente zu berücksichtigen.

Zweitens erarbeiten wir mit dieser integrierten Ausfallsicherheit ein Brainstorming und starten neue Arten von Interventionen. Da das Modell automatisch auswählt, welche Nudges wo und für wen weiter ausgeführt werden sollen, können wir neue Wege erkunden, um Lernende einzubeziehen. Wir sind zuversichtlich, dass diejenigen, die nicht hilfreich sind, effizient zurückgehalten werden.

Interessiert an einer Bewerbung Datenwissenschaft zur Bildung?

Coursera stellt !

ein

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.