Głębokie uczenie, aby interweniować tam, gdzie ma to znaczenie

Jak zbudowaliśmy pętlę informacji zwrotnych, aby zoptymalizować zachęty do nauki

(Marianne Sorba) (14 sierpnia 2018 r.)

Nauka nie jest łatwa. Aby to trochę ułatwić, uruchomiliśmy (Pomoc w trakcie kursu), dostarczając behawioralne i pedagogiczne zachęty, gdy uczniowie przechodzą przez materiał kursu. W tym poście omawiamy nasz proces i nauki dotyczące wdrażania pętli sprzężenia zwrotnego systemów uczących się w celu personalizacji i optymalizacji tych zachęt.

W pierwszej implementacji pomocy w trakcie kursu wszyscy uczniowie w danym momencie w danym kurs – na przykład ukończenie Wykładu 9 Kursu A lub niezaliczenie Quizu 3 Kursu B – otrzymało tę samą wiadomość. Pozwoliło nam to interweniować w sposób, który był pomocny średnio i skierował wskazówkę na postępy w kursie i retencję.

Ale zaobserwowaliśmy również niejednorodność wpływu na uczniów i wiadomości. Odpowiednio, w świecie, w którym wszyscy uczniowie w danym momencie danego kursu otrzymali wiadomość, obawialiśmy się wprowadzenia zbyt wielu wiadomości.

W następnej implementacji stworzyliśmy inteligentną pętlę informacji zwrotnych, aby kontrolować którzy uczniowie otrzymali każdą wiadomość. Model jest siecią neuronową, która przyjmuje jako dane wejściowe szeroki zakres funkcji, w tym następujące:

  • Poprzednie współczynniki klikalności ucznia dla różnych wiadomości
  • Jej dane demograficzne ( np. płeć, wiek, kraj, poziom zatrudnienia, poziom wykształcenia)
  • Jej dane behawioralne na platformie (np. czy rejestracja jest płatna, język przeglądarki, liczba ukończonych kursów)
  • Charakterystyka na poziomie kursu (np. Dziedzina, trudność, ocena)

Korzystając z tych funkcji, model przewiduje, jak prawdopodobne jest, że dany uczeń znajdzie określony typ wyskakującego komunikatu pomocnego w szczególny punkt jej nauki. Jeśli przewiduje, że wiadomość będzie miała dostatecznie pozytywny wpływ, wyzwala przekaz; w przeciwnym razie wstrzymuje wiadomość. Wagi modelu i jego prognozy są aktualizowane co noc, gdy nasz zespół analityków danych śpi – to duża poprawa w porównaniu z linią bazową złożonych i długotrwałych zagnieżdżonych testów A / B, gdzie zespół ręcznie dostosowuje interwencje na podstawie zaobserwowanych wyników. System pętli sprzężenia zwrotnego również w naturalny sposób rozszerza się, aby umożliwić nam wybór spośród wielu wersji wiadomości, które mogą być wysłane w tym samym miejscu do tego samego ucznia, uruchamiając tylko wersję, która według przewidywań będzie miała najbardziej pozytywny wynik dla ucznia.

Obecnie mamy dwa poziomy filtrowania: filtrowanie na poziomie stanu przedmiotu kursu, aby zdecydować, które wiadomości zachować, ponieważ są wystarczająco pomocne, oraz filtrowanie na poziomie stanu elementu kursu, aby spersonalizować, do których wiadomości trafiają uczących się w dowolnym momencie nauki.

Krótko mówiąc, dla każdego możliwego szturchnięcia każdego stanu elementu w każdym kursie model kursu-stanu-przedmiotu przewiduje średnie prawdopodobieństwo znalezienia wiadomości przez ucznia pomocne na podstawie wcześniejszych interakcji z przekazem i danych na poziomie kursu. Intuicyjnie, jeśli model przewiduje, że komunikat nie jest wystarczająco pomocny, całkowicie wstrzymujemy ten komunikat w tym punkcie wyzwalania (pod warunkiem, że liczba wyświetleń jest wystarczająco duża). To filtrowanie na poziomie wyzwalacza jest szczególnie przydatne, gdy rozszerzamy nasz spis wiadomości, ponieważ automatycznie wykrywa i odfiltrowuje wiadomości, które nie są pomocne – lub nie są przeznaczone dla określonej klasy lub punktu wyzwalającego.

Element kursu- model poziomu stanu jest ułożony warstwowo w podobnej pętli sprzężenia zwrotnego, która filtruje na poziomie stanu kursu użytkownika. Weźmy prosty przykład: chcemy wiedzieć, czy wysłać konkretną wiadomość do Alana w konkretnym momencie jego podróży edukacyjnej. W celu przedstawienia rozważ wiadomość, w przypadku której bezpośrednio zbieramy od osoby uczącej się pomoc. W obecnej implementacji są trzy możliwości.

  1. Alan mógłby zostać wybrany losowo (dziś z prawdopodobieństwem 10%) do odebrania wiadomości bez względu na wszystko ; zapewnia to, że mamy wystarczająco dużo obiektywnych danych, aby model mógł kontynuować naukę – i ulepszać – co noc.
  2. Alan mógłby zostać wybrany losowo (dziś z prawdopodobieństwem 90%), aby potencjalnie odebrać wiadomość, ale Alan jest nowym uczniem i ledwo wchodził w interakcję z naszymi wiadomościami. Ponieważ nie mamy o nim wystarczających danych, aby dokonać wiarygodnej prognozy, wysyłamy mu wiadomość w celu zebrania danych.
  3. Alan może zostać losowo wybrany (z takim samym prawdopodobieństwem 90%), aby potencjalnie odebrać wiadomość, i wszedł w interakcję z wystarczającą liczbą komunikatów ALICE, aby model mógł wykonać wiarygodną prognozę.Następnie, na podstawie danych z profilu ucznia Alana i jego poprzednich interakcji z komunikatami pomocy w trakcie kursu, model generuje trzy prawdopodobieństwa: a) prawdopodobieństwo, że Alan kliknie „Tak, to było pomocne”; b) prawdopodobieństwo, że Alan kliknie „Nie, to nie było pomocne”; c) prawdopodobieństwo, że Alan nie wejdzie w interakcję z wiadomością.

Wysyłamy wiadomość wtedy i tylko wtedy, gdy a) dostatecznie przekracza b) ic). Obecnie pętla opinii zatrzymuje około 30% wiadomości i zwiększa stosunek raportów przydatnych do nieprzydatnych o 43%.

Więc co dalej?

Najpierw iterujemy nad funkcją optymalizacji. W powyższym przykładzie rozważono optymalizację pod kątem pozytywnego wykorzystania wezwania do działania (albo zgłoszenie wiadomości było pomocne, albo kliknięcie zalecenia). Jednak w przypadku niektórych impulsów funkcja optymalizacji może i powinna być bardziej niższa. Na przykład, jeśli zapraszamy ucznia do przejrzenia ważnego materiału, kliknięcie podanego linku nie daje nam wystarczających informacji o tym, czy ten materiał przeglądowy rzeczywiście pomógł jej w nauce – tylko o tym, czy zastosowała się do naszych zaleceń. W przypadku tego typu interwencji rozszerzamy funkcję optymalizacji, aby uwzględnić dalsze wyniki uczenia się, takie jak ukończone elementy.

Po drugie, z wbudowanym zabezpieczeniem przed niepowodzeniem, przeprowadzamy burzę mózgów i rozpoczynamy nowe rodzaje interwencji. Ponieważ model automatycznie wybiera, które zachęty do dalszego działania, gdzie i dla kogo, możemy odkrywać nowe sposoby angażowania uczniów, mając pewność, że te, które nie są pomocne, zostaną skutecznie powstrzymane.

Zainteresowany aplikacją nauka o danych do edukacji? Coursera zatrudnia !

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *