Aprendizagem profunda para intervir onde é importante

Como criamos um ciclo de feedback para otimizar os estímulos de aprendizagem

(Marianne Sorba) (14 de agosto de 2018)

Aprender não é fácil. Para facilitar um pouco, lançamos o (Ajuda no curso), que oferece sugestões comportamentais e pedagógicas à medida que os alunos avançam pelo material do curso. Nesta postagem, cobrimos nosso processo e aprendizado na implementação de um loop de feedback de aprendizado de máquina para personalizar e otimizar esses nudges.

Na primeira implementação da Ajuda durante o curso, todos os alunos em um determinado ponto em um determinado curso – por exemplo, completar a aula 9 do curso A, ou reprovar no Quiz 3 do curso B – recebeu a mesma mensagem. Isso nos permitiu intervir de maneiras que foram úteis em média e impulsionou o progresso e retenção do curso.

Mas também observamos a heterogeneidade do impacto entre os alunos e as mensagens. Da mesma forma, em um mundo onde todos os alunos em um determinado ponto de um determinado curso recebiam a mensagem, estávamos cautelosos quanto ao lançamento de muitas mensagens.

Para a próxima implementação, criamos um loop de feedback inteligente para controlar quais alunos receberam cada mensagem. O modelo é uma rede neural que leva como entrada uma ampla gama de recursos, incluindo o seguinte:

  • As taxas de cliques anteriores do aluno para várias mensagens
  • Seus dados demográficos ( por exemplo, sexo, idade, país, nível de emprego, nível de educação)
  • Seus dados comportamentais na plataforma (por exemplo, se a inscrição é paga, idioma do navegador, número de cursos concluídos)
  • Características de nível de curso (por exemplo, domínio, dificuldade, classificação)

Usando esses recursos, o modelo prevê a probabilidade de um aluno específico encontrar um tipo específico de mensagem pop-up útil em um ponto particular em seu aprendizado. Se predizer que a mensagem terá um impacto suficientemente positivo, ele acionará a mensagem; caso contrário, ele retém a mensagem. Os pesos do modelo e suas previsões são atualizados todas as noites enquanto nossa equipe de ciência de dados dorme – uma grande melhoria em relação à linha de base de testes A / B aninhados complexos e de longa duração, com a equipe fazendo ajustes manuais nas intervenções com base nos resultados observados. O sistema de ciclo de feedback também se estende naturalmente para nos permitir escolher entre várias versões de uma mensagem que pode ser enviada no mesmo ponto para o mesmo aluno, acionando apenas a versão prevista para ter o resultado mais positivo para o aluno.

Hoje temos dois níveis de filtragem: uma filtragem no nível do item do curso para decidir quais mensagens manter porque são úteis o suficiente, e uma filtragem no nível do item do curso do usuário para personalizar quais mensagens vão para quais alunos em qualquer momento de aprendizagem.

Em resumo, para cada possível empurrão em cada estado do item em cada curso, o modelo de nível de item-estado do curso prevê a probabilidade média de um aluno encontrar a mensagem útil com base em interações anteriores com a mensagem e dados no nível do curso. Intuitivamente, se o modelo prevê que a mensagem não é suficientemente útil, retemos essa mensagem por completo naquele ponto de gatilho (desde que o número de impressões seja suficientemente grande). Essa filtragem no nível do acionador é especialmente útil à medida que expandimos nosso inventário de mensagens, pois ela detecta e filtra automaticamente as mensagens que não são úteis – ou não são para uma determinada classe ou ponto de acionamento. o modelo de nível de estado é dividido em um loop de feedback semelhante que filtra no nível de estado do item do curso do usuário. Veja um exemplo simples: Queremos saber se devemos enviar uma mensagem específica para Alan em um ponto específico de sua jornada de aprendizado. Para exposição, considere uma mensagem para a qual estamos coletando diretamente a ajuda auto-relatada do aluno. Na implementação atual, existem três possibilidades.

  1. Alan pode ser escolhido aleatoriamente (hoje com probabilidade de 10%) para receber a mensagem aconteça o que acontecer ; isso garante que tenhamos dados imparciais suficientes para que o modelo continue aprendendo – e melhorando – todas as noites.
  2. Alan pode ser escolhido aleatoriamente (hoje com probabilidade de 90%) para potencialmente receber a mensagem, mas Alan é um novo aluno e mal interagiu com nossas mensagens. Como não temos dados suficientes sobre ele para fazer uma previsão confiável, enviamos a mensagem para coletar os dados.
  3. Alan pode ser escolhido aleatoriamente (com a mesma probabilidade de 90%) para potencialmente receber a mensagem, e interagiu com mensagens ALICE suficientes para que o modelo faça uma previsão confiável.Então, com base nos dados do perfil do aluno de Alan e suas interações anteriores com mensagens de ajuda durante o curso, o modelo produz três probabilidades: a) a probabilidade de que Alan clica, “Sim, isso foi útil”; b) a probabilidade de Alan clicar em “Não, isso não foi útil”; c) a probabilidade de que Alan não interaja com a mensagem.

Enviamos a mensagem se e somente se a) exceder suficientemente b) ec). Hoje, o ciclo de feedback retém cerca de 30% das mensagens e aumenta a proporção de relatórios úteis e não úteis em 43%.

Então, o que vem a seguir?

Primeiro, estamos iterando na função de otimização. O exemplo acima considera a otimização para uma aceitação positiva da chamada à ação (relatar a mensagem foi útil ou clicar na recomendação). Para alguns nudges, no entanto, a função de otimização pode e deve estar mais abaixo. Por exemplo, se convidarmos o aluno a revisar um material importante, seu clique no link fornecido não nos dá informações suficientes sobre se o material de avaliação realmente ajudou seus resultados de aprendizagem – apenas se ela seguiu nossa recomendação. Para esses tipos de intervenções, estamos estendendo a função de otimização para incorporar resultados de aprendizagem posteriores, como itens concluídos.

Em segundo lugar, com esse sistema de proteção contra falhas integrado, estamos fazendo um brainstorming e lançando novos tipos de intervenções. Uma vez que o modelo escolhe automaticamente quais cutucadas continuarão, onde e para quem, podemos explorar novas maneiras de envolver os alunos, confiantes de que aqueles que não são úteis serão reprimidos de forma eficiente.

Interessado em se inscrever ciência de dados para educação? Coursera está contratando !

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *