Aprendizaje profundo para intervenir donde importa

Cómo creamos un ciclo de retroalimentación para optimizar las sugerencias de aprendizaje

(Marianne Sorba) (14 de agosto de 2018)

Aprender no es fácil. Para hacerlo un poco más fácil, lanzamos (Ayuda en el curso), brindando empujones conductuales y pedagógicos a medida que los alumnos avanzan por el material del curso. En esta publicación, cubrimos nuestro proceso y lo aprendido en la implementación de un ciclo de retroalimentación de aprendizaje automático para personalizar y optimizar estos empujones.

En la primera implementación de la Ayuda en el curso, todos los alumnos en un punto dado en un determinado curso – por ejemplo, completar la Lección 9 del Curso A, o reprobar la Prueba 3 del Curso B – recibió el mismo mensaje. Esto nos permitió intervenir de maneras que fueron útiles en promedio , y movió la aguja en el progreso y la retención del curso.

Pero también observamos heterogeneidad de impacto entre los alumnos y los mensajes. En consecuencia, en un mundo en el que todos los alumnos en un punto determinado de un curso determinado recibieron el mensaje, desconfiamos de lanzar demasiados mensajes.

Para la siguiente implementación, creamos un ciclo de retroalimentación inteligente para controlar qué alumnos recibieron cada mensaje. El modelo es una red neuronal que toma como entrada una amplia gama de características, incluidas las siguientes:

  • Las tasas de clics anteriores del alumno para varios mensajes
  • Sus datos demográficos ( por ejemplo, género, edad, país, nivel de empleo, nivel de educación)
  • Sus datos de comportamiento en la plataforma (por ejemplo, si se paga la inscripción, idioma del navegador, número de cursos completados)
  • Características a nivel del curso (p. Ej., Dominio, dificultad, calificación)

Con estas características, el modelo predice la probabilidad de que un alumno específico encuentre útil un tipo específico de mensaje emergente en un punto particular en su aprendizaje. Si predice que el mensaje tendrá un impacto suficientemente positivo, desencadena el mensaje; de lo contrario, retiene el mensaje. Los pesos del modelo y sus predicciones se actualizan todas las noches mientras nuestro equipo de ciencia de datos duerme, una gran mejora desde la línea de base de las pruebas A / B anidadas complejas y de larga duración, con el equipo realizando ajustes manuales a las intervenciones según los resultados observados. El sistema de ciclo de retroalimentación también se extiende naturalmente para permitirnos elegir entre múltiples versiones de un mensaje que se puede enviar en el mismo punto al mismo alumno, activando solo la versión que se predice que tendrá el resultado más positivo para el alumno.

Hoy tenemos dos niveles de filtrado: un filtrado de nivel de curso-elemento-estado para decidir qué mensajes conservar porque son lo suficientemente útiles, y un filtrado de nivel de usuario-curso-elemento-estado para personalizar qué mensajes van a qué estudiantes en cualquier momento de aprendizaje dado.

En resumen, para cada posible empujón en cada estado del elemento en cada curso, el modelo de nivel curso-elemento-estado predice la probabilidad promedio de que un estudiante encuentre el mensaje útil basado en interacciones pasadas con el mensaje y los datos a nivel del curso. Intuitivamente, si el modelo predice que el mensaje no es lo suficientemente útil, retenemos ese mensaje en ese punto de activación por completo (siempre que el número de impresiones sea lo suficientemente grande). Este filtrado de nivel de activación es especialmente útil a medida que ampliamos nuestro inventario de mensajes porque detecta y filtra automáticamente los mensajes que no son útiles, o que no son para una clase o punto de activación en particular.

El elemento del curso- El modelo de nivel de estado se superpone a un ciclo de retroalimentación similar que se filtra en el nivel de usuario-curso-elemento-estado. Tomemos un ejemplo simple: queremos saber si enviar un mensaje en particular a Alan en un punto particular de su viaje de aprendizaje. Para la exposición, considere un mensaje para el que recopilamos directamente la ayuda autoinformada del alumno. En la implementación actual, hay tres posibilidades.

  1. Alan podría ser elegido al azar (hoy con una probabilidad del 10%) para recibir el mensaje pase lo que pase ; esto asegura que tengamos suficientes datos no sesgados para que el modelo continúe aprendiendo y mejorando todas las noches.
  2. Alan podría ser elegido al azar (hoy con una probabilidad del 90%) para recibir potencialmente el mensaje, pero Alan es un alumno nuevo y apenas ha interactuado con nuestros mensajes. Dado que no tenemos suficientes datos sobre él para hacer una predicción confiable, le enviamos el mensaje para recopilar datos.
  3. Alan podría ser elegido al azar (con la misma probabilidad del 90%) para recibir potencialmente el mensaje, y ha interactuado con suficientes mensajes de ALICE para que el modelo haga una predicción confiable.Luego, según los datos del perfil de alumno de Alan y sus interacciones anteriores con los mensajes de ayuda del curso, el modelo genera tres probabilidades: a) la probabilidad de que Alan haga clic en «Sí, esto fue útil»; b) la probabilidad de que Alan haga clic en «No, esto no fue útil»; c) la probabilidad de que Alan no interactúe con el mensaje.

Enviamos el mensaje si y solo si a) excede suficientemente b) yc). Hoy, el ciclo de retroalimentación retiene aproximadamente el 30% de los mensajes y aumenta la proporción de informes útiles y no útiles en un 43%.

Entonces, ¿qué sigue?

Primero, estamos iterando en la función de optimización. El ejemplo anterior considera la optimización para una aceptación positiva de la llamada a la acción (informar que el mensaje fue útil o hacer clic en la recomendación). Para algunos empujones, sin embargo, la función de optimización puede y debe ser más descendente. Por ejemplo, si invitamos al alumno a revisar material importante, si hace clic en el enlace proporcionado no nos da suficiente información sobre si ese material de revisión realmente ayudó a sus resultados de aprendizaje, solo sobre si siguió nuestra recomendación. Para este tipo de intervenciones, estamos ampliando la función de optimización para incorporar resultados de aprendizaje posteriores, como elementos completados.

En segundo lugar, con este sistema de seguridad integrado, estamos haciendo una lluvia de ideas y lanzando nuevos tipos de intervenciones. Dado que el modelo elige automáticamente qué empujones seguir ejecutándose, dónde y para quién, podemos explorar nuevas formas de involucrar a los alumnos, con la confianza de que aquellos que no son útiles se retendrán de manera eficiente.

Interesados ​​en postularse ciencia de datos a la educación? Coursera está contratando !

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *