중요한 부분에 개입하는 심층 학습

학습 넛지를 최적화하기 위해 피드백 루프를 구축 한 방법

(Marianne Sorba) (2018 년 8 월 14 일)

학습은 쉽지 않습니다. 좀 더 쉽게하기 위해 (In-Course Help)를 시작하여 학습자가 코스 자료를 이동할 때 행동 및 교육적 넛지를 제공했습니다. 이 게시물에서는 이러한 넛지를 개인화하고 최적화하기위한 기계 학습 피드백 루프를 구현하는 과정과 학습 내용을 다룹니다.

In-Course Help의 첫 번째 구현에서 주어진 시점의 모든 학습자는 주어진 시점에 과정 (예 : 과정 A의 강의 9 완료 또는 과정 B의 퀴즈 3 실패)은 동일한 메시지를 받았습니다. 이를 통해 평균적으로 도움이되는 방식으로 개입 할 수 있었고 과정 진행 및 유지에 바늘을 옮겼습니다.

그러나 학습자와 메시지에 미치는 영향의 이질성도 관찰했습니다. 이에 따라 특정 과정의 특정 지점에있는 모든 학습자가 메시지를 수신하는 세상에서 너무 많은 메시지를 배포하는 것에 대해 경계했습니다.

다음 구현을 위해 제어 할 스마트 피드백 루프를 만들었습니다. 각 메시지를받은 학습자 이 모델은 다음과 같은 다양한 기능을 입력으로 사용하는 신경망입니다.

  • 다양한 메시지에 대한 학습자의 과거 클릭률
  • 그녀의 인구 통계 ( 예 : 성별, 연령, 국가, 고용 수준, 교육 수준)
  • 그녀의 플랫폼 내 행동 데이터 (예 : 등록금 지불 여부, 브라우저 언어, 이수한 과정 수)
  • 과정 수준 특성 (예 : 도메인, 난이도, 등급)

모델은 이러한 기능을 사용하여 특정 학습자가 특정 유형의 팝업 메시지를 찾을 가능성을 예측합니다. 그녀의 학습의 특정 포인트. 메시지가 충분히 긍정적 인 영향을 미칠 것으로 예측되면 메시지를 트리거합니다. 그렇지 않으면 메시지를 보류합니다. 모델의 가중치와 예측은 데이터 과학 팀이 잠자는 동안 밤마다 업데이트됩니다. 이는 관찰 된 결과를 기반으로 개입을 수동으로 조정하는 복잡한 장기 실행 중첩 A / B 테스트의 기준에서 크게 개선 된 것입니다. 피드백 루프 시스템은 또한 자연스럽게 확장되어 동일한 지점에서 동일한 학습자에게 보낼 수있는 메시지의 여러 버전 중에서 선택할 수 있도록하여 학습자에게 가장 긍정적 인 결과를 가져올 것으로 예상되는 버전 만 트리거합니다.

오늘날 우리는 두 가지 수준의 필터링이 있습니다. 하나는 충분히 유용하기 때문에 보관할 메시지를 결정하는 과정 항목 상태 수준 필터링과 어떤 메시지로 이동할지 개인화하기위한 사용자 과정 항목 상태 수준 필터링입니다. 간단히 말해서 모든 코스의 모든 항목 상태에 대해 가능한 넛지 각각에 대해 코스 항목 상태 수준 모델은 학습자가 메시지를 찾을 수있는 평균 확률을 예측합니다.

메시지 및 과정 수준 데이터와의 과거 상호 작용을 기반으로합니다. 직관적으로 모델에서 메시지가 충분히 도움이되지 않는다고 예측하는 경우 해당 트리거 지점에서 해당 메시지를 모두 보류합니다 (노출 수가 충분히 큰 경우). 이 트리거 수준 필터링은 도움이되지 않거나 특정 클래스 또는 트리거 지점에 해당하지 않는 메시지를 자동으로 감지하고 필터링하므로 메시지 인벤토리를 확장 할 때 특히 유용합니다.

코스 항목- 상태 수준 모델은 사용자 과정 항목 상태 수준을 필터링하는 유사한 피드백 루프 아래에 계층화됩니다. 간단한 예를 들어 보겠습니다. 학습 여정의 특정 지점에서 Alan에게 특정 메시지를 보낼지 여부를 알고 싶습니다. 설명을 위해 학습자로부터 직접보고 된 도움을 수집하는 메시지를 고려하십시오. 현재 구현에는 세 가지 가능성이 있습니다.

  1. Alan은 무엇이든 메시지를 수신하기 위해 무작위로 선택 될 수 있습니다 (오늘날 확률은 10 %). 이를 통해 모델이 밤마다 계속 학습하고 개선 할 수 있도록 편향되지 않은 데이터를 충분히 확보 할 수 있습니다.
  2. Alan은 잠재적으로 메시지를 수신하기 위해 무작위로 선택 될 수 있지만 (오늘날 확률은 90 %) 그러나 Alan은 새로운 학습자이며 우리의 메시지와 거의 상호 작용하지 않았습니다. 신뢰할 수있는 예측을 할 수있는 데이터가 충분하지 않기 때문에 데이터를 수집하라는 메시지를 그에게 보냅니다.
  3. Alan은 메시지를 수신하기 위해 무작위로 선택 될 수 있습니다 (동일한 확률로 90 %). and 는 모델이 신뢰할 수있는 예측을 할 수 있도록 충분한 ALICE 메시지와 상호 작용했습니다.그런 다음 Alan의 학습자 프로필 데이터 및 In-Course Help 메시지와의 이전 상호 작용을 기반으로 모델은 다음과 같은 세 가지 확률을 출력합니다. a) Alan이 “예, 도움이되었습니다.”를 클릭 할 확률; b) Alan이 “아니요, 도움이되지 않았습니다”를 클릭 할 확률; c) Alan이 메시지와 상호 작용하지 않을 확률

Google은 a)가 b) 및 c)를 충분히 초과하는 경우에만 메시지를 보냅니다. 오늘날 피드백 루프는 메시지의 약 30 %를 보류하고 도움이되는 보고서와 도움이되지 않는 보고서의 비율을 43 % 증가시킵니다.

다음 단계는 무엇입니까?

먼저 최적화 기능을 반복합니다. 위의 예에서는 클릭 유도 문안에 대한 긍정적 인 이해를위한 최적화를 고려합니다 (메시지를보고했거나 권장 사항을 클릭하여 클릭). 그러나 일부 넛 지의 경우 최적화 기능이 더 다운 스트림에있을 수 있으며 그래야합니다. 예를 들어 학습자가 중요한 자료를 검토하도록 초대하는 경우 제공된 링크를 클릭해도 해당 검토 자료가 실제로 학습 결과에 도움이되었는지 여부에 대한 충분한 정보를 제공하지 않습니다. 이러한 유형의 개입의 경우 완료된 항목과 같은 다운 스트림 학습 결과를 통합하도록 최적화 기능을 확장하고 있습니다.

둘째,이 안전 장치가 내장 된 상태에서 새로운 유형의 개입을 브레인 스토밍하고 출시합니다. 모델은 어디에서 누구를 위해 계속 실행할 넛지를 자동으로 선택하므로 학습자를 참여시키는 새로운 방법을 모색 할 수 있으며 도움이되지 않는 학습은 효율적으로 보류 될 것이라고 확신합니다.

지원에 관심이 있습니다. 교육에 데이터 과학? Coursera가 채용 중입니다 !

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다