본 발명은 정지영상 데이터로부터 동영상 데이터를 생성하기 위한 의료 인공지능 모델의 학습 방법에 관한 것이다. 본 발명에 따른 정지영상 데이터로부터 동영상 데이터를 생성하기 위한 의료 인공지능 모델의 학습 방법은, 의료 인공지능 모델이 사전에 준비된 학습용 동영상 데이터 세트 중 임의의 시간 t 번째 프레임 이미지() 및 t 번째 마스크()를 입력받는 단계; t 번째 프레임 이미지() 및 t 번째 마스크()를 바탕으로 다음 프레임 생성 모델에 의해 시간 t+1 번째 프레임 이미지() 및 t+1 번째 마스크()를 추론하여 생성하는 단계; 생성된 t+1 번째 추론 프레임 이미지()와 t+1 번째 프레임 이미지() 간의 이미지 손실()을 측정하는 단계; t+1 번째 추론 마스크()와 추론된 t 번째 마스크() 간의 제1 마스크 손실()을 측정하는 단계; t+1 번째 추론 마스크()와 키 프레임 마스크() 간의 제2 마스크 손실()을 측정하는 단계; 및 측정된 이미지 손실()과, 제1 마스크 손실() 및 제2 마스크 손실()을 합산하여 학습 손실을 측정하는 단계를 포함한다.