본 발명은 미리 학습된 인공 신경망으로 구현되어 각각 T개의 연속하는 프레임을 포함하는 깊이 시퀀스 영상과 열 시퀀스 영상 및 컬러 시퀀스 영상 각각을 프레임 순서에 따라 순차적으로 인가받아, 학습된 방식에 따라 인가되는 프레임들의 공간적 특징을 순차적으로 추출하여 각각 T개의 깊이 특징맵과 열 특징맵 및 컬러 특징맵을 획득하는 공간적 인코더, 미리 학습된 인공 신경망으로 구현되어 각각 T개의 깊이 특징맵과 열 특징맵 및 컬러 특징맵을 순차적으로 인가받아, 학습된 방식에 따라 순차적으로 인가되는 특징맵들 사이의 시간적 특징을 추가하고 융합 디코딩하여 융합 컬러 시공간 특징을 획득하는 시간적 디코더, 미리 학습된 인공 신경망으로 구현되어 학습되는 방식에 따라 컬러 시퀀스 영상으로부터 3D 특징 볼륨을 추출하고, 순차적으로 획득되는 T개의 융합 컬러 시공간 특징을 누적하여 시공간 주의 볼륨을 획득하며, 3D 특징 볼륨과 시공간 주의 볼륨을 결합하여 주의 강화 특징 볼륨을 획득하는 시공간 주의 볼륨 획득부 및 미리 학습된 인공 신경망으로 구현되어 학습되는 방식에 따라 시공간 주의 볼륨으로부터 감정값을 추정하여 획득하는 감정 추정부를 포함하여, 멀티모달 영상을 융합하여 감정을 인식하고 시간적 변화가 함께 반영되도록 하여 매우 정확하게 감정을 인식할 수 있는 감정 인식 장치 및 방법을 제공할 수 있다.