본 발명은 실시간 비디오 동작 검출 장치 및 방법에 관한 것으로, 상기 장치는 비디오 프레임의 피처를 인코딩 하는 피처 인코더부; 이전 시간의 이산 출력을 입력받는 결정 큐(Qd)의 출력, 상기 인코딩된 피처를 입력받는 제1 OAD (Online Action Detection) 모델의 출력과 연결되는 액션 큐(Qa)의 출력을 입력받아, 현재 시간의 이산 출력을 출력하는 컨텍스트 인지 에이전트부; 상기 이전 시간의 이산 출력 및 현재 시간의 이산 출력을 기초로 해당 비디오 프레임들에 대하여 컨텍스트 인지 그룹핑을 수행하는 컨텍스트 인지 그룹핑부; 및 상기 해당 비디오 프레임들에 관한 액션을 검출하여 액션 인스턴스를 생성하는 액션 인스턴스 생성부;를 포함한다.