본 발명에 따르면, 프로세서가 분석 대상 영상을 입력 받고, 시간 영역을 기준으로 기 설정된 구간별로 상기 분석 대상 영상에서 일부의 프레임 영상을 선택하고, 상기 선택된 프레임 영상에서 장소와 행동을 인식하여 인식한 장소와 행동에 따른 특징값을 상기 선택된 프레임 영상에 라벨링하여 비정제 동영상에서 클립 단위 장소와 행동 정보로 학습한 인공신경망으로 장소와 행동이 어느 프레임의 어느 공간 영역에서 나타나고 있는지 찾는 인공 신경망 기반의 비정제 동영상에서의 행동 인식 방법 및 장치가 개시된다.