본 발명은 기지정된 방식에 따라 인가된 입력 영상의 다수의 프레임 각각에서 보행자가 포함된 영역을 추출하여 패치를 획득하는 보행자 검출부, 미리 학습된 인공 신경망으로 구현되어, 학습된 방식에 따라 패치의 특징을 추출하여 패치 특징맵을 획득하는 특징 추출 네트워크 및 다수 프레임의 영상 중 서로 다른 프레임 영상에서 획득된 패치 특징맵을 서로 비교하여 대응하는 패치 특징맵을 탐색하여 보행자를 추적하는 추적부를 포함하고, 특징 추출 네트워크는 학습 시에 보행자의 포함 여부에 무관하게 획득된 학습 영상에 식별자가 부여된 학습 데이터를 인가받아 학습 데이터의 다수의 프레임의 특징을 추출하여 학습 특징맵을 획득하고, 별도로 구비된 학습부가 학습 특징맵을 분류하여 계산되는 손실을 역전파하여 학습되어, 학습 데이터로 보행자들에 대해 미리 레이블된 대량의 패치를 필요로 하지 않는 보행자 추적 장치 및 방법을 제공할 수 있다.