개시된 기술은 동영상 특징 추출 방법 및 장치에 관한 것으로, 분석장치가 동영상을 수신하고 상기 동영상의 복수의 프레임들 중 일부의 프레임들을 포함하는 제 1 세그먼트를 특징 추출기에 입력하여 제 1 특징벡터를 출력하는 단계; 상기 분석장치가 상기 일부의 프레임들 후의 일부 프레임들을 포함하는 제 2 세그먼트를 상기 특징 추출기에 입력하여 제 2 특징벡터를 출력하는 단계; 상기 분석장치가 상기 제 1 특징벡터 및 상기 제 2 특징벡터의 차이를 계산하여 레퍼런스 라벨 데이터(Reference Label Data)를 생성하는 단계; 상기 분석장치가 상기 제 1 특징벡터를 합성곱 신경망에 입력하여 상기 제 1 세그먼트에 대한 예측 데이터를 출력하는 단계; 및 상기 분석장치가 상기 예측 데이터가 상기 레퍼런스 라벨 데이터와 유사해지도록 상기 특징 추출기를 학습하는 단계;를 포함한다. 따라서 라벨값을 생성하는 코스트를 방지하고 다음 세그먼트에 대한 예측 성능을 향상시키는 효과가 있다.