개시된 기술은 차량 네트워크의 자원 재할당 제어 방법 및 장치에 관한 것으로, 디바이스가 차량 네트워크를 통해 복수의 차량들에 대한 위치정보, 할당된 리소스 정보 및 리워드를 수신하는 단계; 상기 디바이스가 상기 위치정보 및 리워드를 토대로 상기 차량의 자원 재할당에 대한 제 1 확률(Probability)을 계산하고, 강화학습 모델에 상기 리소스 정보 및 리워드를 입력하여 상기 자원 재할당에 대한 제 2 확률을 계산하는 단계; 및 상기 디바이스가 상기 제 1 확률 및 상기 제 2 확률에 대한 계산 결과를 토대로 상기 차량 네트워크의 정책(Policy)을 결정하는 단계;를 포함한다.