본 발명은 기설정된 시뮬레이션 환경에서 자율 이동체인 주체와 우호적 객체 및 적대적 객체를 포함하는 다수의 객체의 배치 위치를 설정하는 배치 설정부, 상기 주체의 관점에서 상기 주체와 다수의 객체가 배치된 시뮬레이션 환경을 관측한 관측 상태 정보를 획득하는 관측 상태 변환부, 학습되는 패턴에 따라 상기 관측 상태 정보에 기반하여 상기 주체의 동작을 결정하고, 상기 주체의 동작과 다른 객체의 동작에 기반하여 다수의 객체의 각각의 동작을 결정하는 행동 결정부, 상기 주체 및 다수의 객체 각각의 결정된 동작 결과를 상기 시뮬레이션 환경에 반영하여 상기 시뮬레이션 환경을 변경하는 변경 환경 재설정부 및 상기 변경된 시뮬레이션 환경을 분석하여 사고 피해에 반비례하는 보상을 계산하고, 계산된 보상을 상기 주체 및 상기 우호적 객체에 대해서는 동일한 부호로 역전파하고, 상기 적대적 객체에 대해서는 반대 부호로 역전파하여 상기 행동 결정부를 학습시키는 행동 판정부를 포함하는 자율 이동체를 위한 학습 장치 및 방법을 제공할 수 있다.