본 발명은 상태 데이터와 보상 데이터가 인가되면, 기설정된 액터 데이터에 따라 액션 데이터를 출력하는 에이전트 모듈, 에이전트 모듈로부터 액션 데이터가 인가되면, 기설정된 환경 데이터에 따라 인가된 액션 데이터에 대응하여 상태 데이터와 보상 데이터를 업데이트 하는 환경 모듈 및 에이전트 모듈 및 환경 모듈에 미리 설정되거나 업데이트 되는 데이터 중 적어도 하나를 인가받아 기지정된 화면으로 구성하여 출력하고, 사용자에 의해 에이전트 모듈 및 환경 모듈에 미리 설정되거나 업데이트되는 데이터 중 적어도 하나의 데이터를 변경하기 위한 변경 데이터가 설정되어 인가되면, 인가된 변경 데이터에 대응하는 데이터를 변경 데이터로 대체하는 환경 변경 모듈을 포함하여, 강화 학습 중에 액터, 액션, 보상 및 상태 등을 다양하게 변화시킬 수 있을 뿐만 아니라, 다른 차원의 값으로 변화시킬 수 있도록 하여, 각종 예기치 못한 환경 변화에도 유연하게 대응할 수 있도록 학습시킬 수 있는 인공지능 학습 장치 및 방법을 제공할 수 있다.