본 발명은 소스 도메인에서 획득된 입력 영상을 인가받아 신경망 연산하여, 입력 영상의 구조적 특징을 나타내는 콘텐츠 표현자를 획득하고, 입력 영상에 포함된 각 객체의 클래스에 따라 콘텐츠 표현자를 구분한 다수의 클래스별 콘텐츠 표현자를 획득하는 인코딩부, 다수의 클래스 각각에 적어도 하나씩 대응하고, 각각 대응하는 클래스에 따른 객체의 구조적 대표 특성을 나타내는 하나의 아이템 키와 해당 클래스에서 소스 도메인과 상이한 타겟 도메인에서의 스타일적 대표 특성을 나타내는 스타일 값이 매칭되어 포함된 다수의 아이템이 저장된 메모리, 메모리에 저장된 다수의 아이템 중 클래스별 콘텐츠 표현자 각각에 대응하는 클래스의 아이템의 아이템 키들과의 유사도에 따른 리드 가중치를 계산하고, 계산된 리드 가중치를 아이템 키에 매칭된 스타일 값에 가중하여 타겟 스타일 표현자를 획득하는 타겟 스타일 생성부 및 콘텐츠 표현자와 타겟 스타일 표현자를 인가받아 신경망 연산하여 타겟 도메인에서의 출력 영상을 생성하는 출력 영상 생성부를 포함하여, 각 객체의 의미론적 특성이 잘 표현되면서 타겟 도메인에 대응하는 스타일로 변환되어 각 객체에 대한 의미론적 왜곡이 최소화된 자연스러운 타겟 도메인 영상을 획득할 수 있는 영상 변환 장치 및 방법을 제공한다.