본 발명은 미리 학습되는 인공 신경망으로 구성되어, 입력 영상을 인가받아 학습된 방식에 따라 인코딩 및 디코딩하여, 입력 영상의 각 픽셀이 기지정된 다수의 클래스에 대응하는 확률을 나타내는 클래스 확률맵을 획득하고, 클래스 확률맵으로부터 입력 영상을 의미론적으로 영역 분할한 의미론적 분할 영상을 출력하며, 학습 시에 소스 영상과 입력 영상에 대응하는 타겟 영상 각각을 학습되는 방식에 따라 인코딩 및 디코딩하여, 소스 영상과 타겟 영상의 각 픽셀이 기지정된 다수의 클래스에 대응하는 확률을 나타내는 소스 클래스 확률맵과 타겟 클래스 확률맵을 획득하고, 소스 클래스 확률맵과 타겟 클래스 확률맵 각각에서 유사 픽셀들을 그룹화하여 구분된 다수의 소스 클러스터맵과 다수의 타겟 소스 클러스터맵을 획득하며, 소스 클래스 확률맵으로부터 소스 영상을 의미론적으로 영역 분할하여 소스 분할 영상을 획득하는 의미론적 영상 분할부를 포함하여, 다른 도메인의 학습 데이터를 이용하여 생성적 적대 학습 기법으로 교차 학습될 수 있어, 대량의 학습 데이터를 저비용으로 용이하게 획득할 수 있을 뿐만 아니라 정확하게 의미론적 영상 분할을 수행할 수 있는 의미론적 영상 분할 장치 및 방법을 제공할 수 있다.