기계학습 기반의 화자 분리 방법 및 그를 위한 장치 를 개시한다. 본 발명의 실시예에 따른 화자 분리 방법은, 적어도 하나의 화자의 음성들로 구성된 혼합 음성을 입력 받는 음성 입력 단계; 상기 혼합 음성을 기반으로 특정 화자에 대한 제1 음성(A')을 생성하여 출력하는 음성 생성 단계; 및 상기 제1 음성을 상기 특정 화자의 실제 제2 음성(A)과 구분하고, 상기 혼합 음성과 상기 제1 음성 및 상기 제2 음성을 기반으로 생성된 잔차 음성을 구분하여 화자 분리가 수행되도록 하는 음성 구분 단계를 포함할 수 있다.