본 발명은 다수의 프레임으로 구분된 음성 신호를 파워 스펙트럼으로 변환하는 파워 스펙트럼 변환부, 각각 기지정된 주파수 대역과 패턴을 갖는 다수의 멜-필터 뱅크를 포함하여, 다수 프레임 각각의 파워 스펙트럼을 각각 필터링하여 다수의 멜-필터 뱅크 에너지를 획득하는 필터 뱅크부, 미리 학습된 패턴 추정 방식에 따라 결정된 다수의 가중치를 다수의 멜-필터 뱅크 에너지 중 대응하는 멜-필터 뱅크 에너지 적용하여 프레임별 특징 벡터를 획득하는 특징 벡터 획득부, 미리 학습된 패턴 추정 방식에 따라 다수의 프레임별 특징 벡터를 순차적으로 인코딩하여 프레임 특징을 추출하되, 이전 획득된 프레임 특징을 함께 인코딩하여 프레임 특징을 획득하는 프레임 특징 추출부 및 프레임 특징 추출부에서 획득되는 프레임 특징 중 최종 프레임 특징을 인가받고, 미리 학습된 패턴 추정 방식에 따라 최종 프레임 특징으로부터 사용자의 스트레스에 대응하는 음성 특징을 추출하는 음성 특징 추출부를 포함하는 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법을 제공할 수 있다.