Fastspeech

6 minute read

Fastspeech

Introduction

TTS의 경우 딥러닝의 발전으로 최근 Attention 기법을 활용한 모델이 많이 나오고 있다. 예를 들어 Tacotron1,2 DeepVoice,ClariNet 등이 존재한다.

해당 모델들은 주로 Text를 Input으로 받은 후 Auto regressive하게 mel spectrogram을 만든 후 해당 스팩트로그램으로 Vocoder를 활용해 음성을 합성한다.

신경망 기반 TTS는 mel-spectrogram을 autoregressive하게 만들게 되는데, 일상적으로 mel 을 만드는 sequence는 길기 때문에 아래와 같은 여러가지 문제에 봉착하게 된다.

낮은 추론 학습 속도를 갖게 된다. CNN, Transformer 기반 TTS 모델의 경우 RNN기반의 모델보다 속도를 상승시킬 수 있으나, 모든 모델은 Sequence 학습을 진행하고 해당 길이는 매우 길기 때문에 본질적으로 속도가 낮다.
Attention의 잘못된 할당과 학습의 에러 때문에 생성된 spectrogram은 word skipping repeating 문제를 겪게된다.(낮은 robustness)
합성의 경우 조작 가능성이 매우 낮다. 이전의 auto regressive 한 모델은 text와 speech의 명시적 할당 없이 spectrogram을 1대1 대응을 시켰다. 결론적으로 직접적으로 voice speed와 운율적인 느낌을 조작하기 힘들다.

위 도전적인 문제 중 핵심은 낮은 추론 속도와 낮은 강건함이다. 이러한 문제를 해결하기 위해 Fastspeech 를 제안하였으며, Fastspeech의 경우 mel-spectrogram을 auto regressive하지 않게 생성한다.

또한 mel-spectrogram의 경우 실제 phoneme 의 sequence보다 훨씬 길기 때문에 phoneme과 spectrogram 두 sequence의 mismatch 를 해결하기 위해 Fast speech는 Length Regulator를 도입하였다.

이 regulator의 경우에는 phoneme의 upsamples를 진행한다. 이 과정은 각 phoneme의 duration을 토대로 진행되는데, regulator의 경우 이러한 phoneme의 duration 을 예측하는 duration predictor 위에 Built 되게 된다.

앞선 세가지 큰 도전들에 대해 Fast Speech는 다음과 같은 효과를 볼 수 있다.

Auto-regressive하지 않고 phoneme 과 Parallel하게 생성되는 spectrogram은 음성 합성의 속도를 매우 높여준다.
auto-regressive 한 모델에서 attention을 기반으로 한 allignment 와 다르게 Phoneme duration predictor 의 경우 Phoneme과 Mel- spectrogra 간의 강한 allignment를 보장한다. 해당 방식으로 얻을 수 있는 이득은, attention 과정에서 잘못 학습되는 문제를 피할 수 있으며 해당 문제에서 야기되는 단어 생략, 단어 반복의 문제를 피할 수 있다.
Length regulator의 경우 단순하게 phoneme 의 각 duration을 줄이거나 늘림으로써 voice speed에 따라 쉽게 변화할 수 있으며, 음율적인 부분도 각 phoneme 사이에 break를 더해주어 조작할 수 있다.

결과적으로 Fast speech의 경우 음성 합성에서 보다 큰 유연성을 가질 수 있으며 phoneme의 attention 을 통해 mel 을 만드는 것이 아니기 때문에 attention 학습에서 파생될 수 있는 issue를 피할 수 있다.

논문의 저자가 밝히기에 Fastspeech의 경우 270배의 spectrogram greneration 속도를 달성하였으며 38배 속도의 음성 합서을 이루었다.

Architecture

Fastspeech 전체 아키텍쳐

Fastspeech의 아키텍쳐는 다음과 같이 크게 4 부분으로 나눌 수 있다.

Feed Forward Transformer

Fastspeech의 아키텍쳐는 Self attention 기반의 Transformer 모델과 1D Convolution Layer로 구성되어있다. 논문의 저자는 이 구조를 Feed-Forward Transformer(FFT)로 부르는데, 해당 블록은 Phoneme, Mel-spectorgram Side 별로 N 개가 중첩되어있다.

다시 말해 Phoneme 간의 attention 이 이루어진 후 Length Regulator를 통과한 이후엔 mel-spectrogram 의 측면 즉, spectrogram 생성 관점에서의 attention 이 진행되게 된다고 생각할 수 있다. 그 이유는 Length Regulator 를 통과한 Vector는 Mel-spectrogram 과 같은 Length를 갖고 있기 때문이다.

모든 FFT 블록은 (b)에서 보듯 self-attention 과 1D Conv 로 구성되어 있는데, 이 Self-attention을 진행하여 각 위치간 정보를 추출한다.

또한 특징적인 것으로 Attention 이후 FC-layer 를 거치는 것이 아닌, 1D convolution 을 거치게 되는데, 이렇게 convolution 을 진행한 이유는 phoneme 과 mel-spectrogram은 근처에 있는 hidden state의 영향을 많이 받기 때문이다.

사실 auto regressive한 모델도 각 Sequence 간의 연관성을 위해 진행된 것인데, 해당 논문은 중첩 계산을 하기보단 Convolution을 통해 Sequence 정보를 묻힌 것이라고 생각할 수 있다.

Length Regulator

사실 해당 논문에서 이 Part가 Fastspeech의 특징 중 핵심이라고 할 수 있다.

해당 Block 은 phoneme 과 mel-spectrogram의 mismatch 를 해결하기 위한 part이다. 대체적으로 phoneme의 sequence가 mel-spectrogram의 sequence보다 더 작으며 같은 phoneme이 여러번 중첩되어 mel-spectrogram으로 나타나게 된다.

해당 과정에 대해 설명하기 위해 우선 phoneme 과 mel-spectrogram의 legnth가 맞다고 가정하자. phoneme A 의 duration 을 $d$ 라고 할 때 length ragulator는 phoneme A 의 hidden state를 d 배로 늘린다. 이렇게 된다면 결과적으로 mel-spectrogram과의 길이가 동일해지게 된다.(모든 phoneme에 대해 동일하게 진행.)

phoneme의 sequnece를 $H_{pho} = [h_1,h_2,\dots , h_n]$ 이라고 하며 각 phoneme의 Duration sequence 를 $D = [d_1,d_2,\dots , d_n]$ 이라고 할 때, mel-spectrogram의 sequence의 총 길이는 $\sum_{i=1}^n d_i = m$ 이 되는 것이 자연스럽다.

Length Regulator을 통해 mel 을 만들기 위해 $LR$ (length regulator)모듈을 정의한다면 $H_{mel} = LR(H_{pho} , D , \alpha)$ 로 표현할 수 있는데, 여기서 $\alpha$ 는 voice speed 를 조정하기 위한 Hyper parameter이다.

예를 들어 $H_{pho} = [h_1,h_2,h_3,h_4]$ 이고 각 phoneme의 duration 이 $[2,2,3,1]$ 일 때 , $\alpha$ 는 이 Duration 에 곱해주게 된다. $\alpha$가 2라면 원본 속도보다 두배 느린 voice speed가 될 것이다. 왜냐하면 각 phoneme 의 duration 이 그만큼 길어져 mel-spectrogram도 길어지게 되기 때문이다.

mel-spectrogram의 경우 duration이 $[2,2,3,1]$ 일 때 $[h_1,h_1,h_2,h_2,h_3,h_3,h_3,h_4]$ 로 만들어지게 된다. 각 duration 은 정수형이기 때문에 $\alpha$ 를 곱해준 후 정수형으로 반올림 해주게 된다.

Length Regulator 는 생각보다 간단하게 정의되는데, 이 과정에서 우리는 임의적으로 각 duration 사이에 공간,공백을 넣어주며 운율적인 느낌을 살릴 수 있다.

Duration predictor

해당 구조는 앞선 Length Regulator의 Duration을 predict하기 위해 만들어진 모듈이다. 근본적으로 해당 모델은 Duration 에 대한 Truth 값이 없기 때문에 auto regressive 한 Transformer 기반 TTS 모델을 학습을 시킨 후 해당 모델의 학습 결과를 Duration predictor의 Truth 값으로 간주한다.

Fastspeech Duration Predictor

우선 구조는 위와 같이 되어있는데, $H_{pho}$ 를 input으로 받은 후 Convolution layer 를 두번 통과한다. 이후 Linear Layer를 통과하여 단일 Scalar 값을 갖게된다.

이 scalar 값을 phoneme duration 으로 사용하는데, 앞서 말했듯 Auto regressive한 TTS 모델에서 얻은 각 phoneme 의 Duration 을 토대로 MSE Loss를 구하며 학습이 진행되게 된다.

논문에서 제시한 학습 과정은 다음과 같다.

기존의 auto regressive TTS 모델을 학습한다.
각 모델에서 attention alignment 를 추출하는데 해당 과정은 multi head attention이기 때문에 다중의 alignment 가 나오게 되지만 모든 attention 결과가 diagonal한 특성을 갖고 있지는 않기 때문에(해당 특성은 대충 잘 매칭 되었다고 판단 가능한 가벼운 척도) attention head 가 diagonal 한지 측정하는 척도 F 를 가정하여 해당 값이 가장 큰 attention head 값을 구한다.
최종적인 Duration $D$ 를 구하는데, 각 element 인 $d_i$는 앞선 과정에서 선택된 head 에서 mel-spectrogram 에 phoneme 이 각각 얼마나 참여했는지의 최댓값이다.

Experimental

LJspeech(2.6GB)의 sample 13100개를 사용하였으며 train으로 12500, validation 300, test 300 개의 sample을 사용하였다.

실험을 위한 Set-up 은 다음과 같다.

Wave to mel 에서 Frame size 는 1024 이며 hop size 는 256이다.
6개의 FFT block 사용, punctuation 을 포함한 51개의 phoneme vocab, self-attention 과 1D conv 의 384차원 , 2-layer의 Conv 는 kernel size 가 각각 3으로 동일하며 384 to 1536 , 1536 to 384 두 layer 로 구성됨.
마지막 output layer 에서 384 dimension이 80 dimension 의 mel-spectrogram 으로 변환되며 Duration predictor 의 경우 Conv layer 가 2개이며 각 Layer 의 channel 은 384로 동일하다.
Auto-regressive 모델을 사용하였으며, 해당 모델은 6개의 encoder, decoder 로 되어있으며, 해당 모델 또한 FFN 대신 1D convolution 을 적용하였으며, 전반적인 parameter setting 은 Fastspeech 모델과 비슷하다.
Adam optimizer 를 사용하였으며, Vocoder의 경우 WaveGlow를 사용하였다.

Conclusion

Fastspeech Result

Fastspeech의 경우 MOS 지표를 토대로 비교해보았을 때 audio quality 의 경우 tacotron2와 비슷한 성능을 보이는 것을 확인할 수 있다.

Fastspeech Result 속도

Fastspeech의 특징으로 speed 의 경우 tacotron과 비교해보았을 때 매우 빠른 성능을 냄을 확인할 수 있으며

Fastspeech Mel, Speed

Transformer TTS의 경우 mel 의 length 와 합성 속도간의 강한 선형 관계가 있는 것과 별개로 Fastspeech의 경우는 mel의 길이와 합성 간의 선형관계가 약함을 알 수 있다.

Fastspeech Legnth Regulator

또한 앞서 Length regulator 의 파라미터인 $\alpha$를 조정함에 따라 mel-spectrogram의 길이를 쉽게 조절할 수 있는데, 논문의 저자는 Pitch의 변화가 거의 없이 부드럽게 voice speed 가 조정됨을 확인할 수 있다고 한다.

Fastspeech 운율 조정

또한 phoneme 중간에 간단하게 공백 구간 duration을 적용하여 쉽게 음성의 운율을 추가할 수 있다. 위 그림에서 빨간 박스 친 부분이 Break 를 주어 운율적 요소를 추가한 것이다.

결과

결과적으로 Fastspeech의 경우 아예 auto regressive를 떼어버린 모델은 아니지만 간접적인 autoregressive 를 활용하여 mel-spectrogram 생성 시 non-auto regressive 성질을 띄게 했다고 할 수 있다.

이 과정에서 각 mel spectrogram은 중첩되어 계산되는 것이 아니기 때문에 속도가 빠르다는 장점이 있을뿐만 아니라 duration module 을 직접 튜닝할 수 있기 때문에 부분적으로 합성 결과를 control 할 수 있다.

하지만 vocoder, transformer TTS를 추가적으로 사용하기 때문에 end to end 모델이라고 할 수는 없다. 하지만 Pararell 하게 Mel 을 Generate 하기 때문에 속도적인 측면에서 이득을 본 것은 확실하다고 말할 수 있다.

Share on

Twitter Facebook LinkedIn

Joseph Na

Fastspeech

Fastspeech

Introduction

Architecture

Feed Forward Transformer

Length Regulator

Duration predictor

Experimental

Conclusion

결과

Share on

You may also enjoy

Invariant Teacher and Equivariant Student for Unsupervised 3D Human Pose Estimation

Markov Chain Monte Carlo Method

Integral Human Pose Regression

베이지안 서론2