Phan phối chuẩn đa biến (Gaussian multivariate)

Một phần của tài liệu Khóa luận tốt nghiệp Hệ thống thông tin: Xây dựng mô hình nhận diện giọng nói cho tiếng Việt (Trang 48 - 60)

34

Bây giờ mở rộng ra, không còn là một đặc trưng mỗi khung nữa mà là 39 đặc trưng mỗi

khung. Chúng ta cần một phân phối chuẩn đa chiều với 39 đặc trưng đó.

Sô chiêu D của vector x = (x1, ...Xp)' là một phân phôi chuân đa chiêu nêu nó có một hàm

phân bố mật độ xác suất theo dạng sau đây.

x |p, 2) = ———__—— |

(24)

exp =s-M) È '(x—H) | -

Hình 2. 47: công thức phan phối chuẩn đa chiêu (Nguôn: “Speech Recognition —

GMM, HMM, Jonathan Hui medium website”)

Với ¥ là ma trận hiệp phương sai dùng dé do độ tương quan giữa những biến (trong trường hợp này biến là 39 đặc trưng), Iu là vector giá trị trung bình.

H=(/u,..../0„)} ==

Hình 2. 48: ma trận hiệp phương sai (Nguôn: nằm trong những slide về ASR của

dai học Edinburghg [3])

Hai tham số của phân phối chuẩn đa chiều được ước lượng như sau, với x = (Xu,... Xw)!:

1 T

H=—) x

ly 7 (25)

ơ..

Hình 2. 49: ước lượng các tham sé của phân phói chuẩn đa chiêu (Nguồn: nằm

trong những slide vê ASR của dai học Edinburghg [3])

35

2.5.1.3. Hỗn hợp Gaussian (Mixture of Gaussian) và mô hình GMM-HMM:

Một dạng linh hoạt hơn của ước lượng mật độ là gom tuyến tính các giá trị của probability density function (p.d.f). Đó gọi là mô hình hỗn hợp hoặc là mật độ hỗn hợp.

Với:

e p(x | m): những mật độ của component.

e P(m): những tham số hỗn hợp.

(26)

p(x) = >) P(m) p(l_m)

(Nguôn: nằm trong những slide về ASR của đại học Edinburghg [3])

Loại mô hình hỗn hợp quan trọng nhất là GMM, với các component mật độ là các phân phối

chuân.

Xét một GMM, mỗi component của phân phối Gaussian có trung bình pm và hiệp phương

sai hỡnh cõu (spherical covariance), X„= ứ”mẽ.

p(x) =>) Pim) pol m) =) Pom) N (x:p,„„21) (27)

Hình 2. 50: công thức tính xác suat của GMM (Nguồn: nằm trong những slide về

ASR của đại học Edinburghg [8])

Gia sử có một dummy variable zm =l nêu component m tạo ra diém dữ liệu x; (va bang 0 nêu ngược lai). Ta có thê tính được sô điêm dữ liệu tạo ra bởi component m.

36

T

N,, = .

/—] (28)

Hình 2. 51: công thức đếm điểm dữ liệu (Nguôn: nằm trong những slide về ASR

của đại học Edinburghg [5])

Nhờ vào đó trung bình, phương sai, những tham số ân hỗn hợp được ước lượng như sau:

BH, = N.

⁄ X,—H„, 2

^2 t

0, —

1 N l4 NM,

PŒn) =— Z,„., = (m) T2 mt =

Hình 2. 52: công thức ước lượng các tham số GMM khi biết nguôn góc diém dữ liệu

(Nguồn: nam trong những slide ve ASR của đại học Edinburghg [8])

Tới đây sẽ có một van dé phát sinh, nếu zm không được biết, không biết các điểm dữ liệu đến từ component nào. Ý tưởng là sử dụng xác suất hậu nghiệm P(m | x) được đưa cho component m tạo ra điểm dữ liệu x. P(m | x) lúc này gọi là component occupation

probability.

_ pC _m)P(m) _ —_ pQ|_ m)P(m)

mụn 9 p(x) ` ‘) G0)

3,p(w m)P(m)

(Nguồn: nằm trong những slide về ASR của đại học Edinburghg [3])

37

Công thức đếm số điểm dit liệu cũng thay đổi. Chúng ta có thé tưởng tượng như gan điểm

dữ liệu vào component m được đánh trong số bởi P(m | x¿).

T

N =2,” X,) an

Hình 2. 53: công thức đếm điểm dữ liệu (Nguôn: nằm trong những slide về ASR

của đại học Edinburghg [3])

Tiếp đến là ước lượng trung bình, phương sai và những tham số hỗn hợp.

P(x x, )x, Plo x, )x,

H„, = S" P(n x,) = N° (32)

>P(m x,) fsa) >;P(m x,)|x.—m,|

A2_ it cư

On > P(m x,) N} (33)

*

D 1 N„

Pom)=7 DLP (ml x,)= 7 34)

Hình 2. 54: công thức ước lượng các tham sé GMM khi không biết nguôn góc điểm

dữ liệu (Nguôn: nam trong những slide vê ASR của đại học Edinburghg [3])

Sử dụng thuật toán EM để tìm p(x | m) và P(m). Mỗi lần lặp có hai phan:

e E-step: tính component occupation probability P(m | x) bằng ước lượng hiện tại của

tham số GMM (trung bình, phương sai và tham số hỗn hợp).

e M-step: sử dụng ước lượng hiện tại component occupation probability P(m | x) dé

tính các tham số GMM.

38

Trong nhận diện tiếng nói, chúng ta có thé tinh phân phối chuẩn cho mỗi âm dựa vào các đặc trưng. Điều đó giống với việc tính EP trong HMM, ban đầu ta sẽ khởi tạo giá trị trung bình (mean) và phương sai (variance) bằng 0 và 1, ngay khi mô hình được huấn luyện, ta sé

sử dụng nó đề làm các hạt giống cho những mô hình GMM phức tạp.

Giá trị đặc trưng của một âm có thê gân với component m, nhưng một vai giá trị có thê

giống nhau. Do vậy sử dụng mixture weight € jim dé phân biệt các component m với nhau.

Với trạng thái HMM], w„„ giá trị trung bình của component m, 2 ,, ma trận hiệp phương

sai của component m, xác suât của đặc trưng là:

M

b (x) = p(xl S = J) = ;c„\ (XG Bin in) (35)

m=l

Hình 2. 55: công thức xác suất của GIMM trong mô hình GMM-HMM (Nguồn:

“Speech Recognition— GMM, HMM, Jonathan Hui medium website’)

Không may, một phân phối chuan không thé biểu hiện nhiều giá trị hoặc sự phức tạp của tin hiệu cho du sử dung phân phối Gaussian đa chiều. Đề giải quyết bài toán đó ta chuyển sang GMM. GMM cho phép một âm có nhiều phân phối chuẩn và có hình dạng cuối cùng là multimodal.. Theo dõi ví dụ sau đây, 4m ‘sh’ có một phân phối chuẩn, khi chuyên sang GMM là lay tong của 3 giá trị thành một có dang multimodal (một phân phối chuẩn có

nhiêu điêm lên và xuông).

PDF acoustic model PDF

Gaussian Mixture Model (GMM)

sh —

(phone)

Gaussian Gaussian

a ee ee eee eee |

GMM acoustic model

39

Hình 2. 56: minh hoa GMM (Nguôn: “Speech Recognition — GMM, HMM, Jonathan

Hui medium website”)

Ban dau chỉ có một Gaussian (1-component). Dé có được GMM, ta chia phan phối chuẩn cua GMM (1-component) đó làm hai va sử dụng thuật toán forward-backward qua nhiều lần lặp. Điều này sé realign những trạng thái của HMM vào những khung audio. Tiếp tục phân chia thông qua nhiều lần lặp của forward-backward cho tới khi đạt được số giá trị mong

muôn của GMM.

retrain

Hình 2. 57: phân phối chuẩn Gaussian biến thành GMM (2-component) (Nguồn:

“Speech Hecognition— GMM, HMM, Jonathan Hui medium website”)

Tóm tại, khi xác định được âm ta có thé học từ vector đặc trưng của tham sỐ quan sát được bằng GMM. Hay nói cách khác GMM giúp ta tính được EP của tham số an trong HMM.

Tiến một bước xa hơn nữa thay vì chỉ dùng HMM dé nhận diện âm, chúng ta kết hợp hai

mô hình GMM và HMM lại với nhau, hay thường được kí hiệu là GMM-HMM (mô hình HMM dựa trên GMM).

GMM-HMM là mô hình thống kê, mô tả hai tiến trình phụ thuộc vào nhau, tiến trình observable và tiễn trình HMM. Sử dụng phân phối Gaussian hỗn hợp dé tạo ra một chuỗi tham số quan sát được theo các tham số an. Cụ thé, GMM sẽ mô hình phân phối chuẩn của vector đặc trưng khi biết được một âm và cung cấp một cách đề đo “khoảng cách” giữa một

âm và một khung. Trái lại HMM sẽ tạo ra một mô hình cho biết một tham số ân sẽ chuyền

đôi sang tham sô ân tiêp theo nào.

2.5.2 Mô hình Deep Neural Network (DNN):

2.5.2.1. Định nghĩa:

40

Neural Network (NN) là một mang gồm nhiều tầng (layer), moi tang chứa nhiều neuron

mục đích dùng dé phân lớp hoặc ra dự đoán, còn DNN là một NN nhưng gồm nhiều hơn một tầng ân, qua mỗi tầng kết quả huấn luyện sẽ tốt hơn. Bên dưới là ví dụ của một NN đơn giản gồm 5 input, hai tầng ân và 5 output, mũi tên là kết nối các neuron chứng tỏ các neuron liên kết nội với nhau và đường đi dữ liệu di chuyên từ tầng input tới tầng output.

output layer

input layer

hidden layer 1 hidden layer 2

Hình 2. 58: ví du DNN (Nguôn: “The Basics of Neural Networks, Mayank Jain’)

Hidden Hidden Layer 1 Layer 2

Hình 2. 59: ví dụ một NN don giản (Nguồn: “The Basics of Neural Networks,

Mayank Jain”)

41

Như đã nói, ra dự đoán là một trong nhiều mục dich của NN, chúng ta có một tập input và

một tập các kết quả mong muốn. Việc huấn luyện mô hình NN là sao cho kết quả đầu ra

giông với kêt qua mong muôn nhất.

NN có hai tham số (parameter) quan trọng là weight và bias, mỗi neuron có hai tham số riêng, dựa vào đó và hàm kích hoạt (có thé là hàm sigmoid, tanh,...) dé tính xác suất dự

đoán.

Bên dưới là ví dụ đơn giản dé tính xác suât dự đoán chỉ có một giá trị dau vào và một neuron, có công thức:

Sigmoid (Bi * X + Bo) = Predicted Probability (36)

Hình 2. 60: công thức tinh xác suất dự đoán

Với các giá tri:

e X là gia tri input.

e Bila weight, thé hiện mức độ anh hưởng của X lên neuron.

e Bo là bias, luôn luôn là 1.

e Hàm sigmoid (trong trường hợp này là hàm kích hoạt)

Hidden Layer 1

[x] ~@¢ Predicted Probability

Weight (B1)

Hình 2. 61: minh họa cho công thức (Nguôn: “The Basics of Neural Networks,

Mayank Jain’)

Quay trở lai vi dụ đầu tiên, ta có 5 input, hai tang ân va 5 output. Nhưng ta chi tính xác suất

dự đoán cho hai neuron cua tang ân sô 1, cái khác lân này ta có 5 input và hai neuron. Các

42

giá tri weight, input, bias và kết quả xác suất dự đoán sẽ được biểu diễn ở dang ma trận. Kí hiệu W1,1 có ý nghĩa weight của input số 1 và neuron 1 ; W1,2 weight input số 1 neuron 2,... Dạng tong quát Wa,b có nghĩa weight của input a va neuron b.

W1,1 W2,1 W3,1 W4,1 W5,1 X1 Bias1 Z1

W1,2 W2,2 W3,2 W4,2 W5,2 " x2 ' Bias2 : z2

x3 X4 X5

Hình 2. 62: biéu diễn dang ma trận của ví dụ trên (Nguồn: “The Basics of Neural

Networks, Mayank Jain’)

Cuối cùng ta có công thức chung dé tính xác suất của dự đoán của bat kỳ tầng an nào là :

[W] * [X] + [Bias] = [Z], với kích thước của các ma trận sau (n: sô neuron của tang muôn tính, m: sô neuron của tâng trước ).

e [W]: n*m

e [X]: m*1

e [Bias]: n*1

e [Z]: n*1

Thuật toán được sử dung dé huấn luyện DNN là Stochastic Gradient Descent, gồm các bước

sau:

- Khởi tạo tham số cho mô hình DNN.

- X4o trộn tập đữ liệu huấn luyện.

- Lap mỗi epoch:

- Lay minibatch từ đữ liệu train (eg: 256 mẫu), và tat cả dữ liệu train.

43

- Forward: tinh outputs f.

- Backprop: tinh gradients của W va b cho minibatch.

- Cap nhật W và b từ gradients của minibatch va learning rate n: w = w —

noE/ow.

Vong lặp kết thúc khi lặp hết số epoch có định va error không còn giảm nữa.

2.5.2.2 DNN-HMM:

Ban thân mô hình DNN không thé mô hình tín hiệu âm thanh bởi vì tín hiệu âm thanh là tín hiệu thay đổi theo thời gian, mà DNN yêu cau input phải có định. Dé tận dụng khả năng phân lớp mạnh của DNN trong nhận diện tiếng nói, ta phải tìm cách xử lý tín hiệu này.

Một trong những cách tiếp cận đã được chứng minh hiệu quả là kết hợp DNN với HMM,

thường được gọi là DNN-HMM. Tín hiệu âm thanh sẽ được xử lý bởi HMM, DNN sẽ tính

xác suất của đặc trưng thay thế cho xác suất của đặc trưng được tính bởi GMM. Neuron output sẽ tương ứng với tat cả trạng thái của HMM, một output neuron là một trang thái HMM và được huấn luyện dé ước lượng xác suất hậu nghiệm của trạng thái HMM khi biết

đặc trưng acoustic.

Đề huấn luyện AM dựa trên DNN, alignment của dữ liệu huấn luyện là cần thiết. Quá trình

alignment này được thực hiện bởi mô hình GMM-HMM.

44

Transition Probabilities

ee

Gas, us “uy “uy

đu 5 Meats

Observation Probabilities

Window of feature frames

| Observation

Hình 2. 63: kiến trúc của DNN-HMM (Nguén: [5], trang 100) C6 nhiéu loai DNN nhung co tinh chinh xac cao va duoc ding nhiéu 1a Convolutional

Neural Network (CNN).

Convolution là một sliding window (hay kernel, filter, feature detect), trượt trên một ma trận

lớn. Nhân lần lượt từng phần tử trong ma trận, ta thu được ma trận kết quả là convolved

feature.

CNN hay mang neuron tích chap là một tap hợp các tang Convolution chồng lên nhau và sử dụng các hàm nonlinear activation như ReLU và tanh để kích hoạt các trọng số trong các neuron. Mỗi một tầng sau khi thông qua các hàm kích hoạt sẽ tạo ra các thông tin cho các tầng tiếp theo.

Các tầng liên kết được với nhau thông qua cơ chế convolution. Tầng tiếp theo là kết quả convolution từ tầng trước đó, nhờ vậy mà ta có được các kết nối cục bộ. Như vậy mỗi

neuron ở tang kê tiép sinh ra từ kêt quả cua filter áp đặt lên một vùng của neuron trước đó.

45

-

a a

Hidden —

Units = Hidden

a= Layer 1

a a

= a

= CI

1

=

Features| =

L Input

= Layer

a a a LÌ

Time

—ễ—

Hình 2. 64: cơ chế convolution trong nhận diện tiếng nói (Nguôn: nằm trong những

slide về ASR của đại học Edinburghg [3])

Vi tín hiệu âm thanh ở dạng liên tục, thay vì dùng bộ lọc 2D convolution, ta sử dụng bộ lọc

1D convolution để lay đặc trưng của nhiều khung. Vậy Time-Delay Neural Network

(TDNN) là bộ lọc ID convolution.

zZ LÒ "

xƒ/ t+

i =

pie 5/0 Là Lộ LỘ

VÀ XJSkvhvkvkvivkASA]

VNR Layer

Một phần của tài liệu Khóa luận tốt nghiệp Hệ thống thông tin: Xây dựng mô hình nhận diện giọng nói cho tiếng Việt (Trang 48 - 60)

Tải bản đầy đủ (PDF)

(83 trang)