5. Ý nghĩa khoa học và thực tiễn
2.2.3. Làm trơn điểm ghép nối
Sau khi thay thế mẫu hoặc khung có thể xuất hiện sự không liên tục ở điểm ghép nối. Vì vậy các phương pháp làm trơn bằng cách trung bình hóa một hoặc một số khung biên cũng thường được sử dụng. Tuy nhiên nếu lượng
dữ liệu đích đủ lớn thì các điểm ghép nối thường trơn và không cần làm trơn thêm.
Hình 2.12: Quá trình làm trơn biên ghép nối
2.2.4. Ƣu nhƣợc điểm của phƣơng pháp
Ưu điểm của phương pháp này là chất lượng cao nếu lượng dữ liệu người đích đủ lớn, có thể sử dụng kết hợp tổng hợp tiếng nói và chuyển đổi giọng nói. Tuy nhiên phương pháp này kế thừa tất cả các nhược điểm của tổng hợp ghép nối như đòi hỏi dữ liệu lớn, tốc độ thực thi khó đảm bảo thời gian thực, dữ liệu cần lưu trữ online lớn.
2.3. Phƣơng pháp sử dụng học máy thống kê GMM 2.3.1. Phân bố Gauss
Phân phối chuẩn, còn gọi là phân phối Gauss, là một phân phối xác suất cực kì quan trọng trong nhiều lĩnh vực. Nó là họ phân phối có dạng tổng quát giống nhau, chỉ khác tham số vị trí (giá trị trung bình μ) và tỉ lệ (phương sai σ2).
Phân phối chuẩn chuẩn hóa (standard normal distribution) là phân phối chuẩn với giá trị trung bình bằng 0 và phương sai bằng 1 (đường cong màu đỏ trong hình bên phải). Phân phối chuẩn còn được gọi là đường cong
chuông (bell curve) vì đồ thị của mật độ xác suất có dạng chuông.
Hình 2.13: Hàm mật độ xác suất Gauss (Đường màu đỏ là phân phối chuẩn chuẩn hóa)
Hàm mật độ xác suất của phân phối chuẩn với trung bình µ và phương sai 2 (hay, độ lệch chuẩn ) là một ví dụ của một hàm Gauss,
2 2 1 (x- ) ( ; , ) exp(- ) 2 2 f x (2.10)
Nếu một biến ngẫu nhiên có phân phối này, ta kí hiệu là 2 ~ ( , )
X N
2.3.2. Mô hình Gaussian hỗn hợp
Mô hình Gaussian hỗn hợp (Gaussian Mixture Model - GMM) là một hàm tham số mật độ xác suất được biểu diễn như là một tổng trọng số của các mật độ Gaussian thành phần. GMM được sử dụng rộng rãi như là một mô hình tham số của phân phối xác suất của các phép đo liên tục hay tính năng trong một hệ thống sinh trắc học. Các tham số GMM được đánh giá từ việc huấn luyện dữ liệu sử dụng thuật toán lặp cực đại hóa kỳ vọng (Expectation Maximization – EM) hoặc tối đa hậu nghiệm (Maximum A Posteriori – MAP) Một mô hình GMM là tổng thành phần của M thành phần mật độ
1 ( | ) ( | ; ) M i i i i p x g x (2.11) Trong đó M là số thành phần, mỗi thành phần mật độ là một hàm Gaussian như định nghĩa trong công thức 2.11.
i là trọng số của các thành phần thỏa mãn điều kiện
1
1
M i i
2.3.3. Mô hình hóa ngƣời nói bằng mô hình GMM
Một kỹ thuật mô hình hóa người nói được sử dụng phổ biến trong các hệ thống nhận dạng người nói không phụ thuộc từ khóa là kỹ thuật dùng mô hình GMM [8]. Đây là một phương pháp dựa trên thống kê, mô hình hóa sự biến đổi về mặt thống kê của các vector đặc trưng. Do vậy, nó cung cấp sự biểu diễn về mặt thống kê mô hình người nói tạo ra âm thanh như thế nào.
Một hàm mật độ Gausian là tổng có trọng số của các mật độ thành phần biểu diễn như công thức sau:
1 ( ) ( ; ; ) k i i i p x N x (2.12) 1 1 ( ) ( ; ; ) ( ) k M i i i i i i p x N x b x (2.13)
Trong đó, M là số lượng các thành phần, x là một vector đặc trưng đa hướng, b xi( )là các mật độ thành phần và pi là các xác suất tiền nghiệm. Mỗi mật độ thành phần được tính như sau:
1 1/ 2 / 2 1 1 ( ) exp - ( ) ( ) 2 (2 ) T i i i i N i b x x x (2.14)
Với N là số hướng của vector x, i là vector trung bình, ∑i là ma trận hiệp phương sai của thành phần thứ i. Mỗi người nói được biểu diễn bằng mô hình GMM, mô hình GMM được tham số hóa bằng các vector trung bình, các
ma trận hiệp phương sai và các trọng số pha trộn của tất cả các thành phần mật độ. Số lượng các thành phần M cần phải được xác định hoặc bằng các thuật toán phân cụm hoặc bằng kỹ thuật phân đoạn tiếng nói tự động. Một mô hình khởi tạo nhận được bằng cách ước lượng các tham số của các vector đặc trưng được phân cụm trong khi các phần của vector trong mỗi cụm có thể xem như các trọng số pha trộn. Các giá trị trung bình và hiệp phương sai được ước lượng từ các vector trong mỗi cụm. Sau khi ước lượng, các vector đặc trưng có thể được ước lượng lại sử dụng các mật độ thành phần từ các mô hình pha trộn đã được ước lượng. Quá trình này được lặp lại đến khi các tham số của mô hình hội tụ. Thuật toán này được gọi là thuật toán “cực đại hóa kỳ vọng” (Expectation Maximum - EM).
Hình 2.14: Mô hình GMM Biến đổi người nói theo mô hình GMM
2.3.4. Huấn luyện
Tiếng nói của giọng nguồn được trình bày bằng một vector 1, 2,..., n
X x x x , với xi là một vector đặc trưng D chiều của khung thứ i, 1 2
, ,..., D T
i i i i
x x x x .
Tiếng nói của giọng đích tương ứng cần biến đổi được trình bày bằng một vector Y y y1, 2,...,yn , với 1 2
, ,..., D T
i i i i
Hàm phân bố xác suất của Z cũng được mô hình hóa bằng một GMM. 1 ( ) ( , , ) ( , ) M m m m m p z N z p x y (2.15)
Với M là số lượng thành phần Gausian. ( , m, )
m
N z là phân bố chuẩn với kỳ vọng m và ma trận hiệp phương sai m . m là xác suất hậu nghiệm của z sinh ra thành phần m, và thỏa mãn
1 0 1, 1 M m m m . Bộ tham số ( m, m, )
m cho hàm mật độ p(x, y) có thể được ước lượng bằng thuật toán EM.
2.3.5. Biến đổi
Hàm biến đổi đặc trưng nguồn x sang đặc trưng đích y được cho trong công thức 2.14 ( ) ( | ) ( | ) F x E y x yp y x dy (2.16) Do đó, yx 1 1 ( ) ( )( ( ) ( )) M xx y m m m m m x m F x p x x (2.17) Trong đó, 1 ( ; ; ) ( ) ( ; , ) xx x m m m m M x xx m m m m N x p x N x (2.18) yx , x xx xy m m m m y m yy m m m và pm( )x là xác suất x thuộc về thành phần Gaussian thứ m.
2.3.6. Ƣu nhƣợc điểm của phƣơng pháp
Ưu điểm của phương pháp biến đổi bằng huấn luyện thống kê là chỉ cần một lượng nhỏ dữ liệu đích, có thể biến đổi giọng nguồn tương đối giống giọng đích. Tuy nhiên nhược điểm của phương pháp này là chất lượng kém phương pháp thay thế khung nếu có đủ dữ liệu. Ngoài ra, phương pháp này chỉ thích hợp để biến đổi các đặc trưng nhiều chiều như đặc trưng phổ mà không phù hợp để biến đổi các đặc trưng một chiều như F0, biên độ.
CHƢƠNG 3.
ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƢƠNG PHÁP BIẾN ĐỔI THÔNG TIN NGƢỜI NÓI TRONG TIẾNG NÓI
Các phương pháp biến đổi thông tin người nói đều hướng tới mô hình độc lập ngôn ngữ, tức là có thể áp dụng cho bất kỳ ngôn ngữ nào. Tuy nhiên nhiều nghiên cứu đã chỉ ra hiệu quả của từng phương pháp là khác nhau khi áp dụng vào một ngôn ngữ cụ thể [18], thậm chí là khác nhau khi đánh giá trên các bộ cơ sở dữ liệu khác nhau.
Luận văn này tập trung vào việc đánh giá các phương pháp thay đổi tham số trực tiếp, thay thế tiếng nói theo mẫu [18], và biến đổi sử dụng học máy thống kê [8] với tiếng nói tiếng Việt. Qua đó, có thể xác định các phương pháp phù hợp với tiếng nói tiếng Việt trong từng lớp ứng dụng cụ thể.
3.1. Ngữ âm tiếng Việt
Tiếng Việt là ngôn ngữ chính thức và là quốc ngữ của Việt Nam. Nó được hơn 90 triệu người Việt sử dụng hàng ngày. Khoảng hơn 3 triệu người Việt ở nước ngoài cũng thường xuyên sử dụng tiếng Việt.
Tóm tắt về ngữ âm tiếng Việt được trình bày dưới đây được tham khảo từ nghiên cứu của Đoàn Thiện Thuật [3] và Hoàng Phê [2].
a,Cấu trúc âm tiết tiếng Việt
Tiếng Việt là một ngôn ngữ đơn âm có thanh điệu điển hình [3]. Tổng số âm tiết (syllable) có thể phát âm trong tiếng Việt là khoảng 19.000 tuy nhiên chỉ có khoảng 7000 âm tiết được sử dụng và giảm xuống 1200 âm tiết nếu bỏ qua sự khác biệt về thanh điệu (tone). Cấu trúc âm tiết tiếng Việt được mô tả trong hình 3.1. Mỗi âm tiết được xem là một tổ hợp của phần đầu (initial), phần vần (final) và thanh điệu. Có 22 phần đầu, 155 phần vần và 6 thanh điệu trong tiếng Việt [14, 15].
Phần đầu thông thường là phụ âm (consonant), nhưng cũng có thể bị khuyết trong một số âm tiết. Phần vần có thể phân tách thành ba thành phần, bao gồm đầu vần (onset), nhân âm tiết (nucleus), và đuôi vần (coda). Phần đầu vần và đuôi vần có thể không tồn tại với một số âm tiết còn nhân âm tiết là thành phần chính của mọi âm tiết. Nhân âm tiết có thể là một nguyên âm (vowel) hoặc một nguyên âm đôi (diphthong). Đuôi vần có thể là một phụ âm hoặc một bán nguyên âm (semi-vowel). Có tất cả một phần đầu vần, 16 nhân âm tiết, và 8 đuôi vần trong tiếng Việt.
b. Thanh điệu tiếng Việt
Thanh điệu là một thành phần siêu phân đoạn (super-segmental) tồn tại duy nhất trong các ngôn ngữ có thanh điệu. Có sáu thanh điệu phân biệt trong tiếng Việt như trong bảng 3.2 và hình 3.1. Mỗi thanh điệu có một đường tần số cơ bản (F0) xác định.
Trong tiếng Việt, có hai loại âm tiết được phân biệt là âm đóng và âm mở. Âm tiết đóng kết thúc với các đuôi vần /p/, /t/, /k/ chỉ có thể kết hợp với các thanh sắc và nặng trong khi âm tiết mở và các âm tiết đóng khác có thể kết hợp với tất cả sáu thanh điệu để cấu thành một âm tiết có thanh có nghĩa.
Bảng 3.1Cấu trúc âm tiết tiếng Việt Thanh điệu
Phần đầu âm tiết Phần vần
Đầu vần Nhân âm tiết Đuôi vần Bảng 3.2: Sáu thanh điệu tiếng Việt
Số thứ tự thanh Tên tiếng Việt Tên tiếng Anh
1 Ngang Level 2 Huyền Falling 3 Ngã Broken 4 Hỏi Curve 5 Sắc Rising 6 Nặng Drop
3.2. Cơ sở dữ liệu tiếng nói tiếng Việt
Nghiên cứu về xử lý tiếng nói tiếng Việt bắt đầu từ khoảng 2 thập kỷ nay. Tuy nhiên, số lượng nghiên cứu là không nhiều. Một trong những lí do dẫn tới sự phát triển của nghiên cứu về xử lý tiếng nói tiếng Việt chưa thực sự mạnh mẽ là do chưa có nhiều những bộ cơ sở dữ liệu tiếng nói tiếng Việt tin cậy được chuẩn hóa.
Ở Việt Nam, thông thường mỗi nhóm nghiên cứu tự xây dựng các bộ cơ sở dữ liệu tiếng nói để thực nghiệm. Do giới hạn về thời gian, kiến thức, và kinh phí dẫn tới các bộ cơ sở dữ liệu này thường không đủ lớn cũng như chất lượng chưa cao. Ngoài ra, việc từng nhóm nghiên cứu sử dụng các bộ cơ sở dữ liệu riêng dẫn tới việc phối hợp nghiên cứu giữa các nhóm nghiên cứu là rất khó khăn, nhiều khi là không thể.
Trong phần này, chúng tôi liệt kê một số bộ cơ sở dữ liệu tiếng nói tiếng Việt được sử dụng phổ biến trong các nghiên cứu về xử lý tiếng nói tiếng Việt gần đây.
a. Cơ sở dữ liệu số điện thoại
Cơ sở dữ liệu tiếng nói này được xây dựng tại Viện Công nghệ thông tin, Viện hàn lâm, khoa học và công nghệ Việt Nam [12]. Định dạng âm thanh là PCM .WAV với tần số lấy mẫu là tần số lấy mẫu của hệ thống điện thoại công cộng PSTN 8KHz. Mã hóa 16 bit / mẫu. Kích cỡ bộ cơ sở dữ liệu khá nhỏ với 1541 từ mô tả các số điện thoại. Phần đầu bao gồm 170 người nói với 94 đàn ông và 76 phụ nữ đến từ các địa phương khác nhau trong khu vực miền Bắc. Phần hai gồm 208 người nói bao gồm 130 đàn ông và 78 phụ nữ đến từ các địa phương trong khu vực miền Nam. Cơ sở dữ liệu được gán nhãn ở mức âm vị.
b.Cơ sở dữ liệu tiếng nói phát thanh VOV
Bộ cơ sở dữ liệu này được xây dựng tại Viện Công nghệ thông tin, Viện hàn lâm, khoa học và công nghệ Việt Nam [12]. Bộ cơ sở dữ liệu gồm các câu chuyện, báo cáo, bản tin,… được Đài tiếng nói Việt Nam VOV phát thanh và được sưu tập từ 15 người nói giọng Hà Nội chuẩn. Âm thanh dạng RealAudio được sưu tập từ website của VOV và được chuyển đổi về dạng âm thanh PCM WAV với tốc độ bit 256 kbps, tần số lấy mẫu là 16 KHz.
Bộ cơ sở dữ liệu bao gồm 29062 câu với độ dài trung bình 10 âm tiết. Số lượng các âm tiết phân biệt là 4379 trong khi số lượng các âm tiết phân biệt không tính thanh điệu là 1646 bao phủ gần như toàn bộ các âm tiết tiếng Việt. Kích cỡ bộ cơ sở dữ liệu khoảng 2.5 GB.
Bộ cơ sở dữ liệu được lựa chọn cân bằng giữa mỗi người nói và mỗi phiên và được gán nhãn bằng tay chỉ ở mức âm tiết. Mặc dù đây là một bộ cơ
c. Cơ sở dữ liệu DEMEN567
Bộ cơ sở dữ liệu này cũng được xây dựng tại Viện Công nghệ thông tin, Viện hàn lâm, khoa học và công nghệ Việt Nam [12]. Kịch bản văn bản được trích ra từ câu chuyện Dế mèn phiêu lưu ký nổi tiếng. Người nói là một nữ phát thanh viên giọng Hà Nội chuẩn. Tiếng nói được ghi âm ở dạng PCM WAV, tần số lấy mẫu là 11025 Hz, mã hóa 16 bit / mẫu. Cơ sở dữ liệu bao gồm 567 câu với độ dài mỗi câu khoảng 15 âm tiết. Kích cỡ bộ cơ sở dữ liệu vào khoảng 70 MB và độ dài vào khoảng gần 1 giờ nói.
Bộ cơ sở dữ liệu được gán nhãn bằng tay ở cả mức âm tiết và âm vị bao gồm thông tin thanh điệu. Mặc dù kích cỡ khá nhỏ, đây có thể xem là một bộ cơ sở dữ liệu chất lượng cao do việc thiết kế kịch bản văn bản đảm bảo độ cân bằng âm cao cũng như việc gán nhãn ở mức âm vị là khá chính xác.
d. Cơ sở dữ liệu MICA VNSpeech
Đây là bộ cơ sở dữ liệu được xây dựng tại Trung tâm nghiên cứu quốc tế MICA, Đại học Bách Khoa Hà Nội. Bộ cơ sở dữ liệu đươc nói bởi 50 người nói bao gồm 25 nữ và 25 nam với độ tuổi từ 15 đến 45. Người nói hầu hết có trình độ đại học với ba phương ngữ chính: miền Nam, miền Bắc, và miền Trung Việt nam. Mỗi người nói khoảng 60 phút. Tần số lấy mẫu là 16 KHz. Mức độ cân bằng về ngữ âm và âm vị được đảm bảo khá tốt [11].
Mặc dù bộ cơ sở dữ liệu này được xem là một cơ sở dữ liệu tiếng nói lớn với chất lượng thu âm cao, nhãn mô tả trong cơ sở dữ liệu được tạo ra bằng phương pháp gán nhãn tự động có sai số lớn đã giới hạn khả năng sử dụng cơ sở dữ liệu này trong các nghiên cứu về xử lý tiếng nói tiếng Việt.
e. Các cơ sở dữ liệu khác
Gần đây, một số nhóm nghiên cứu đã cố gắng thu thập các nguồn tài nguyên tiếng nói để xây dựng các bộ cơ sở dữ liệu tiếng nói tiếng Việt lớn, ví dụ như bộ cơ sở dữ liệu tin tức phát thanh tiếng Việt (VNBN) với khoảng 40 giờ và một bộ cơ sở dữ liệu đàm thoại với khoảng 11 giờ tiếng nói [19]. Tuy
nhiên những bộ cơ sở dữ liệu này hoặc chưa được gán nhãn hoặc chỉ gán nhãn ở mức âm vị. Do đó chúng chưa được sử dụng rộng rãi trong các nghiên cứu về xử lý tiếng nói tiếng Việt.
3.3. Tổng hợp tiếng nói tiếng Việt
Chuyển đổi thông tin người nói có thể xem là một nhánh nghiên cứu về tổng hợp tiếng nói. Do đó, trong phần này chúng tôi điểm lại một số nghiên cứu về tổng hợp tiếng nói tiếng Việt.
Tổng hợp tiếng nói tiếng Việt được bắt đầu nghiên cứu khoảng hai thập