Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 98 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
98
Dung lượng
2,74 MB
Nội dung
Luận văn thạc sỹ kỹ thuật máy tính truyền thông LỜI CAM ĐOAN T i i hƣ g ih hầy giáo PGS.TS.Tri h Vă L ghiệ ố iệ hƣ g ƣợ C hố g ế ả r h i iệ h h ảy r r h hiệ i rƣ g ế ă h g ă ƣợ gý r iếp ƣợ h g ú g hƣ h Việ Nh rƣờ g g ời ƣ i ả ghi h r g h g r h ụ g r ) h ặ i Nh y r g g ố r g i iệ Nế h i ghi g ( ó ả g giả r i i Hà Nội, ngày 26 tháng 08 năm 2013 Tác giả Nguyễn Quang Sức hị Luận văn thạc sỹ kỹ thuật máy tính truyền thông LỜI CẢM ƠN Để hoàn thành khóa luận này, xin tỏ lòng biết ơn sâu sắc đến thầy PGS.TS Trịnh Văn Loan tận tình hướng dẫn suốt trình viết khóa luận tốt nghiệp Tôi xin chân thành cảm ơn quý Thầy, Cô Viện Công nghệ Thông tin & Truyền thông, Trường Đại học Bách khoa Hà Nội tận tình truyền đạt kiến thức thời gian học tập nghiên cứu Với vốn kiến thức tiếp thu trình học tập nghiên cứu không tảng cho trình nghiên cứu khóa luận mà hành trang quí báu để bước vào đời cách vững tự tin Tôi thầm biết ơn ủng hộ đồng nghiệp, gia đình bạn bè – người thân yêu chỗ dựa vững cho Cuối cùng, xin kính chúc Quý Thầy cô, Đồng nghiệp, Gia đình dồi sức khỏe thành công nghiệp cao quý Xin trân trọng cảm ơn! Học viên Nguyễn Quang Sức Luận văn thạc sỹ kỹ thuật máy tính truyền thông MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ LỜI NÓI ĐẦU CHƢƠNG TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI 1.1 Mở ầu 1.2 Bộ máy phát âm 1.2.1 Bộ máy phát âm 1.2.2 Cơ chế phát âm 1.3 Đặc tính âm học c a tiếng nói 1.3.1 Âm hữu âm vô 1.3.2 Âm vị 10 1.3.3 Các đặc tính khác .11 1.4 Mô hình tạo tiếng nói 12 1.5 Phân tích tiếng nói 17 1.5.1 Mô hình phân tích tiếng nói .17 1.5.2 Phân tích tiếng nói ngắn hạn 18 1.6 Phân tích Mel-Cepstral 19 1.6.1 Tạo tiếng nói từ mô hình thời gian rời rạc .19 1.6.2 Phân tích Mel-Cepstral 20 1.6.3 Bộ lọc MLSA (Mel Log Spectral Approximation) 22 CHƢƠNG TỔNG HỢP TIẾNG NÓI 27 2.1 Gi i thiệu chung .27 2.2 C phƣơ g ph p ổ g hợp iế g ói 28 2.2.1 Tổng hợp theo cấu trúc âm .28 2.2.2 Tổng hợp formant theo quy luật .31 2.2.3 Tổng hợp ghép nối 33 Luận văn thạc sỹ kỹ thuật máy tính truyền thông CHƢƠNG MÔ HÌNH MARKOV ẨN VÀ ỨNG DỤNG TỔNG HỢP TIẾNG NÓI 46 3.1 Tổng quan hệ thống tổng hợp tiếng nói d a mô hình Markov ẩn 46 3.2 Tổng quan mô hình Markov 48 3.2.1 Quá trình Markov .48 3.2.2 Mô hình Markov ẩn 49 3.3 B i ản c a mô hình Markov ẩn 52 3.4 Tổng hợp tiếng nói d a mô hình Markov ẩn 63 3.4.1 Tạo thông số tiếng nói từ HMM .63 3.4.2 Ví dụ tạo chuỗi tham số .67 3.4.3 Hệ thống tổng hợp văn thành tiếng nói dựa HMM 72 3.5 Mô hình hóa tạo tần số ản cách s dụng phân bố xác su không gian 74 3.5.1 Phân bố xác suất đa không gian 74 3.5.2 HMM dựa xác suất phân bố đa không gian 76 3.5.3 Phân cụm ngữ cảnh dựa định 84 3.5.4 Mô hình hóa tân số F0 sử dụng MSD-HMM 88 3.6 Chƣơ g r h h nghiệm 89 3.6.1 Mô hình thử nghiệm 89 3.6.2 Phân tích mô hình 89 3.6.3 Festival ứng dụng tổng hợp tiếng nói 93 KẾT LUẬT 97 TÀI LIỆU THAM KHẢO 98 Luận văn thạc sỹ kỹ thuật máy tính truyền thông DANH MỤC CÁC TỪ VIẾT TẮT FFT Fast Fourier Transform FIR Finite Impluse Response FT Fourier Transform HMM Hidden Markov Model LPC Linear Predictive Coding MFCC Mel frequency cepstral coefficient PDFs Probability density functions MSD-HMM Multi-space probability distribution HMM MLSA Mel log spectral approximation EM Expectation-maximzation TTS Text to speech Luận văn thạc sỹ kỹ thuật máy tính truyền thông DANH MỤC CÁC HÌNH VẼ Hình 1.2: Bộ máy phát âm c gƣời 10 14 14 16 16 16 20 21 25 29 29 47 46 50 51 Hình 1.4: Mô hình hóa nguồ â ối v i âm h u H h 1.5: Ch ỗi ố g â họ ý ƣở g Hình 1.5a: M h h ý họ gi ố g +1 Hình 1.5b: M h h họ ộ gố g h Hình 1.6c: Mô h h hệ hố g ph â Hình 1.6: Phâ í h í hiệ r h g hù h H h 1.6.1: Tạ iế g ói h h hời gi rời rạ H h 1.6.3: Th hi h r y ũ D(z) h h 2.2 : C H h 2.2 : C rú ả rú ả ộ ộ ổ g hợp f r ộ ộ ổ g hợp f r Hình 3.1:Hệ hố g ổ g hợp iế g ói Hình 3.2: Ví ụ ộ h hM r ẩ r i ối iếp g g HMM rạ g h i Hình3.3.1: Mi ả ãy phép ƣợ h hiệ ể í h iế t (i) Hình3.3.2: Mi ả ãy phép ƣợ h hiệ ể í h iế t(i) Hình 3.3.3: Mi ả phép í h ầ hiế ể í h t(i, j) Hình 3.4: Tổ g hợp h ả g hời gi Hình 3.5: Phổ iế g ói ƣợ HMM Hình 3.6: Mô hình hò F0 r h g gi Hình 3.7: Phâ ố h g gi Hình 3.8: Mộ HMM r phâ ố h g gi Hình 3.9: M F0 mô hình hóa không gian chiêu Hình 3.10: Mộ í ụ ây yế ị h Hình 3.11: Phâ hó ú ây yế ị h H h 3.12: Xây g ây yế ị h r MDL Hình 3.13: Vector quan sát H h 3.14: Hệ hố g ổ g hợp iế g ói r h h HMM Hình 3.15: HMM rạ g h i r i phải i h yể ổi họ H h 3.16: Phâ hó h h riph e ƣơ g g i h â “” h 54 66 70 74 77 78 84 85 88 89 90 91 92 93 Luận văn thạc sỹ kỹ thuật máy tính truyền thông LỜI NÓI ĐẦU Tổng hợp tiếng nói ĩ h ƣợc r t nhi hƣ có r t nhi u ng dụng th c tế g ă viễ gƣời nghiên c u quan tâm, hệ thống trả lời t ộ g ọc nội ản, máy phiên dịch, hệ thống trợ giúp gƣời tàn t t, ng dụng h g…Tuy nhiên việc ng dụng nghiên c u Việ N ò ƣơ g ối m i r t hạn chế Tổng hợp tiếng nói th c theo nhi phƣơ g ph p hƣ: Tổng hợp theo c u âm, tổng hợp formant theo quy lu t, tổng hợp cách ghép âm Tuy hi phƣơ g ph p u có nh ng ƣ hƣợ iểm, v y việc tìm phƣơ g ph p hợp khác cần thiết Do v y chọ phƣơ g ph p hợp theo mô hình Markov ẩ Trong lu ă hƣ ng nghiên c u y i r h ầy v ản v mô hình Markov ẩn, giải pháp ng dụng mô hình Markov ẩn vào tổng hợp tiế g ói Để th c ƣợc công việc th c nhiệm vụ sau: Tìm hiểu nguyên lý, mô hình tạo tiếng nói Nghiên c u lý thuyết x lý tiếng nói mô hình Markov ng dụng Tìm hiểu toolkit HTS hệ thống mã nguồn mở fe i ể ng dụng vào tổng hợp tiếng nói Lu ă ƣợ hi h h hƣơ g i nội dung sau: Chƣơ g 1: Tiếng nói x lý tiếng nói.Chƣơ g v tiế g ói y r h ầy v hế tạo tiế g ói ũ g hƣ hình tạo tiêng nói, kỹ thu t phân tích tiếng nói Chƣơ g 2: Tổng hợp tiếng nói Chƣơ g tổng hợp tiế g ói ã y r h bầy số phƣơ g ph p g ƣợc s dụng gi i Chƣơ g 3: Mô hình Markov ẩn ng dụng tổng hợp tiếng nói Chƣơ g y trình bầy lý thuyết v mô hình Markov ẩn, ng dụng tổng hợp tiếng nói ng dụng tổng hợp hệ thống mã nguồn mở Festival Luận văn thạc sỹ kỹ thuật máy tính truyền thông CHƢƠNG TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI 1.1 Mở đầu Tiếng nói mộ phƣơ g iệ ƣợc tạo t ƣ y r ổi thông tin c gƣời Tiếng nói gƣời: trung tâm thần i h i u khiển hệ thông phát âm làm việc tạo âm Tiế g ói ƣợc phân biệt v i hệ thống âm khác học có nguồn gốc t h g hí ó ặc tính âm hế tạo tiếng nói V ch t, tiếng nói s g he h g i C ộng tạo thành áp l ộng c a ến tai ƣợc tai phát hiện, phân tích chuyển kết ến trung khu thần kinh Tại ây h g i ƣợc tái tạo lại ƣ i g h g i gi gƣời hiể ƣợc Tín hiệu tiế g ói ƣợc tạo thành chuỗi âm vị liên tiếp,s xếp c a âm vị ƣợc chi phối quy tắc c a ngôn ng Việc nghiên c u cách chi tiết v quy tắc thuộc v chuyên ngành ngôn ng Việc phân loại âm vị c a tiếng nói thuộc v chuyên ngành ng âm học Khi nghiên c u mô hình toán học c hế tạo tiếng nói, việc nghiên c u v âm vị r t cần thiết 1.2 Bộ máy phát âm 1.2.1 Bộ máy phát âm Bộ máy phát âm bao gồm thành phần riêng rẽ hƣ phổi, khí quản, ƣờng d ũi iệ g Tr g ó: - Thanh quản ch a dây - Tuyến âm ố g h g - Kh g ũi ố g h g dài cố ịnh khoảng 12 - u bắ ộng tạo âm ầu t môn kết thúc môi ầu t môi, kết thúc vòm miệ g ó ộ u bắ ối v i gƣời l n Vòm miệng nếp h yể ộng Luận văn thạc sỹ kỹ thuật máy tính truyền thông gƣời Hình 1.2: Bộ máy phát âm c 1.2.2 Cơ chế phát âm â Trong trình tạo âm ũi ó g ại, dòng khí i th p dòng khí i h h g g ũi ũi.Khi ph ò iệng mở, khoang â ũi ò iệng hạ ũi Tuyến âm ƣợc kích thích nguồ Tiế g ói ƣợc tạo tín hiệu nguồn t ă g ƣợng môn h h ph r ẩy không khí có phổi lên tạo thành dòng khí, va chạm vào hai dây tuyến âm Hai ây h h tuyế â ộng tạo cộ g hƣởng, hi i h g ũi ộng âm ƣợc lan truy n theo i ẽ tạo tiếng nói 1.3 Đặc tính âm học tiếng nói 1.3.1 Âm hữu âm vô a Âm hữu Âm h u h h ƣợc tao t dây bị ă g ồng thời chúng rung ộng chế ộ dãn không hí ă g h h môn xẹp xuống không khí chạy qua ó h h Luận văn thạc sỹ kỹ thuật máy tính truyền thông Do s cộ g hƣởng c a dây thanh, sóng âm tạo có dạng tuần hoàn gần hƣ ần hoàn Phổ c a âm h u có nhi u thành phần hài giá trị bội số c a tần số cộ g hƣởng, gọi tần số ản b Âm vô Khi tạo âm vô dây không cộ g hƣởng Âm vô có loại ản âm xát âm tắc Âm xát (ví dụ hƣ â ): ƣợc tạo có s co thắt i iểm iểm co thắt chuyển thành chuyể ộng hỗn loạn tuyế â Kh g hí hi i tạo nên kích thích giố g hƣ hiễu ng u nhiên Th g hƣờ g iểm co thắt xẩy gần miệng nên s cộ g hƣởng c a tuyến âm ả h hƣởng r í ế ặc tính c a âm ƣợc tạo Âm tắc (ví dụ hƣ â p): ƣợc tạo tuyế â cho áp xu t không khí tă g ó g ại số iểm làm ó ƣợc giải phó g ột ngột, s giải phóng ột ngột tạo kích thích nh t thời c a tuyến âm S kích thích xẩy v i s cộ g hƣởng không cộ g hƣởng c a dây ƣơ g ng v i âm tắc h u vô 1.3.2 Âm vị Tín hiệu tiếng nói tín hiệ ƣơ g ƣợc mô tả âm vị h ng biểu diễn cho thông tin v mặt ngôn h Nhƣ y, âm vị ị nhỏ nh t c a ngôn ng , tùy theo t ng loại ngôn ng cụ thể mà số ƣợng âm vị nhi u hay ( hƣờng vào khoảng t 20 dến 30 âm vị) Các âm vị ƣợc chia làm hai loại, nguyên âm phụ âm a Nguyên âm Nguyên âm âm h h h ƣợc tạo s cộ g hƣởng c a dây hi ò g hí ƣợc môn ẩy lên, khoang miệ g ƣợc tạo l p thành nhi u hình dạng nh ịnh tạo thành nguyên âm khác Số ƣợng nguyên âm phụ thuộc vào t ng loại ngôn ng nh ịnh 10 Luận văn thạc sỹ kỹ thuật máy tính truyền thông Tính toán ó Q(’, ) c ại công th c (3.5.27)-(3.5.29), (3.5.34) (3.5.35) ƣợc t ’ Thay h ộ iểm t i hạn c a P(O|) h ƣợc 3.5.3 Phân cụm ngữ cảnh dựa định Trong tiếng nói liên tục, chuỗi tham số c thể h y ổi theo ng âm bối h Để quản lý biế h phụ thuộc ng hƣ h h riph e / ị tiế g ói ặc thù có ộng thích hợp, mô hình i ph e hƣờ g ƣợc s dụng Trong hệ thống tổng hợp tiếng nói d a HMM, s dụ g ph c tạp hơ hó ph e â é h g g i iệu ngôn ng họ â ể h h hó hƣ r ị tiếng nói ụm trọng âm, t loại, í h ă g i r g ặc iểm ng âm thích hợp Tuy nhiên, chuẩn bị ƣợc d liệu hu n luyện mà có t t ị phụ thuộc ng cảnh, có s h y ổi r t l n tần su t xu t c a vị phụ thuộc ng h Để giảm b t v ƣợ này, kỹ thu t nghị phân cụm trạng thái HMM chia sẻ tham số mô hình số trạng thái cụm a Cây định Một ví dụ v quyế ịnh hình 3.10 Cây nhị phân Mỗi nút (ngoại tr nút lá) có câu hỏi i ến ng h silence? L-vowel?, nút câu trả lời “ye ” Các nút có phân bố xác su d a quyế xuống bắ ” h â rả lời ầu Bằng cách s dụng phân cụm ng cảnh ịnh, tham số mô hình c cảnh vô hình h “ hƣ R- ị tiếng nói cho bối ƣợc, b t kỳ ng cảnh t i mộ r g ú i ầu t nút gốc l a chọn nút phụ thuộc vào câu trả lời v bối cảnh 84 Luận văn thạc sỹ kỹ thuật máy tính truyền thông Phân cụm Các HMM phụ thuộc bối cảnh Hình 3.10: Một ví dụ quyế ịnh b Xây dựng định S dụ g i u kiệ ộ dài mô tả tối thiể (MDL) ể xây d ng quyế ịnh U (S1, S2 … SM) Gọi S0 nút gốc c a quyế t p nút {S1, S2 … SM} Ở ây quyế G i ƣợc cách kết hợp hú g ƣợc phân loại thành nút Sm gán cho t t nút Sm Ví dụ c a quyế giảm chi phí tính toán Có giả ị h h h h ột mô hình t p hợp c a nút c a ịnh Một hàm phân bố xác su t Gaussian Nm h vài hàm phân bố xác su ị h ghĩ ịnh ịnh v i M=3 r ƣợc h h 3.10 Để ây: Các xác su t chuyển tiếp c a HMM bỏqua tính toán c a hàm phụ c a likehood Phân cụm ng cảnh không thay ổi khung trạng thái biên gi a d liệu mô hình Hàm phụ logarit c a khả ă g ối v i khả ă g ó hể cho tổng c a logarit khả ă g ối v i khung d liệu có trọ g ƣợng xác su t trạng thái chiếm chỗ cho trạng thái 85 Luận văn thạc sỹ kỹ thuật máy tính truyền thông T giả ịnh, hàm phụ ( ) ây μm ( ) ∑∑ ∑∑ c a logarit khả ă g ( ( ( )( a mô hình U cho ) ) ( ) | Σm vector trung bình ma tr n hiệp phƣơ g | i ( ) ) ( ) a hàm phân bố xác su t Gaussian Nm nút Sm ƣơ g ng Nế ƣ c tính tham số HMM EM ƣợc tiế h h ầy cách s dụng thu ƣ c tính iểm hội tụ gâ ( )( ∑ Và ma tr n hiệp phƣơ g Có thể h ƣợ Nhƣ i ƣợc ú g ởi ∑ ∑ , ma tr n hiệp phƣơ g )( ( ) i ƣợc giả s ma tr ( )( ) y, hàm phụ ( ) ( ) ( ) ƣờng chéo, ) ∑ ( ) c a logarit khả ă g a mô hình U ( )( | h y ổi hƣ: ( ) S dụ g ∑∑ ( ) ( ) |)( ) ( ) g hƣ (3.5.40) ộ dài mô tả c a mô hình U cho ( ) ( ) ∑ ây |) ∑ ( ), c a vector quan sát, ( ( ) | ( ) xác su t trạng thái chiếm chỗ nút Sm, L chi u ∑ , C chi u dài mã yêu cầ ó ó ƣợc giả s số 86 ể l a chọn mô hình Luận văn thạc sỹ kỹ thuật máy tính truyền thông Hình 3.11: Phân nhóm nút c a quyế ịnh Giả s nút Sm c a mô hình U ƣợc chia làm nút, Smqy Smqn, cách s dụng câu hỏiq (hình 3.11) Gọi U’ h h h ƣợc việc chia nhỏ Sm c a mô hình U câu hỏi q Độ dài mô tả c a mô hình U’ ƣợc tính toán là: ( ) ( | |) ( | ∑ ( (3.5.44) |) (3.5.45) ( | ) |) (3.5.46) ( ây ố nút c a U’ M+1, ) xác su t trạng thái chiễm chỗ ma tr n hiệp phƣơ g i a hàm phân bố xác su t Gaussian nút Smqy Smqy ƣơ g ng V y vi phân gi ộ dài mô tả rƣ c sau chia nhỏ là: ( ) ( ( ) ( ) | (3.5.48) | | | | |) (3.5.49) (3.5.50) Bằng cách s dụng vi phân , t Qua trình xây d ng quyế ị h ƣợc mô tả hƣ 87 ộng xây d ng quyế : ịnh Luận văn thạc sỹ kỹ thuật máy tính truyền thông Hình 3.12: Xây d ng quyế Đị h ghĩ ịnh d a MDL h h hởi tạo U hƣ U = {S0} Tìm nút S ’ mô hình U câu hỏi q’ ó ( ) Kết thúc ( ) Nếu ( )nhỏ nh t , d ng việc chia nhỏ nút Hình 3.12 Chia nhỏ nút S ’ cách s dụng câu hỏi q’ thay U v i t p hợp nút kết Quay lại ƣ c 3.5.4 Mô hình hóa tân số F0 sử dụng MSD-HMM Chuỗi quan sát c a m u F0 ƣợc xem giố g hƣ ầu t không gian chi c ột chuỗi hỗn hợp Ω1 không gian chi Ω2 ƣơ g ng v i vùng h u vô Mỗi không gian có số không gian ( chi u N1(x) Mặ ) Kh h g gi Ω1 có hàm m h g gi Ω2 có m ộ xác su h g hƣờng iểm Một o quan sát F0 gồm biến ng u nhiên liên tục x t p hợp số không gian X, có o = (X, x) ây X = {1} quan sát c a o ƣơ (3.5.51) i vùng h u X = {2} cho vùng vô Xác su t ị h ghĩ ởi ( ) ∑ ( ) ây V(o) = x S(o) = X 88 ( ( )) (3.5.51) Luận văn thạc sỹ kỹ thuật máy tính truyền thông S dụng mộ HMM r g ó xác su ầu trạ g h i ƣợc cho công th c (3.5.52), gọi MSD-HMM (hình 3.9), quan sát h u vô c a F0 ƣợc mô hình hóa mô hình hợp nh t b t kỳ giả ị h r Hơ a, phổ F0 mô hình hóa lúc g r g ó phần phổ ƣợc mô hình hóa phân bố xác su t MSD-HMM liên tục, phần F0 ƣợc mô hình hóa MSD (hình 3.13) Trong hình, ct, ƣơ g ng vector tham số phổ, t p số không gian c a F0, tham số F0 thời iểm t ƣơ g ∆2 ƣơ g ng tham số delta delta-delta g ∆ Luồng Phân bố xác su t liên tục Phần phổ Luồng Phân bố xác su Luồng Phân bố xác su Luồng Phân bố xác su Phần F0 h g gi h g gi h g gi Hình 3.13: Vector quan sát 3.6 Chƣơng trình thử nghiệm 3.6.1 Mô hình thử nghiệm Yêu cầ chuỗi ă ặt th c tổng hợp tiếng nói v i d liệ ản g e ầ r h ƣợc tiếng nói T ó ó ầu vào h h hệ thống tổng hợp d a mô hình HMM hƣ h h 3.1 3.6.2 Phân tích mô hình Mô hình tổng hợp hệ thống gồm phần: phần hu n luyện phần tổng hợp a Phần huấn luyện Mục tiêu c gi i ạn hu n luyện tạo mộ h h gƣời nói các thông số d liệu l n c a tiếng nói, có cú pháp âm vị ã ƣợc gán nhãn ó ƣợc hu n luyện hệ thống v i tham số 89 Luận văn thạc sỹ kỹ thuật máy tính truyền thông Phâ - Việ ạn gán nhãn ồng h ầ vị có ch a tín hiệ i g h h khung c a lời ói ƣợ Thƣờng mộ hi ộ dài tín hiệu số ƣợng âm ƣơ g ng C ặt mộ e h g ƣợc triết xu t t ến 5ms V i h h toán Baum-Welch, c r phâ y í h ă g ƣợc trích rút r ặc tính khung e r ặc tính thu t ó ƣợc hu n luyện s dụng tiếng nói g d liệu tiếng nói - Các mô hình monophone V i việc lặp lại áp dụng thu t toán Baum-We h ể hu n luyện mô hình v i h e r ặc tính mô hình t âm vị phụ thuộc nội g ƣợc Một mô hình s dụng trạng thái phát, ó ại diện cho trạng thái bắ ã ầu, gi a kết thúc c a âm vị ƣơ g g hƣ ng tiếp c n công việc Cộng thêm nút bắ ầu kết thúc không chuyển tiếp(không phát) ƣợ g rƣ g h y ũ g ƣợc s dụng ƣờng biên c a mô hình ƣợc bỏ qua kết nối mô hình giố g hƣ hú g h g ph r e r ặc tính C u trúc h h ƣợc l a chọn HMM t trái qua phải theo th t ký t thời gian c a phần âm vị bên Có thể có ngoại lệ.Tuy nhiên, chuyển tiếp t ến trạng thái th ƣợc gi i thiệ th nh qua trạng thái gi Đi trạng thái ể rút ngắn âm vị cách bỏ y hƣờ g ƣợc ng dụng cho âm câm ể mô hình hóa âm câm ngắn cành tốt Hình 3.14 cho th y mô hình trạng thái t trái sang phải v i chuyển ổi t chọn xác su t chuyể C h h ộc l p ng cảnh ƣợc dùng cho tổng hợp tiếng nói Hình 3.15: HMM trạng thái t trái qua phải v i chuyể - ổi t chọn Các mô hình triphone Nế d liệ l n nên tinh h h h ộc l p bối cảnh thành mô hình phụ thuộc bối cảnh Các mô hình sau ƣợc kh p nối vào cung 90 Luận văn thạc sỹ kỹ thuật máy tính truyền thông g i c p thông số âm “o” r g “ r h y cho tổng hợp Ví dụ phát âm “l” khác gi a e ” i âm “I” “I i i ” M h h riph e mô hình hóa phone v i mô hình trạng thái t trái qua phải.Tuy nhiên, có nh ng mô hình khác cho phone giố g h hƣ g ng cảnh khác nhau.Nh ng bối cảnh biến thể khác ƣợc th c hiện.Ở ây nh ng mô hình hàng xóm t trái sang phải (chỉ ị h ƣơ g ng v i + -) ƣợ h ƣơ g ng v i mô hình vào tính toán mô hình phụ thuộc ng i í h ă g h triphone Tuy nhiên, mộ ƣ buộc, ví dụ t biên ƣợc xem xét V i việc chia nhỏ, số ƣợ g h h ă g Để khắc phục v này, mô hình trạng thái c gắn lại Nếu trạng thái c a mô hình hoặ hơ ộ í h hƣ c d liệu ể kiển soát t t mô hình xu t hiệ tiếng nói r t l nhi g ể gƣỡ g ã ƣợ cụ thể, v y t t hú g ị h ghĩ ầy ể hu n luyện tốt hú g ƣợc nhóm mô hình không khác hú g ó hể ƣợc chia sẻ trạng thái ƣợc hu n luyện chúng xu t t p hu n luyện Một ví dụ, trạng thái gi a c a mô hình triphone c a âm “l” gi a t “a” t “e” Nếu trạng thái gi a c a mô hình nhóm ƣợc hu n luyện lúc trạ g h i ầu tiên th ƣợc hu n luyện v i t ƣơ g ng mô hình Hình 3.16 thể ví dụ c a mô hình phụ thuộc bối cảnh phân nhóm c a âm l b Pha tổng hợp Tổng hợp tiếng nói v i h h ã ƣợc hu n luyện ƣợc chia làm phần Đầu tiên vector ặc tính cho chuỗi phone ƣợ ƣ c tính.Th e âm C ă r ặ ả í h ã ƣợ ƣ c tính chuyể ổi thành tín hiệu ƣợc tổng hợp ƣợc viết thành dạng phiên âm khoảng c a âm vị tần số ản c a Phiên âm phục vụ việc l a chọn mô h h r hƣ ƣợng tham số tần số ản cần thiế tín hiệu âm 91 ể tổng hợp Luận văn thạc sỹ kỹ thuật máy tính truyền thông h h riph Hình 3.16: Phân nhóm c e ƣơ g ng v i s khác c a âm “l” Ƣớc tính tham số - Ƣớc tính chuỗi trạng thái H iƣ í h ể l y chuỗi trạ g h i ƣợc áp dụng.Tổng chi u dài c a ph e ƣợc hiểu v i phi â Đầu tiên, trạng thái c a mô hình phone phù hợp v i phiên âm ƣợc trải tổng chi u dài c a phone Số ƣợng ầu, gi a kế hú trạng bắ chuyể ƣợc tính toán việ h hƣờng xác su t ổi c a chúng chia cho tổ g ộ dài c a âm vị xác su t thông hƣờng Th 2, hỗn hợp tốt nh t cho trạng thái chuỗi ƣợc chọ ƣ c tính tham số ặc tính L a chọn hỗn hợp riêng biệ ể ể th c giảm tính toán ph c tạp thời iểm – thu t toán thích nghi – gi mộ ƣờng cong phân bố chi tiết c e ặc tính Chuỗi trạ g h i ƣợc thiết l p r ặc tính ƣợc thiết l p Ƣớc tính vector đặc tính Trƣ i e r ặc tính phải ƣợc mô tả chi tiế hơ Giả s hệ số Me Fre e y Cep r (MFCC ) tính, e r ặ ạo hàm c hú g ƣợc s dụ g hƣ ặc í h ối v i khung t ƣợc viêt là: ot=[ct’, Δct’, Δ2ct’]’, 92 Luận văn thạc sỹ kỹ thuật máy tính truyền thông ây ct = [ct(1), ct(2), …, ct(M)] vector v i M hệ số MFCC ầ i Δnct ạo ( ) hàm b c n tính theo công th c: ∑ () ây L0=0, w0(0)=1 e T t r ặc tính ƣợc th c v i vector l n O = [o1’, o2’,…, oT’]’ ƣơ g t t vector MFCC ƣợc thể vector l n C = [c1’, c2’,…, cT’]’ Ở ây T iểu thị cho toàn số trạng thái phần tổng hợp Sẽ có: O = W*C Để ƣ í h e (3.6.2) r ặc tính tốt nh t P(O|q*,λ,T) tối xác su t c a chuỗi e hó Đây hí h r ặc tính O cho chuỗi trạ g h i ƣ c tính q* ( | ) ( ) Việc tính toán (3.6.3) th c - Tổng hợp âm C e r MFCC ã ƣ ƣ c tính cho phép tổng hợp tín hiệu âm Cuối lọc tổng hợp ƣợc th c Bộ lọ hƣờ g ƣợc s dụng nh t MLSA.Cùng v i nguồn tin kích thích t tần số ả gƣợc lại t phổ ại diện c a chúng S ó í hiệ â MFCC ƣợc tính h h ƣợc tao d a tổng hợp phổ 3.6.3 Festival ứng dụng tổng hợp tiếng nói Hệ thống mô th nghiệm việc tổng hợp tiếng nói d a mô hình HMM s dụng hệ thống mã nguồn mở festival v i: - Đầu vào: chuỗi text hoặ fi e ă - Đầ r : â ản h h ƣợc tổng hợp ƣ i dạng file wav Hệ thống festival hệ thống tổng hợp tiế g ói ƣợc phát triể ầu tiên Alan Black Paul Taylor trung tâm nghiên c u speech techonology c a rƣờ g ại học Edinburgh.Festival cung c p cho framework chung 93 Luận văn thạc sỹ kỹ thuật máy tính truyền thông cho việc xây d ng hệ thống tổng hợp tiếng nói Nó hỗ trợ ngôn ng : Anh, r Anh Mỹ Tây Ban Nh g ó iếng A h ƣợc hỗ trợ tốt nh t Festival mã nguồn mở ƣợc viết hoàn toàn c++ v i nh g ặc iểm b t sâu: - Tích hợp hệ thống HTS_engine: hệ thống tổng hợp tiếng nói d a mô hình Markov ẩn - Là hệ thố g g g - Cho phép tổng hợp tiế g ói ƣ i dạng sóng - Hoàn toàn c u hình mở rộng d a module c a hệ thống - Hỗ trợ gcc 4.3, 4.4 4.5 nên dễ dàng biên dị h r i rƣờng windows d a vào công cụ cygwin Hệ thống fe i ƣợc xây d ng d a mô hình HMM nhờ việc tích hợp hệ thố g HTS_e gi e M ƣợc thể rõ module hệ thống festival: e : “fe i \ i ” Tại ây h a toàn d liệu database tổng hợp tiếng nói festival\src\modules: ây ch a toàn mã nguồn x lý tổng hợp tiếng hƣơ g r h r g ó: nói c a M e : “h _e gi e”: Th c việc tổng hợp tiếng nói b Các modules khác th c việc hu n luyện nhờ vào database c a hệ thống Speech_tools: công cụ giúp tạo âm file wav c a hệ thống Tại thời iể trình th c hiệ ầu, chuỗi e h Thiết l p thông số c ƣợc truy hƣơ g r h Chƣơ g ây: hƣơ g r h he h ố truy - Chƣơ g r h hạy server hay client, cổng bao nhiêu, - Chế ộ tạ fi e ầ r â - hƣ: h h hƣ ịnh dạng file file riff, wav, … hế ộ tạo file: viết, update, Thông số cho khung 94 Luận văn thạc sỹ kỹ thuật máy tính truyền thông - Độ vênh c a tham số alpha - Khởi tạo gama, beta - Kí h hƣ c ệm cho âm - Ngƣỡng MSD - Trọng số cho hàm nội suy Trọng số GV Phâ ạn gán nhãn v i d liệ ầ : Phâ ƣợng âm vị có ch a chuỗi h h S í h ại h g i ƣ Tính toá Lƣ fi e ầ r S r i g y f ƣ i dạng quyế e ịnh e ầu r ặc tính ƣ i dạng file trace ại tham số phát sinh ƣ i dạng file riff ó hợp âm t file riff tham số ầu vào ƣ c Dƣ i ây “g ầ r d liệu liệu, hƣơ g r h ải lại nhãn c vào tạo luồng trạ g h i Lƣ ƣơ g ng Và gán nhãn h h phụ thuộc ng h ƣợc thể hiệ hi ã phâ ộ dài chuỗi số ịnh d a thu t toán Baum-We h Xây d ng quyế Ở ây hi i i yf r h i y” r ây hỉ truy i y” ò ầ h hƣơ g r h V ây y ết chạy hƣơ g r h i ạn text “g r i g ố khác ƣợc thiết l p cách mặ ịnh g hƣơ g r h hƣ h hƣơ g r h : h ỗi e i ạo tùy chọn tts.Tùy chọn cho biết 95 Luận văn thạc sỹ kỹ thuật máy tính truyền thông ƣợc hàm ch rằng, câu lệnh (command line) chỉnh s r g hƣơ g r h a Khi chạy h h g hƣơ g r h h ƣợc files wav riff Ta hoàn toàn chạy file wav hệ i u hành mộ Tín hiệ family” ă g h ƣ i dạng sóng quang phổ c h hƣờng ă ả “good morning my hi hợp hƣ h h: Hình 3.17: Dạng sóng tiếng nói tổng hợp c f ă ả “g r i g y ả “g r i g y i y” Hình 3.18: Dạng phổ tiếng nói tổng hợp c f i y” 96 ă Luận văn thạc sỹ kỹ thuật máy tính truyền thông KẾT LUẬT Mô hìnhMarkov ẩn mô hình thống kê toán học, nhiên có r t nhi u ng dụ g r g sinh họ g h h ể tính toán d h ù g hƣ: X lý tiếng nói, ng dụng g ã r ột trình t ge e… Tr gi i có r t nhi u nhà nghiên c ã ng dụng mô hình Markov ẩn tổng hợp tiếng nói Tuy nhiên, Việ N ây nhi u v ột v ò g ƣợc nghiên c u, cần quan tâm V i mục tiêu nghiên c u v mô hình Markov ẩn ng dụng mô hình Markov ẩ ể tổng hợp tiếng nói Tr g i y i ã ghi u lý thuyết chung v x lý tiếng nói, mô hình Markov ẩn ng dụng tổng hợp tiếng nói, th c th c nghiệm việc tổng hợp tiếng nói hệ thống Festival Trong lu ă y i ã ạt ƣợc số kết sau: Nghiên c u v tiếng nói mô hình tiếng nói Lu kiến th ản v y ph â ă ã r h ầy ặc tính âm học mô hình tạo tiếng nói Nghiên c phƣơ g ph p hợp tiếng nói Nghiên c u mô hình Markov ẩn ng dụng tổng hợp tiếng nói Nghiên c u xây d ng hệ thống tổng hợp tiếng nói d a hệ thống mã nguồn mở Festival v i toolkit HTS Hƣ ng phát triển: Nghiên c u mô hình tổng hợp d a Markov ẩn ng dụng cho tổng hợp tiếng Việt có ch ƣợng cao Hoàn thiện Module tổng hợp cho tiếng Việt 97 Luận văn thạc sỹ kỹ thuật máy tính truyền thông TÀI LIỆU THAM KHẢO Lawrence R.Rabiner, Ronald W.Schafer (1978), Digital processing of speech signals, Prentice Hall Przemyslaw Dymarski (2011), Hidden Markov Models, Theory and Applications K.Tokuda, H.Matsumura, T.Kobayashi, Speech coding based on adaptive melcepstral analysis, Australia, April 1994 J.Yamagishi An introduction to HMM-based speech systhesis, Tokyo Institute of Technology, October 2006 Trị h Vă L (1998) C ài giảng v x lý tiế g ói Đại học Bách khoa Hà Nôi Nguyễn Quốc Trung (2001), X lý tín hiệu lọc số, nhà xu t khoa học kỹ thu t HTK (2012), Hidden Markov model toolkit http://htk.eng.cam.ac.uk HTS (2012), HMM-based speech systhesis system http://hts.sp.nitech.ac.jp Festival (2012) The Festival speech systhesis system.http://www.cstr.ed.ac.uk 10 Dƣ Th nh Bình (2001), Dò tìm tần số ản x lý tiế g ói Đ i Học Bách Khoa Hà Nội 98 ... phƣơ g ph p g ƣợc s dụng gi i Chƣơ g 3: Mô hình Markov ẩn ng dụng tổng hợp tiếng nói Chƣơ g y trình bầy lý thuyết v mô hình Markov ẩn, ng dụng tổng hợp tiếng nói ng dụng tổng hợp hệ thống mã nguồn... a mô hình Markov ẩn 46 3.2 Tổng quan mô hình Markov 48 3.2.1 Quá trình Markov .48 3.2.2 Mô hình Markov ẩn 49 3.3 B i ản c a mô hình Markov ẩn 52 3.4 Tổng hợp. .. g ph p hợp khác cần thiết Do v y chọ phƣơ g ph p hợp theo mô hình Markov ẩ Trong lu ă hƣ ng nghiên c u y i r h ầy v ản v mô hình Markov ẩn, giải pháp ng dụng mô hình Markov ẩn vào tổng hợp tiế