1. Trang chủ
  2. » Luận Văn - Báo Cáo

Mô hình markov ẩn và ứng dụng vào tổng hợp tiếng nói

98 26 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 98
Dung lượng 3,04 MB

Nội dung

Luận văn thạc sỹ kỹ thuật máy tính truyền thông LỜI CAM ĐOAN T i i hƣ g ih hầy giáo PGS.TS.Tri h Vă L ghiệ ố iệ hƣ g ƣợ C hố g ế ả r h i iệ h h ảy r r h hiệ i rƣ g ế ă h g ă ƣợ gý r iếp ƣợ h g ú g hƣ h Việ Nh rƣờ g g ời ƣ i ả ghi h r g h g r h ụ g r ) h ặ i Nh y r g g ố r g i iệ Nế h i ghi g ( ó ả g giả r i i Hà Nội, ngày 26 tháng 08 năm 2013 Tác giả Nguyễn Quang Sức hị Luận văn thạc sỹ kỹ thuật máy tính truyền thơng LỜI CẢM ƠN Để hồn thành khóa luận này, tơi xin tỏ lịng biết ơn sâu sắc đến thầy PGS.TS Trịnh Văn Loan tận tình hướng dẫn tơi suốt q trình viết khóa luận tốt nghiệp Tơi xin chân thành cảm ơn quý Thầy, Cô Viện Công nghệ Thông tin & Truyền thông, Trường Đại học Bách khoa Hà Nội tận tình truyền đạt kiến thức thời gian học tập nghiên cứu Với vốn kiến thức tiếp thu trình học tập nghiên cứu khơng tảng cho q trình nghiên cứu khóa luận mà cịn hành trang q báu để bước vào đời cách vững tự tin Tôi thầm biết ơn ủng hộ đồng nghiệp, gia đình bạn bè – người thân yêu chỗ dựa vững cho tơi Cuối cùng, tơi xin kính chúc Q Thầy cơ, Đồng nghiệp, Gia đình dồi sức khỏe thành công nghiệp cao quý Xin trân trọng cảm ơn! Học viên Nguyễn Quang Sức Luận văn thạc sỹ kỹ thuật máy tính truyền thơng MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ LỜI NÓI ĐẦU CHƢƠNG TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI 1.1 Mở ầu 1.2 Bộ máy phát âm 1.2.1 Bộ máy phát âm 1.2.2 Cơ chế phát âm 1.3 Đặc tính âm học c a tiếng nói 1.3.1 Âm hữu âm vô 1.3.2 Âm vị 10 1.3.3 Các đặc tính khác .11 1.4 Mơ hình tạo tiếng nói 12 1.5 Phân tích tiếng nói 17 1.5.1 Mơ hình phân tích tiếng nói .17 1.5.2 Phân tích tiếng nói ngắn hạn 18 1.6 Phân tích Mel-Cepstral 19 1.6.1 Tạo tiếng nói từ mơ hình thời gian rời rạc .19 1.6.2 Phân tích Mel-Cepstral 20 1.6.3 Bộ lọc MLSA (Mel Log Spectral Approximation) 22 CHƢƠNG TỔNG HỢP TIẾNG NÓI 27 2.1 Gi i thiệu chung .27 2.2 C phƣơ g ph p ổ g hợp iế g ói 28 2.2.1 Tổng hợp theo cấu trúc âm .28 2.2.2 Tổng hợp formant theo quy luật .31 2.2.3 Tổng hợp ghép nối 33 Luận văn thạc sỹ kỹ thuật máy tính truyền thơng CHƢƠNG MƠ HÌNH MARKOV ẨN VÀ ỨNG DỤNG TỔNG HỢP TIẾNG NÓI 46 3.1 Tổng quan hệ thống tổng hợp tiếng nói d a mơ hình Markov ẩn 46 3.2 Tổng quan mơ hình Markov 48 3.2.1 Quá trình Markov .48 3.2.2 Mơ hình Markov ẩn 49 3.3 B i ản c a mơ hình Markov ẩn 52 3.4 Tổng hợp tiếng nói d a mơ hình Markov ẩn 63 3.4.1 Tạo thơng số tiếng nói từ HMM .63 3.4.2 Ví dụ tạo chuỗi tham số .67 3.4.3 Hệ thống tổng hợp văn thành tiếng nói dựa HMM 72 3.5 Mơ hình hóa tạo tần số ản cách s dụng phân bố xác su không gian 74 3.5.1 Phân bố xác suất đa không gian 74 3.5.2 HMM dựa xác suất phân bố đa không gian 76 3.5.3 Phân cụm ngữ cảnh dựa định 84 3.5.4 Mơ hình hóa tân số F0 sử dụng MSD-HMM 88 3.6 Chƣơ g r h h nghiệm 89 3.6.1 Mơ hình thử nghiệm 89 3.6.2 Phân tích mơ hình 89 3.6.3 Festival ứng dụng tổng hợp tiếng nói 93 KẾT LUẬT 97 TÀI LIỆU THAM KHẢO 98 Luận văn thạc sỹ kỹ thuật máy tính truyền thơng DANH MỤC CÁC TỪ VIẾT TẮT FFT Fast Fourier Transform FIR Finite Impluse Response FT Fourier Transform HMM Hidden Markov Model LPC Linear Predictive Coding MFCC Mel frequency cepstral coefficient PDFs Probability density functions MSD-HMM Multi-space probability distribution HMM MLSA Mel log spectral approximation EM Expectation-maximzation TTS Text to speech Luận văn thạc sỹ kỹ thuật máy tính truyền thơng DANH MỤC CÁC HÌNH VẼ Hình 1.2: Bộ máy phát âm c gƣời 10 14 14 16 16 16 20 21 25 29 29 47 46 50 51 Hình 1.4: Mơ hình hóa nguồ â ối v i âm h u H h 1.5: Ch ỗi ố g â họ ý ƣở g Hình 1.5a: M h h ý họ gi ố g +1 Hình 1.5b: M h h họ ộ gố g h Hình 1.6c: Mơ h h hệ hố g ph â Hình 1.6: Phâ í h í hiệ r h g hù h H h 1.6.1: Tạ iế g ói h h hời gi rời rạ H h 1.6.3: Th hi h r y ũ D(z) h h 2.2 : C H h 2.2 : C rú ả rú ả ộ ộ ổ g hợp f r ộ ộ ổ g hợp f r Hình 3.1:Hệ hố g ổ g hợp iế g ói Hình 3.2: Ví ụ ộ h hM r ẩ r i ối iếp g g HMM rạ g h i Hình3.3.1: Mi ả ãy phép ƣợ h hiệ ể í h iế t (i) Hình3.3.2: Mi ả ãy phép ƣợ h hiệ ể í h iế t(i) Hình 3.3.3: Mi ả phép í h ầ hiế ể í h t(i, j) Hình 3.4: Tổ g hợp h ả g hời gi Hình 3.5: Phổ iế g ói ƣợ HMM Hình 3.6: Mơ hình hị F0 r h g gi Hình 3.7: Phâ ố h g gi Hình 3.8: Mộ HMM r phâ ố h g gi Hình 3.9: M F0 mơ hình hóa khơng gian chiêu Hình 3.10: Mộ í ụ ây yế ị h Hình 3.11: Phâ hó ú ây yế ị h H h 3.12: Xây g ây yế ị h r MDL Hình 3.13: Vector quan sát H h 3.14: Hệ hố g ổ g hợp iế g ói r h h HMM Hình 3.15: HMM rạ g h i r i phải i h yể ổi họ H h 3.16: Phâ hó h h riph e ƣơ g g i h â “” h 54 66 70 74 77 78 84 85 88 89 90 91 92 93 Luận văn thạc sỹ kỹ thuật máy tính truyền thơng LỜI NĨI ĐẦU Tổng hợp tiếng nói ĩ h ƣợc r t nhi hƣ có r t nhi u ng dụng th c tế g ă viễ gƣời nghiên c u quan tâm, hệ thống trả lời t ộ g ọc nội ản, máy phiên dịch, hệ thống trợ giúp gƣời tàn t t, ng dụng h g…Tuy nhiên việc ng dụng nghiên c u Việ N ò ƣơ g ối m i r t hạn chế Tổng hợp tiếng nói th c theo nhi phƣơ g ph p hƣ: Tổng hợp theo c u âm, tổng hợp formant theo quy lu t, tổng hợp cách ghép âm Tuy hi phƣơ g ph p u có nh ng ƣ hƣợ iểm, v y việc tìm phƣơ g ph p hợp khác cần thiết Do v y chọ phƣơ g ph p hợp theo mơ hình Markov ẩ Trong lu ă hƣ ng nghiên c u y i r h ầy v ản v mơ hình Markov ẩn, giải pháp ng dụng mơ hình Markov ẩn vào tổng hợp tiế g ói Để th c ƣợc cơng việc th c nhiệm vụ sau:  Tìm hiểu ngun lý, mơ hình tạo tiếng nói  Nghiên c u lý thuyết x lý tiếng nói mơ hình Markov ng dụng  Tìm hiểu toolkit HTS hệ thống mã nguồn mở fe i ể ng dụng vào tổng hợp tiếng nói Lu ă ƣợ hi h h hƣơ g i nội dung sau:  Chƣơ g 1: Tiếng nói x lý tiếng nói.Chƣơ g v tiế g ói y r h ầy v hế tạo tiế g ói ũ g hƣ hình tạo tiêng nói, kỹ thu t phân tích tiếng nói  Chƣơ g 2: Tổng hợp tiếng nói Chƣơ g tổng hợp tiế g ói ã y r h bầy số phƣơ g ph p g ƣợc s dụng gi i  Chƣơ g 3: Mơ hình Markov ẩn ng dụng tổng hợp tiếng nói Chƣơ g y trình bầy lý thuyết v mơ hình Markov ẩn, ng dụng tổng hợp tiếng nói ng dụng tổng hợp hệ thống mã nguồn mở Festival Luận văn thạc sỹ kỹ thuật máy tính truyền thơng CHƢƠNG TIẾNG NĨI VÀ XỬ LÝ TIẾNG NĨI 1.1 Mở đầu Tiếng nói mộ phƣơ g iệ ƣợc tạo t ƣ y r ổi thông tin c gƣời Tiếng nói gƣời: trung tâm thần i h i u khiển hệ thông phát âm làm việc tạo âm Tiế g ói ƣợc phân biệt v i hệ thống âm khác học có nguồn gốc t h g hí ó ặc tính âm hế tạo tiếng nói V ch t, tiếng nói s g he h g i C ộng tạo thành áp l ộng c a ến tai ƣợc tai phát hiện, phân tích chuyển kết ến trung khu thần kinh Tại ây h g i ƣợc tái tạo lại ƣ i g h g i gi gƣời hiể ƣợc Tín hiệu tiế g ói ƣợc tạo thành chuỗi âm vị liên tiếp,s xếp c a âm vị ƣợc chi phối quy tắc c a ngôn ng Việc nghiên c u cách chi tiết v quy tắc thuộc v chuyên ngành ngôn ng Việc phân loại âm vị c a tiếng nói thuộc v chuyên ngành ng âm học Khi nghiên c u mơ hình tốn học c hế tạo tiếng nói, việc nghiên c u v âm vị r t cần thiết 1.2 Bộ máy phát âm 1.2.1 Bộ máy phát âm Bộ máy phát âm bao gồm thành phần riêng rẽ hƣ phổi, khí quản, ƣờng d ũi iệ g Tr g ó: - Thanh quản ch a dây - Tuyến âm ố g h g - Kh g ũi ố g h g dài cố ịnh khoảng 12 - u bắ ộng tạo âm ầu t môn kết thúc môi ầu t mơi, kết thúc vịm miệ g ó ộ u bắ ối v i gƣời l n Vòm miệng nếp h yể ộng Luận văn thạc sỹ kỹ thuật máy tính truyền thơng gƣời Hình 1.2: Bộ máy phát âm c 1.2.2 Cơ chế phát âm â Trong q trình tạo âm khơng phải ũi ó g ại, dịng khí i th p dịng khí i h h g g ũi ũi.Khi ph ò iệng mở, khoang â ũi ò iệng hạ ũi Tuyến âm ƣợc kích thích nguồ Tiế g ói ƣợc tạo tín hiệu nguồn t ă g ƣợng mơn h h ph r ẩy khơng khí có phổi lên tạo thành dịng khí, va chạm vào hai dây tuyến âm Hai ây h h tuyế â ộng tạo cộ g hƣởng, hi i h g ũi ộng âm ƣợc lan truy n theo i ẽ tạo tiếng nói 1.3 Đặc tính âm học tiếng nói 1.3.1 Âm hữu âm vô a Âm hữu Âm h u h h ƣợc tao t dây bị ă g ồng thời chúng rung ộng chế ộ dãn khơng hí ă g h h mơn xẹp xuống khơng khí chạy qua ó h h Luận văn thạc sỹ kỹ thuật máy tính truyền thông Do s cộ g hƣởng c a dây thanh, sóng âm tạo có dạng tuần hồn gần hƣ ần hoàn Phổ c a âm h u có nhi u thành phần hài giá trị bội số c a tần số cộ g hƣởng, cịn gọi tần số ản b Âm vơ Khi tạo âm vô dây không cộ g hƣởng Âm vơ có loại ản âm xát âm tắc Âm xát (ví dụ hƣ â ): ƣợc tạo có s co thắt i iểm iểm co thắt chuyển thành chuyể ộng hỗn loạn tuyế â Kh g hí hi i tạo nên kích thích giố g hƣ hiễu ng u nhiên Th g hƣờ g iểm co thắt xẩy gần miệng nên s cộ g hƣởng c a tuyến âm ả h hƣởng r í ế ặc tính c a âm ƣợc tạo Âm tắc (ví dụ hƣ â p): ƣợc tạo tuyế â cho áp xu t khơng khí tă g ó g ại số iểm làm ó ƣợc giải phó g ột ngột, s giải phóng ột ngột tạo kích thích nh t thời c a tuyến âm S kích thích xẩy v i s cộ g hƣởng không cộ g hƣởng c a dây ƣơ g ng v i âm tắc h u vô 1.3.2 Âm vị Tín hiệu tiếng nói tín hiệ ƣơ g ƣợc mô tả âm vị h ng biểu diễn cho thông tin v mặt ngôn h Nhƣ y, âm vị ị nhỏ nh t c a ngôn ng , tùy theo t ng loại ngôn ng cụ thể mà số ƣợng âm vị nhi u hay ( hƣờng vào khoảng t 20 dến 30 âm vị) Các âm vị ƣợc chia làm hai loại, nguyên âm phụ âm a Nguyên âm Nguyên âm âm h h h ƣợc tạo s cộ g hƣởng c a dây hi ị g hí ƣợc môn ẩy lên, khoang miệ g ƣợc tạo l p thành nhi u hình dạng nh ịnh tạo thành nguyên âm khác Số ƣợng nguyên âm phụ thuộc vào t ng loại ngôn ng nh ịnh 10 Luận văn thạc sỹ kỹ thuật máy tính truyền thơng Tính tốn  ó Q(’, ) c ại công th c (3.5.27)-(3.5.29), (3.5.34) (3.5.35) ƣợc  t ’ Thay h ộ iểm t i hạn c a P(O|) h ƣợc 3.5.3 Phân cụm ngữ cảnh dựa định Trong tiếng nói liên tục, chuỗi tham số c thể h y ổi theo ng âm bối h Để quản lý biế h phụ thuộc ng hƣ h h riph e / ị tiế g ói ặc thù có ộng thích hợp, mơ hình i ph e hƣờ g ƣợc s dụng Trong hệ thống tổng hợp tiếng nói d a HMM, s dụ g ph c tạp hơ hó ph e â é h g g i iệu ngôn ng họ â ể h h hó hƣ r ị tiếng nói ụm trọng âm, t loại, í h ă g i r g ặc iểm ng âm thích hợp Tuy nhiên, chuẩn bị ƣợc d liệu hu n luyện mà có t t ị phụ thuộc ng cảnh, có s h y ổi r t l n tần su t xu t c a vị phụ thuộc ng h Để giảm b t v ƣợ này, kỹ thu t nghị phân cụm trạng thái HMM chia sẻ tham số mơ hình số trạng thái cụm a Cây định Một ví dụ v quyế ịnh hình 3.10 Cây nhị phân Mỗi nút (ngoại tr nút lá) có câu hỏi i ến ng h silence? L-vowel?, nút câu trả lời “ye ” Các nút có phân bố xác su d a quyế xuống bắ ” h â rả lời ầu Bằng cách s dụng phân cụm ng cảnh ịnh, tham số mơ hình c cảnh vơ hình h “ hƣ R- ị tiếng nói cho bối ƣợc, b t kỳ ng cảnh t i mộ r g ú i ầu t nút gốc l a chọn nút phụ thuộc vào câu trả lời v bối cảnh 84 Luận văn thạc sỹ kỹ thuật máy tính truyền thơng Phân cụm Các HMM phụ thuộc bối cảnh Hình 3.10: Một ví dụ quyế ịnh b Xây dựng định S dụ g i u kiệ ộ dài mô tả tối thiể (MDL) ể xây d ng quyế ịnh U (S1, S2 … SM) Gọi S0 nút gốc c a quyế t p nút {S1, S2 … SM} Ở ây quyế G i ƣợc cách kết hợp hú g ƣợc phân loại thành nút Sm gán cho t t nút Sm Ví dụ c a quyế giảm chi phí tính tốn Có giả ị h h h h ột mơ hình t p hợp c a nút c a ịnh Một hàm phân bố xác su t Gaussian Nm h vài hàm phân bố xác su ị h ghĩ ịnh ịnh v i M=3 r ƣợc h h 3.10 Để ây: Các xác su t chuyển tiếp c a HMM bỏqua tính tốn c a hàm phụ c a likehood Phân cụm ng cảnh không thay ổi khung trạng thái biên gi a d liệu mô hình Hàm phụ logarit c a khả ă g ối v i khả ă g ó hể cho tổng c a logarit khả ă g ối v i khung d liệu có trọ g ƣợng xác su t trạng thái chiếm chỗ cho trạng thái 85 Luận văn thạc sỹ kỹ thuật máy tính truyền thông T giả ịnh, hàm phụ ( ) ây μm ( ) ∑∑ ∑∑ c a logarit khả ă g ( ( ( )( a mô hình U cho ) ) ( ) | Σm vector trung bình ma tr n hiệp phƣơ g | i ( ) ) ( ) a hàm phân bố xác su t Gaussian Nm nút Sm ƣơ g ng Nế ƣ c tính tham số HMM EM ƣợc tiế h h ầy cách s dụng thu ƣ c tính iểm hội tụ gâ ( )( ∑ Và ma tr n hiệp phƣơ g Có thể h ƣợ Nhƣ i ƣợc ú g ởi ∑ ∑ , ma tr n hiệp phƣơ g )( ( ) i ƣợc giả s ma tr ( )( ) y, hàm phụ ( ) ( ) ( ) ƣờng chéo, ) ∑ ( ) c a logarit khả ă g a mơ hình U ( )( | h y ổi hƣ: ( ) S dụ g ∑∑ ( ) ( ) |)( ) ( ) g hƣ (3.5.40) ộ dài mô tả c a mơ hình U cho ( ) ( ) ∑ ây |) ∑ ( ), c a vector quan sát, ( ( ) | ( ) xác su t trạng thái chiếm chỗ nút Sm, L chi u ∑ , C chi u dài mã yêu cầ ó ó ƣợc giả s số 86 ể l a chọn mơ hình Luận văn thạc sỹ kỹ thuật máy tính truyền thơng Hình 3.11: Phân nhóm nút c a quyế ịnh Giả s nút Sm c a mơ hình U ƣợc chia làm nút, Smqy Smqn, cách s dụng câu hỏiq (hình 3.11) Gọi U’ h h h ƣợc việc chia nhỏ Sm c a mơ hình U câu hỏi q Độ dài mô tả c a mơ hình U’ ƣợc tính tốn là: ( ) ( | |) ( | ∑ ( (3.5.44) |) (3.5.45) ( | ) |) (3.5.46) ( ây ố nút c a U’ M+1, ) xác su t trạng thái chiễm chỗ ma tr n hiệp phƣơ g i a hàm phân bố xác su t Gaussian nút Smqy Smqy ƣơ g ng V y vi phân gi ộ dài mô tả rƣ c sau chia nhỏ là: ( ) ( ( ) ( ) | (3.5.48) | | | | |) (3.5.49) (3.5.50) Bằng cách s dụng vi phân , t Qua trình xây d ng quyế ị h ƣợc mô tả hƣ 87 ộng xây d ng quyế : ịnh Luận văn thạc sỹ kỹ thuật máy tính truyền thơng Hình 3.12: Xây d ng quyế Đị h ghĩ ịnh d a MDL h h hởi tạo U hƣ U = {S0} Tìm nút S ’ mơ hình U câu hỏi q’ ó ( ) Kết thúc ( ) Nếu ( )nhỏ nh t , d ng việc chia nhỏ nút Hình 3.12 Chia nhỏ nút S ’ cách s dụng câu hỏi q’ thay U v i t p hợp nút kết Quay lại ƣ c 3.5.4 Mơ hình hóa tân số F0 sử dụng MSD-HMM Chuỗi quan sát c a m u F0 ƣợc xem giố g hƣ ầu t không gian chi c ột chuỗi hỗn hợp Ω1 không gian chi Ω2 ƣơ g ng v i vùng h u vơ Mỗi khơng gian có số không gian ( chi u N1(x) Mặ ) Kh h g gi Ω1 có hàm m h g gi Ω2 có m ộ xác su h g hƣờng iểm Một o quan sát F0 gồm biến ng u nhiên liên tục x t p hợp số khơng gian X, có o = (X, x) ây X = {1} quan sát c a o ƣơ (3.5.51) i vùng h u X = {2} cho vùng vô Xác su t ị h ghĩ ởi ( ) ∑ ( ) ây V(o) = x S(o) = X 88 ( ( )) (3.5.51) Luận văn thạc sỹ kỹ thuật máy tính truyền thơng S dụng mộ HMM r g ó xác su ầu trạ g h i ƣợc cho công th c (3.5.52), gọi MSD-HMM (hình 3.9), quan sát h u vơ c a F0 ƣợc mơ hình hóa mơ hình hợp nh t khơng có b t kỳ giả ị h r Hơ a, phổ F0 mơ hình hóa lúc g r g ó phần phổ ƣợc mơ hình hóa phân bố xác su t MSD-HMM liên tục, phần F0 ƣợc mơ hình hóa MSD (hình 3.13) Trong hình, ct, ƣơ g ng vector tham số phổ, t p số không gian c a F0, tham số F0 thời iểm t ƣơ g ∆2 ƣơ g ng tham số delta delta-delta g ∆ Luồng Phân bố xác su t liên tục Phần phổ Luồng Phân bố xác su Luồng Phân bố xác su Luồng Phân bố xác su Phần F0 h g gi h g gi h g gi Hình 3.13: Vector quan sát 3.6 Chƣơng trình thử nghiệm 3.6.1 Mơ hình thử nghiệm Yêu cầ chuỗi ă ặt th c tổng hợp tiếng nói v i d liệ ản g e ầ r h ƣợc tiếng nói T ó ó ầu vào h h hệ thống tổng hợp d a mơ hình HMM hƣ h h 3.1 3.6.2 Phân tích mơ hình Mơ hình tổng hợp hệ thống gồm phần: phần hu n luyện phần tổng hợp a Phần huấn luyện Mục tiêu c gi i ạn hu n luyện tạo mộ h h gƣời nói các thông số d liệu l n c a tiếng nói, có cú pháp âm vị ã ƣợc gán nhãn ó ƣợc hu n luyện hệ thống v i tham số 89 Luận văn thạc sỹ kỹ thuật máy tính truyền thơng Phâ - Việ ạn gán nhãn ồng h ầ vị có ch a tín hiệ i g h h khung c a lời ói ƣợ Thƣờng mộ hi ộ dài tín hiệu số ƣợng âm ƣơ g ng C ặt mộ e h g ƣợc triết xu t t ến 5ms V i h h tốn Baum-Welch, c r phâ y í h ă g ƣợc trích rút r ặc tính khung e r ặc tính thu t ó ƣợc hu n luyện s dụng tiếng nói g d liệu tiếng nói - Các mơ hình monophone V i việc lặp lại áp dụng thu t toán Baum-We h ể hu n luyện mơ hình v i h e r ặc tính mơ hình t âm vị phụ thuộc nội g ƣợc Một mơ hình s dụng trạng thái phát, ó ại diện cho trạng thái bắ ã ầu, gi a kết thúc c a âm vị ƣơ g g hƣ ng tiếp c n công việc Cộng thêm nút bắ ầu kết thúc không chuyển tiếp(không phát) ƣợ g rƣ g h y ũ g ƣợc s dụng ƣờng biên c a mơ hình ƣợc bỏ qua kết nối mơ hình giố g hƣ hú g h g ph r e r ặc tính C u trúc h h ƣợc l a chọn HMM t trái qua phải theo th t ký t thời gian c a phần âm vị bên Có thể có ngoại lệ.Tuy nhiên, chuyển tiếp t ến trạng thái th ƣợc gi i thiệ th nh qua trạng thái gi Đi trạng thái ể rút ngắn âm vị cách bỏ y hƣờ g ƣợc ng dụng cho âm câm ể mơ hình hóa âm câm ngắn cành tốt Hình 3.14 cho th y mơ hình trạng thái t trái sang phải v i chuyển ổi t chọn xác su t chuyể C h h ộc l p ng cảnh ƣợc dùng cho tổng hợp tiếng nói Hình 3.15: HMM trạng thái t trái qua phải v i chuyể - ổi t chọn Các mơ hình triphone Nế d liệ l n nên tinh h h h ộc l p bối cảnh thành mơ hình phụ thuộc bối cảnh Các mơ hình sau ƣợc kh p nối vào cung 90 Luận văn thạc sỹ kỹ thuật máy tính truyền thông g i c p thông số âm “o” r g “ r h y cho tổng hợp Ví dụ phát âm “l” khác gi a e ” i âm “I” “I i i ” M h h riph e mơ hình hóa phone v i mơ hình trạng thái t trái qua phải.Tuy nhiên, có nh ng mơ hình khác cho phone giố g h hƣ g ng cảnh khác nhau.Nh ng bối cảnh biến thể khác ƣợc th c hiện.Ở ây nh ng mơ hình hàng xóm t trái sang phải (chỉ ị h ƣơ g ng v i + -) ƣợ h ƣơ g ng v i mơ hình vào tính tốn mơ hình phụ thuộc ng i í h ă g h triphone Tuy nhiên, mộ ƣ buộc, ví dụ t biên ƣợc xem xét V i việc chia nhỏ, số ƣợ g h h ă g Để khắc phục v này, mơ hình trạng thái c gắn lại Nếu trạng thái c a mơ hình hoặ hơ ộ í h hƣ c d liệu ể kiển soát t t mơ hình xu t hiệ tiếng nói r t l nhi g ể gƣỡ g ã ƣợ cụ thể, v y t t hú g ị h ghĩ ầy ể hu n luyện tốt hú g ƣợc nhóm mơ hình khơng khác hú g ó hể ƣợc chia sẻ trạng thái ƣợc hu n luyện chúng xu t t p hu n luyện Một ví dụ, trạng thái gi a c a mơ hình triphone c a âm “l” gi a t “a” t “e” Nếu trạng thái gi a c a mơ hình nhóm ƣợc hu n luyện lúc trạ g h i ầu tiên th ƣợc hu n luyện v i t ƣơ g ng mơ hình Hình 3.16 thể ví dụ c a mơ hình phụ thuộc bối cảnh phân nhóm c a âm l b Pha tổng hợp Tổng hợp tiếng nói v i h h ã ƣợc hu n luyện ƣợc chia làm phần Đầu tiên vector ặc tính cho chuỗi phone ƣợ ƣ c tính.Th e âm C ă r ặ ả í h ã ƣợ ƣ c tính chuyể ổi thành tín hiệu ƣợc tổng hợp ƣợc viết thành dạng phiên âm khoảng c a âm vị tần số ản c a Phiên âm phục vụ việc l a chọn mô h h r hƣ ƣợng tham số tần số ản cần thiế tín hiệu âm 91 ể tổng hợp Luận văn thạc sỹ kỹ thuật máy tính truyền thơng h h riph Hình 3.16: Phân nhóm c e ƣơ g ng v i s khác c a âm “l” Ƣớc tính tham số - Ƣớc tính chuỗi trạng thái H iƣ í h ể l y chuỗi trạ g h i ƣợc áp dụng.Tổng chi u dài c a ph e ƣợc hiểu v i phi â Đầu tiên, trạng thái c a mô hình phone phù hợp v i phiên âm ƣợc trải tổng chi u dài c a phone Số ƣợng ầu, gi a kế hú trạng bắ chuyể ƣợc tính tốn việ h hƣờng xác su t ổi c a chúng chia cho tổ g ộ dài c a âm vị xác su t thông hƣờng Th 2, hỗn hợp tốt nh t cho trạng thái chuỗi ƣợc chọ ƣ c tính tham số ặc tính L a chọn hỗn hợp riêng biệ ể ể th c giảm tính tốn ph c tạp thời iểm – thu t tốn thích nghi – gi mộ ƣờng cong phân bố chi tiết c e ặc tính Chuỗi trạ g h i ƣợc thiết l p r ặc tính ƣợc thiết l p Ƣớc tính vector đặc tính Trƣ i e r ặc tính phải ƣợc mơ tả chi tiế hơ Giả s hệ số Me Fre e y Cep r (MFCC ) tính, e r ặ ạo hàm c hú g ƣợc s dụ g hƣ ặc í h ối v i khung t ƣợc viêt là: ot=[ct’, Δct’, Δ2ct’]’, 92 Luận văn thạc sỹ kỹ thuật máy tính truyền thông ây ct = [ct(1), ct(2), …, ct(M)] vector v i M hệ số MFCC ầ i Δnct ạo ( ) hàm b c n tính theo cơng th c: ∑ () ây L0=0, w0(0)=1 e T t r ặc tính ƣợc th c v i vector l n O = [o1’, o2’,…, oT’]’ ƣơ g t t vector MFCC ƣợc thể vector l n C = [c1’, c2’,…, cT’]’ Ở ây T iểu thị cho toàn số trạng thái phần tổng hợp Sẽ có: O = W*C Để ƣ í h e (3.6.2) r ặc tính tốt nh t P(O|q*,λ,T) tối xác su t c a chuỗi e hó Đây hí h r ặc tính O cho chuỗi trạ g h i ƣ c tính q* ( | ) ( ) Việc tính tốn (3.6.3) th c - Tổng hợp âm C e r MFCC ã ƣ ƣ c tính cho phép tổng hợp tín hiệu âm Cuối lọc tổng hợp ƣợc th c Bộ lọ hƣờ g ƣợc s dụng nh t MLSA.Cùng v i nguồn tin kích thích t tần số ả gƣợc lại t phổ ại diện c a chúng S ó í hiệ â MFCC ƣợc tính h h ƣợc tao d a tổng hợp phổ 3.6.3 Festival ứng dụng tổng hợp tiếng nói Hệ thống mơ th nghiệm việc tổng hợp tiếng nói d a mơ hình HMM s dụng hệ thống mã nguồn mở festival v i: - Đầu vào: chuỗi text hoặ fi e ă - Đầ r : â ản h h ƣợc tổng hợp ƣ i dạng file wav Hệ thống festival hệ thống tổng hợp tiế g ói ƣợc phát triể ầu tiên Alan Black Paul Taylor trung tâm nghiên c u speech techonology c a rƣờ g ại học Edinburgh.Festival cung c p cho framework chung 93 Luận văn thạc sỹ kỹ thuật máy tính truyền thơng cho việc xây d ng hệ thống tổng hợp tiếng nói Nó hỗ trợ ngơn ng : Anh, r Anh Mỹ Tây Ban Nh g ó iếng A h ƣợc hỗ trợ tốt nh t Festival mã nguồn mở ƣợc viết hoàn toàn c++ v i nh g ặc iểm b t sâu: - Tích hợp hệ thống HTS_engine: hệ thống tổng hợp tiếng nói d a mơ hình Markov ẩn - Là hệ thố g g g - Cho phép tổng hợp tiế g ói ƣ i dạng sóng - Hồn tồn c u hình mở rộng d a module c a hệ thống - Hỗ trợ gcc 4.3, 4.4 4.5 nên dễ dàng biên dị h r i rƣờng windows d a vào công cụ cygwin Hệ thống fe i ƣợc xây d ng d a mơ hình HMM nhờ việc tích hợp hệ thố g HTS_e gi e M ƣợc thể rõ module hệ thống festival: e : “fe i \ i ” Tại ây h a tồn d liệu database tổng hợp tiếng nói festival\src\modules: ây ch a toàn mã nguồn x lý tổng hợp tiếng hƣơ g r h r g ó: nói c a M e : “h _e gi e”: Th c việc tổng hợp tiếng nói b Các modules khác th c việc hu n luyện nhờ vào database c a hệ thống Speech_tools: công cụ giúp tạo âm file wav c a hệ thống Tại thời iể trình th c hiệ ầu, chuỗi e h Thiết l p thông số c ƣợc truy hƣơ g r h Chƣơ g ây: hƣơ g r h he h ố truy - Chƣơ g r h hạy server hay client, cổng bao nhiêu, - Chế ộ tạ fi e ầ r â - hƣ: h h hƣ ịnh dạng file file riff, wav, … hế ộ tạo file: viết, update, Thông số cho khung 94 Luận văn thạc sỹ kỹ thuật máy tính truyền thông - Độ vênh c a tham số alpha - Khởi tạo gama, beta - Kí h hƣ c ệm cho âm - Ngƣỡng MSD - Trọng số cho hàm nội suy Trọng số GV Phâ ạn gán nhãn v i d liệ ầ : Phâ ƣợng âm vị có ch a chuỗi h h S í h ại h g i ƣ Tính tố Lƣ fi e ầ r S r i g y f ƣ i dạng quyế e ịnh e ầu r ặc tính ƣ i dạng file trace ại tham số phát sinh ƣ i dạng file riff ó hợp âm t file riff tham số ầu vào ƣ c Dƣ i ây “g ầ r d liệu liệu, hƣơ g r h ải lại nhãn c vào tạo luồng trạ g h i Lƣ ƣơ g ng Và gán nhãn h h phụ thuộc ng h ƣợc thể hiệ hi ã phâ ộ dài chuỗi số ịnh d a thu t toán Baum-We h Xây d ng quyế Ở ây hi i i yf r h i y” r ây hỉ truy i y” ò ầ h hƣơ g r h V ây y ết chạy hƣơ g r h i ạn text “g r i g ố khác ƣợc thiết l p cách mặ ịnh g hƣơ g r h hƣ h hƣơ g r h : h ỗi e i ạo tùy chọn tts.Tùy chọn cho biết 95 Luận văn thạc sỹ kỹ thuật máy tính truyền thông ƣợc hàm ch rằng, câu lệnh (command line) chỉnh s r g hƣơ g r h a Khi chạy h h g hƣơ g r h h ƣợc files wav riff Ta hồn tồn chạy file wav hệ i u hành mộ Tín hiệ family” ă g h ƣ i dạng sóng quang phổ c h hƣờng ă ả “good morning my hi hợp hƣ h h: Hình 3.17: Dạng sóng tiếng nói tổng hợp c f ă ả “g r i g y ả “g r i g y i y” Hình 3.18: Dạng phổ tiếng nói tổng hợp c f i y” 96 ă Luận văn thạc sỹ kỹ thuật máy tính truyền thơng KẾT LUẬT Mơ hìnhMarkov ẩn mơ hình thống kê tốn học, nhiên có r t nhi u ng dụ g r g sinh họ g h h ể tính tốn d h ù g hƣ: X lý tiếng nói, ng dụng g ã r ột trình t ge e… Tr gi i có r t nhi u nhà nghiên c ã ng dụng mơ hình Markov ẩn tổng hợp tiếng nói Tuy nhiên, Việ N ây nhi u v ột v ò g ƣợc nghiên c u, cần quan tâm V i mục tiêu nghiên c u v mơ hình Markov ẩn ng dụng mơ hình Markov ẩ ể tổng hợp tiếng nói Tr g i y i ã ghi u lý thuyết chung v x lý tiếng nói, mơ hình Markov ẩn ng dụng tổng hợp tiếng nói, th c th c nghiệm việc tổng hợp tiếng nói hệ thống Festival Trong lu ă y i ã ạt ƣợc số kết sau:  Nghiên c u v tiếng nói mơ hình tiếng nói Lu kiến th ản v y ph â ă ã r h ầy ặc tính âm học mơ hình tạo tiếng nói  Nghiên c phƣơ g ph p hợp tiếng nói  Nghiên c u mơ hình Markov ẩn ng dụng tổng hợp tiếng nói  Nghiên c u xây d ng hệ thống tổng hợp tiếng nói d a hệ thống mã nguồn mở Festival v i toolkit HTS Hƣ ng phát triển:  Nghiên c u mô hình tổng hợp d a Markov ẩn ng dụng cho tổng hợp tiếng Việt có ch ƣợng cao  Hoàn thiện Module tổng hợp cho tiếng Việt 97 Luận văn thạc sỹ kỹ thuật máy tính truyền thơng TÀI LIỆU THAM KHẢO Lawrence R.Rabiner, Ronald W.Schafer (1978), Digital processing of speech signals, Prentice Hall Przemyslaw Dymarski (2011), Hidden Markov Models, Theory and Applications K.Tokuda, H.Matsumura, T.Kobayashi, Speech coding based on adaptive melcepstral analysis, Australia, April 1994 J.Yamagishi An introduction to HMM-based speech systhesis, Tokyo Institute of Technology, October 2006 Trị h Vă L (1998) C ài giảng v x lý tiế g ói Đại học Bách khoa Hà Nôi Nguyễn Quốc Trung (2001), X lý tín hiệu lọc số, nhà xu t khoa học kỹ thu t HTK (2012), Hidden Markov model toolkit http://htk.eng.cam.ac.uk HTS (2012), HMM-based speech systhesis system http://hts.sp.nitech.ac.jp Festival (2012) The Festival speech systhesis system.http://www.cstr.ed.ac.uk 10 Dƣ Th nh Bình (2001), Dị tìm tần số ản x lý tiế g ói Đ i Học Bách Khoa Hà Nội 98 ... phƣơ g ph p g ƣợc s dụng gi i  Chƣơ g 3: Mơ hình Markov ẩn ng dụng tổng hợp tiếng nói Chƣơ g y trình bầy lý thuyết v mơ hình Markov ẩn, ng dụng tổng hợp tiếng nói ng dụng tổng hợp hệ thống mã nguồn... 2.2.3 Tổng hợp ghép nối 33 Luận văn thạc sỹ kỹ thuật máy tính truyền thơng CHƢƠNG MƠ HÌNH MARKOV ẨN VÀ ỨNG DỤNG TỔNG HỢP TIẾNG NÓI 46 3.1 Tổng quan hệ thống tổng hợp tiếng nói. .. vào ă ẽ mô tả chi tiết hệ thống TTS (text to speech) lý thuyết liên quan t i mơ hình Markov ẩn 3.1 Tổng quan hệ thống tổng hợp tiếng nói dựa mơ hình Markov ẩn Hệ thống TTS hệ thống tổng hợp tiếng

Ngày đăng: 28/02/2021, 00:00

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
7. HTK (2012), Hidden Markov model toolkit. http://htk.eng.cam.ac.uk Link
8. HTS (2012), HMM-based speech systhesis system. http://hts.sp.nitech.ac.jp Link
9. Festival (2012). The Festival speech systhesis system.http://www.cstr.ed.ac.uk Link
1. Lawrence R.Rabiner, Ronald W.Schafer (1978), Digital processing of speech signals, Prentice Hall Khác
2. Przemyslaw Dymarski (2011), Hidden Markov Models, Theory and Applications Khác
3. K.Tokuda, H.Matsumura, T.Kobayashi, Speech coding based on adaptive mel- cepstral analysis, Australia, April 1994 Khác
4. J.Yamagishi. An introduction to HMM-based speech systhesis, Tokyo Institute of Technology, October 2006 Khác
5. Trị h Vă L (1998) C ài giảng v x lý tiế g ói Đại học Bách khoa Hà Nôi Khác
6. Nguyễn Quốc Trung (2001), X lý tín hiệu và lọc số, nhà xu t bản khoa học kỹ thu t Khác
10. Dƣ Th nh Bình (2001), Dò tìm tần số ơ ản trong x lý tiế g ói. Đ i Học Bách Khoa Hà Nội Khác

TỪ KHÓA LIÊN QUAN