Mô hình Markov ẩn Hidden Markov model là một mô hình toán thống kê có thể ứng dụng trong xử lý tiếng nói Tổng hợp tiếng nói dựa trên mô hình Markov ẩn được nghiên cứu và ứng dụng mạnh mẽ trên thế giới Ở Việt Nam tổng hợp tiếng nói tiếng Việt dựa trên HMM đã và đang được nghiên cứu và triển khai những năm gần đây và đã đạt được các kết quả tương đối khả quan Luận văn này nghiên cứu về lý thuyết mô hình Markov ẩn HMM và ứng dụng của HMM trong tổng hợp tiếng nói nghiên cứu các đặc trưng về ngữ âm và âm vị của tiếng Việt các đặc trưng cơ bản của tín hiệu tiếng nói phổ tần số cơ bản … tổng quan về công nghệ tổng hợp tiếng nói các module frontend và backend kỹ thuật tạo nhãn âm vị theo ngữ cảnh để từ đó tổng hợp ra tiếng nói Kết quả là xây dựng được module tạo nhãn âm vị theo ngữ cảnh cho tiếng Việt dùng ngôn ngữ Python và framework Kivy xây dựng chương trình chuyển văn bản thành tiếng nói cho tiếng Việt với chất lượng khá tốt
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA - LÊ VĂN THỨC ỨNG DỤNG MƠ HÌNH MARKOV ẨN XÂY DỰNG HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng – 2018 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA - LÊ VĂN THỨC ỨNG DỤNG MƠ HÌNH MARKOV ẨN XÂY DỰNG HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Ninh Khánh Duy Đà Nẵng – 2018 i LỜI CAM ĐOAN Tôi xin cam đoan luận văn nghiên cứu hướng dẫn khoa học thầy TS Ninh Khánh Duy Các số liệu tài liệu luận án trung thực chưa công bố cơng trình nghiên cứu Tất tham khảo kế thừa trích dẫn tham chiếu đầy đủ Đà Nẵng, năm 2018 Người thực Lê Văn Thức ii LỜI CẢM ƠN Để hoàn thành luận văn tốt nghiệp mình, em xin gửi lời cam ơn chân thành tri ân sâu sắc thầy cô trương Đại học Bách Khoa Đà Nẵng, đặc biệt khoa Công Nghệ Thông Tin trường hết lịng tận tình dạy, truyền đạt kiến thức cho chúng em suốt trình học tập nghiên cứu Đặc biệt, em xin bày tỏ lòng biết ơn sâu sắc đến thầy TS Ninh Khánh Duy– người trực tiếp hướng dẫn, tận tình giúp đỡ động viên em suốt trình thực luận văn tốt nghiệp Thật lịng vô cảm ơn hỗ trợ, giúp đỡ, động viên tồn thể gia đình, bạn bè suốt q trình hồn thành khóa luận tốt nghiệp, suốt trình học tập vừa qua Mặc dù cố gắng song luận văn tốt nghiệp khơng tránh khỏi thiếu sót Kính mong q thầy giáo, giáo tồn thể bạn bè góp ý để kiến thức em lĩnh vực hồn thiện Xin kính chúc q Thầy, Cơ sức khỏe thành công nghiệp đào tạo hệ tri thức tương lai Một lần xin chân thành cảm ơn! Đà Nẵng, năm 2018 Người thực Lê Văn Thức iii TÓM TẮT Tóm tắt - Mơ hình Markov ẩn (Hidden Markov model) mơ hình tốn thống kê ứng dụng xử lý tiếng nói Tổng hợp tiếng nói dựa mơ hình Markov ẩn nghiên cứu ứng dụng mạnh mẽ giới Ở Việt Nam, tổng hợp tiếng nói tiếng Việt dựa HMM nghiên cứu triển khai năm gần đây, đạt kết tương đối khả quan Luận văn nghiên cứu lý thuyết mơ hình Markov ẩn (HMM) ứng dụng HMM tổng hợp tiếng nói, nghiên cứu đặc trưng ngữ âm âm vị tiếng Việt, đặc trưng tín hiệu tiếng nói (phổ, tần số bản, …), tổng quan công nghệ tổng hợp tiếng nói (các module frontend backend), kỹ thuật tạo nhãn âm vị theo ngữ cảnh để từ tổng hợp tiếng nói Kết xây dựng module tạo nhãn âm vị theo ngữ cảnh cho tiếng Việt, dùng ngôn ngữ Python framework Kivy xây dựng chương trình chuyển văn thành tiếng nói cho tiếng Việt với chất lượng tốt Từ khóa - xử lý tiếng nói; tổng hợp tiếng nói; mơ hình morkov ẩn; ngữ âm tiếng Việt; âm vị tiếng Việt Abstract - The Hidden Markov model (HMM) is a widely used probability model for speech processing HMM-based speech synthesis has been studied and applied in many languages around the world for a long time, but has been under development for about 10 years now in Vietnamese This thesis presents the theory of HMM modeling and the application of HMM in speech synthesis In addition, the thesis also examines the phonetic and phoneme characteristics of the Vietnamese language, the basic features of the speech signal (such as spectrum, fundamental frequency, etc.), Modules of a text-to-speech system The main result of the thesis is to build the speech synthesis software for Vietnamese language with good quality using Python programming language and Kivy framework Keywords - speech processing; speech synthesis; hidden Markov model; Vietnamese phonetics iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT iii MỤC LỤC iv DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vi DANH MỤC BẢNG vii DANH MỤC CÁC HÌNH VẼ viii MỞ ĐẦU 1 Lý chọn đề tài Mục đích ý nghĩa đề tài Mục tiêu nhiệm vụ Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Kết luận Cấu trúc luận văn Chương - TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI 1.1 Giới thiệu 1.2 Ngữ âm Tiếng Việt 1.3 Phân loại âm vị theo đặc trưng âm học 1.4 Các thành phần ngữ điệu tiếng nói 1.4.1 Cao độ (pitch f0) 1.4.2 Trường độ 1.4.3 Cường độ 10 1.5 Phân tích tiếng nói 10 1.5.1 Mơ hình phân tích tiếng nói 10 1.5.2 Phân tích tiếng nói ngắn hạn 11 1.6 Các tham số tiếng hiệu tiếng nói 12 1.6.1 Tần số formant 12 1.6.2 Tần số (F0) 13 Chương - TỔNG HỢP TIẾNG NĨI TỪ VĂN BẢN DỰA TRÊN MƠ HÌNH MARKOV ẨN 15 2.1 Giới thiệu 15 2.2 Framework phân tích/tổng hợp tiếng nói 15 v 2.3 Giai đoạn huấn luyện mơ hình 16 2.3.1 Mơ hình hố phổ HMM có phân bố xác suất liên tục 17 2.3.2 Mơ hình hố F0 HMM có phân bố xác suất đa khơng gian 19 2.3.3 Tính tốn đặc trưng động 21 2.3.4 Mơ hình hố trường độ 22 2.3.5 Mơ hình hoá phụ thuộc ngữ cảnh gom cụm ngữ cảnh 22 2.4 Giai đoạn tổng hợp tiếng nói 25 2.4.1 Phân tích văn 25 2.4.2 Xác định trường độ trạng thái 25 2.4.3 Ảnh hưởng đặc trưng động sinh tham số tiếng nói 26 Chương – XÂY DỰNG HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT 29 3.1 Phân tích hệ thống 29 3.1.1 Mô-đun xử lý ngôn ngữ tự nhiên (front-end) 29 3.1.2 Mơ-đun tổng hợp tiếng nói (back-end) 29 3.1.3 Nhãn âm vị phụ thuộc ngữ cảnh 30 3.1.4 Quy tắc chuyển chữ có dấu mũ dấu sang nhãn âm vị 33 3.1.5 Xử lý Unicode cho tiếng Việt 33 3.1.6 Thuật toán chuyển âm tiết thành chuỗi âm vị 34 3.2 Thiết kế hệ thống 35 3.2.1 Mô-đun app.py 35 3.2.2 Mô-đun xử lý ký tự Unicode tiếng Việt uniproc.py 35 3.2.3 Mô-đun xử lý âm tiết let2snd.py 36 3.2.4 Mô-đun tạo nhãn âm vị phụ thuộc ngữ cảnh generate_label.py 36 3.2.5 Mô-đun định nghĩa cấu trúc văn bản, định dạng nhãn âm vị tạo nhãn âm vị phụ thuộc ngữ cảnh label_format.py 36 3.3 Môi trường phát triển 38 Chương – KẾT QUẢ THỰC NGHIỆM 39 4.1 Điều kiện thử nghiệm 39 4.2 Kết đánh giá 39 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 45 Kết đạt 45 Hướng phát triển 45 TÀI LIỆU THAM KHẢO 46 vi DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ADC : Analog to Digital Converter STFT : Short-time Fourier transform LPC : Linear Prediction Coded THTN : Tổng hợp tiếng nói HMM : Hidden Markov Model MLSA : Mel Log Spectrum Approximation LSP : Line spectral pair EM : Expectation-Maximization MSD : Multi-space Probability Distribution MDL : minimum description length HTS : HMM-based Speech Synthesis System API : Application Programming Interface Δ : Delta vii DANH MỤC BẢNG Số hiệu bảng Tên bảng Trang 1.1 Cấu trúc âm tiết tiếng Việt [1] 1.2 Bảng ánh xạ chữ sang âm vị tiếng Việt 3.1 Quy tắc chuyển dấu sang nhãn âm vị 33 3.2 Quy tắc chuyển chữ có dấu mũ sang nhãn âm vị 33 viii DANH MỤC CÁC HÌNH VẼ Số hiệu Tên hình Trang 1.1 (a) Tần số, đường lượng âm vô thanh; (b) tần số, đường lượng âm hữu 1.2 Mơ hình tổng qt việc xử lý tín hiệu tiếng nói [9] 10 1.3 Âm xác định tốt formant chuyển tiếp âm vị chúng [8] 13 1.4 Dạng sóng âm (đồ thị trên) so với đường F0 (đồ thị dưới) 14 2.1 Tổng hợp tiếng nói dựa mơ hình Markov ẩn 15 2.2 Mơ hình nguồn-bộ lọc mơ cách người phát âm 16 2.3 Một HMM có trạng thái (khơng bỏ qua trạng thái từ trái sang phải) sinh chuỗi quan sát (chỉnh sửa từ [3]) 18 2.4 Mơ hình hóa đường F0 hai khơng gian [3] 20 2.5 MSD-HMM cho mơ hình hóa đường F0 [3] 21 2.6 Vector đặc trưng khung tín hiệu [3] 22 2.7 Một ví dụ phân cụm ngữ cảnh dựa định [3] 24 2.8 Sơ đồ khối giai đoạn tổng hợp [3] 25 2.9 Sinh trường độ trạng thái [7] 26 2.10 Quỹ đạo tham số tiếng nói sinh [3] (chỉ hiển thị chiều vector đặc trưng) Các tham số delta hiển thị đại diện cho đặc trưng động 27 3.1 Mô-đun xử lý ngôn ngữ tự nhiên (front-end) 29 3.2 Mơ-đun tổng hợp tiếng nói (back-end) q trình huấn luyện HMM để tạo HTS_voice 30 3.3 Thuật toán chuyển âm tiết thành chuỗi âm vị cho tiếng Việt [2] 34 3.4 Class diagram mô tả class đại diện cho văn 36 4.1 Giao diện chương trình 40 4.2 Giao diện chương trình nhãn ngữ cảnh tạo 41 hình 41 Hình 4.2 Giao diện chương trình nhãn ngữ cảnh tạo Với văn mẫu câu “Đây chương trình tổng hợp tiếng nói Tiếng Việt.”, hệ thống tạo nhãn âm vị theo ngữ cảnh định dạng mô tả mục 3.1.3 sau: sil^sil-sil+d=oUs@x_x/A:x_x_x/B:x-x-x@0-0&x-x#x-n$n-x!x-x;xx|oUs/C:2+1+2/D:x_x/E:x+1@x+x&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J :10+10-1 sil^sil-d+oUs=ji@1_1/A:x_x_x/B:1-x-3@0-0&0-9#n-n$n-x!x-x;xx|oUs/C:2+1+2/D:x_x/E:x+1@0+9&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J :10+10-1 sil^d-oUs+ji=l@2_0/A:x_x_x/B:1-x-3@0-0&0-9#n-n$n-x!x-x;xx|oUs/C:2+1+2/D:x_x/E:x+1@0+9&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J :10+10-1 d^oUs-ji+l=a@3_-1/A:x_x_x/B:1-x-3@0-0&0-9#n-n$n-x!x-x;x- 42 x|oUs/C:2+1+2/D:x_x/E:x+1@0+9&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J :10+10-1 oUs^ji-l+a=c@0_1/A:1_x_4/B:2-x-2@0-0&1-8#n-n$n-n!x-x;xx|a/C:1+2+3/D:x_1/E:x+1@1+8&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J:1 0+10-1 ji^l-a+c=WoU@1_0/A:1_x_4/B:2-x-2@0-0&1-8#n-n$n-n!x-x;xx|a/C:1+2+3/D:x_1/E:x+1@1+8&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J:1 0+10-1 l^a-c+WoU=N@0_2/A:2_1_2/B:1-x-3@0-0&2-7#n-n$n-n!n-x;xx|x/C:2+4+3/D:x_1/E:x+1@2+7&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J:1 0+10-1 a^c-WoU+N=tr@1_1/A:2_1_2/B:1-x-3@0-0&2-7#n-n$n-n!n-x;xx|x/C:2+4+3/D:x_1/E:x+1@2+7&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J:1 0+10-1 c^WoU-N+tr=i@2_0/A:2_1_2/B:1-x-3@0-0&2-7#n-n$n-n!n-x;xx|x/C:2+4+3/D:x_1/E:x+1@2+7&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J:1 0+10-1 WoU^N-tr+i=N@0_2/A:1_2_3/B:2-x-3@0-0&3-6#n-n$n-n!n-x;xx|i/C:4+8+3/D:x_1/E:x+1@3+6&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J:10 +10-1 N^tr-i+N=t@1_1/A:1_2_3/B:2-x-3@0-0&3-6#n-n$n-n!n-x;xx|i/C:4+8+3/D:x_1/E:x+1@3+6&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J:10 +10-1 tr^i-N+t=o@2_0/A:1_2_3/B:2-x-3@0-0&3-6#n-n$n-n!n-x;xx|i/C:4+8+3/D:x_1/E:x+1@3+6&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J:10 +10-1 i^N-t+o=N@0_2/A:2_1_3/B:4-x-3@0-0&4-5#n-n$n-n!n-x;xx|o/C:8+5+3/D:x_1/E:x+1@4+5&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J:1 0+10-1 N^t-o+N=h@1_1/A:2_1_3/B:4-x-3@0-0&4-5#n-n$n-n!n-x;xx|o/C:8+5+3/D:x_1/E:x+1@4+5&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J:1 0+10-1 t^o-N+h=oU@2_0/A:2_1_3/B:4-x-3@0-0&4-5#n-n$n-n!n-x;xx|o/C:8+5+3/D:x_1/E:x+1@4+5&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J:1 0+10-1 o^N-h+oU=p@0_2/A:4_2_3/B:8-x-3@0-0&5-4#n-n$n-n!n-x;x- 43 x|oU/C:5+5+3/D:x_1/E:x+1@5+4&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J: 10+10-1 N^h-oU+p=t@1_1/A:4_2_3/B:8-x-3@0-0&5-4#n-n$n-n!n-x;xx|oU/C:5+5+3/D:x_1/E:x+1@5+4&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J: 10+10-1 h^oU-p+t=ie@2_0/A:4_2_3/B:8-x-3@0-0&5-4#n-n$n-n!n-x;xx|oU/C:5+5+3/D:x_1/E:x+1@5+4&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J: 10+10-1 oU^p-t+ie=N@0_2/A:8_4_3/B:5-x-3@0-0&6-3#n-n$n-n!n-x;xx|x/C:5+5+3/D:x_1/E:x+1@6+3&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J:1 0+10-1 p^t-ie+N=n@1_1/A:8_4_3/B:5-x-3@0-0&6-3#n-n$n-n!n-x;xx|x/C:5+5+3/D:x_1/E:x+1@6+3&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J:1 0+10-1 t^ie-N+n=O@2_0/A:8_4_3/B:5-x-3@0-0&6-3#n-n$n-n!n-x;xx|x/C:5+5+3/D:x_1/E:x+1@6+3&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J:1 0+10-1 ie^N-n+O=ji@0_2/A:5_8_3/B:5-x-3@0-0&7-2#n-n$pr-n!n-x;xx|O/C:5+8+3/D:x_1/E:x+1@7+2&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J:1 0+10-1 N^n-O+ji=t@1_1/A:5_8_3/B:5-x-3@0-0&7-2#n-n$pr-n!n-x;xx|O/C:5+8+3/D:x_1/E:x+1@7+2&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J:1 0+10-1 n^O-ji+t=ie@2_0/A:5_8_3/B:5-x-3@0-0&7-2#n-n$pr-n!n-x;xx|O/C:5+8+3/D:x_1/E:x+1@7+2&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J:1 0+10-1 O^ji-t+ie=N@0_2/A:5_5_3/B:5-x-3@0-0&8-1#n-pr$x-n!n-x;xx|x/C:8+x+4/D:x_1/E:x+1@8+1&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J:1 0+10-1 ji^t-ie+N=v@1_1/A:5_5_3/B:5-x-3@0-0&8-1#n-pr$x-n!n-x;xx|x/C:8+x+4/D:x_1/E:x+1@8+1&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J:1 0+10-1 t^ie-N+v=ie@2_0/A:5_5_3/B:5-x-3@0-0&8-1#n-pr$x-n!n-x;xx|x/C:8+x+4/D:x_1/E:x+1@8+1&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J:1 0+10-1 ie^N-v+ie=t@0_2/A:5_5_3/B:8-x-3@0-0&9-0#pr-x$x-n!n-x;x- 44 x|x/C:x+x+x/D:x_1/E:x+1@9+0&x+x#x+x/F:x_x/G:x_x/H:10=10@0=0|x/I:x_x/J:10 +10-1 N^v-ie+t=sil@1_1/A:5_5_3/B:8-x-3@0-0&9-0#pr-x$x-n!n-x;xx|x/C:x+x+x/D:x_1/E:x+1@9+0&x+x#x+x/F:x_x/G:x_x/H:10=10@0=0|x/I:x_x/J:10 +10-1 v^ie-t+sil=sil@2_0/A:5_5_3/B:8-x-3@0-0&9-0#pr-x$x-n!n-x;xx|x/C:x+x+x/D:x_1/E:x+1@9+0&x+x#x+x/F:x_x/G:x_x/H:10=10@0=0|x/I:x_x/J:10 +10-1 ie^t-sil+sil=sil@x_x/A:x_x_x/B:x-x-x@0-0&x-x#x-x$x-n!n-x;xx|x/C:x+x+x/D:x_1/E:x+1@x+x&x+x#x+x/F:x_x/G:x_x/H:10=10@0=0|x/I:x_x/J:10 +10-1 Ví dụ với nhãn âm vị: “sil^d-oUs+ji=l@2_0/A:x_x_x/B:1-x-3@0-0&0-9#n-n$n-x!x-x;xx|oUs/C:2+1+2/D:x_x/E:x+1@0+9&x+x#x+x/F:x_1/G:x_x/H:10=10@0=0|x/I:x_x/J :10+10-1” thơng tin nhúng nhãn là: “sil” âm vị đứng trước âm vị trước “d” so với âm vị “oUs”, “ji” âm vị sau đó, âm vị sau “l”, vị trí âm vị âm tiết từ trái qua phải ngược lại tương ứng “2_0”, … Hệ thống cho chất lượng tiếng nói tổng hợp dễ hiểu với chất giọng gần giống với giọng người cung cấp liệu tiếng nói dùng để huấn luyện mơ hình Tuy nhiên tiếng nói tổng hợp có độ tự nhiên chưa cao số hạn chế sau: • Tập liệu tiếng nói dùng để huấn luyện mơ hình HMM để tạo HTS_voice chưa đủ lớn (mới dùng 1007 câu nói giọng) • Tín hiệu khoảng lặng đầu/cuối câu sau dấu phẩy bị nhiễu dẫn đến tiếng ồn Điều việc rút trích đặc trưng tần số (F0) chưa hoàn toàn chuẩn xác Với hệ thống văn đầu vào cần phải chuẩn hố trước (khơng bao gồm chữ số, ký hiệu đặc biệt, …) tổng hợp tiếng nói đầy đủ chưa tích hợp module chuẩn hoá văn vào hệ thống Chuẩn hoá văn tiếng Việt chủ đề nghiên cứu phạm vi luận văn 45 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết đạt Sau thời gian tìm hiểu, nghiên cứu lý thuyết triển khai xây dựng chương trình tổng hợp tiếng nói cho tiếng Việt, tơi đạt kết sau Về lý thuyết, tơi tìm hiểu được: - Lý thuyết mơ hình Markov ẩn (HMM) ứng dụng HMM tổng hợp tiếng nói Các đặc trưng ngữ âm âm vị tiếng Việt - Các đặc trưng tín hiệu tiếng nói (phổ, tần số bản, …) Tổng quan cơng nghệ tổng hợp tiếng nói (các module frontend backend) - - Kỹ thuật tạo nhãn âm vị theo ngữ cảnh để từ tổng hợp tiếng nói Về ứng dụng xây dựng được: - Module tạo nhãn âm vị theo ngữ cảnh cho tiếng Việt Chương trình chuyển văn thành tiếng nói cho tiếng Việt với chất lượng tốt dùng ngôn ngữ lập trình Python framework Kivy Tuy nhiên, luận văn tồn vấn đề sau: - - Tiếng nói tổng hợp chưa tự nhiên liệu tiếng nói để huấn luyện mơ hình HMM cịn Tín hiệu khoảng lặng đầu/cuối câu sau dấu phẩy bị nhiễu dẫn đến tiếng ồn việc rút trích đặc trưng tần số (F0) chưa hoàn toàn chuẩn xác - Tốc độ thực thi chương trình cịn chậm đoạn văn đầu vào dài trình tạo nhãn âm vị tổng hợp giọng nói nhiều thời gian Hướng phát triển Một số hướng nghiên cứu phát triển sau: - Nghiên cứu phương pháp cải tiến chất lượng tiếng nói: thuật tốn trích đặc trưng tín hiệu, thuật tốn huấn luyện HMM, kích thước liệu huấn luyện - Xây dựng ứng dụng tổng hợp tiếng nói: đọc báo cho người khiếm thị, chuyển e-book thành sách nói (audiobook) - Tối ưu hố tốc độ thực thi trình chuyển văn thành tiếng nói để cài đặt hệ thống có tài ngun hạn chế, ví dụ hệ thống nhúng 46 TÀI LIỆU THAM KHẢO [1] Mai Ngọc Chừ, Vũ Đức Nghiệu, Hồng Trọng Phiến, “Cơ sở ngơn ngữ học tiếng Việt”, NXB Giáo dục, Hà Nội, 2008 [2] Ninh Khánh Duy, “Thuật toán chuyển âm tiết thành chuỗi âm vị cho tiếng Việt”, 2014 (tài liệu lưu hành nội bộ) [3] Ninh Khanh Duy, “Studies on Dynamic Feature Modeling and Fundamental Frequency Extraction in HMM-based Speech Synthesis”, PhD thesis, Ritsumeikan University, 2016 [4] Heiga Zen, “An example of context-dependent label format for HMM-based speech synthesis in English”, 2006 [5] Hts_Engine API [Online] Xem http://hts-engine.sourceforge.net , [Ngày truy cập: 04/04/2018] [6] HTS Working Group, “HMM/DNN-based Speech Synthesis System (HTS)” [Online] Xem http://hts.sp.nitech.ac.jp [Ngày truy cập: 04/04/2018] [7] Keiichi Tokuda, Tomoki Toda, Junichi Yamagishi, “Speech Synthesis Based on Hidden Markov Models,” Proceedings of the IEEE, 2013 [8] Kishore Prahallad, “Spectrogram, Cepstrum and Mel-Frequency Analysis” Carnegie Mellon University & International Institute of Information Technology Hyderabad [Online] Xem http://tts.speech.cs.cmu.edu/courses/11492/slides/mfcc.pdf, [Ngày truy cập: 03/02/2018] [9] Phạm Văn Sự, Lê Xuân Thành, “Bài giảng Xử lý tiếng nói”, Học Viện Cơng Nghệ Bưu viễn thơng, 2010 [10] Thang Tat Vu, Mai Chi Luong, Satoshi Nakamura, “An HMM-based Vietnamese Speech Synthesis System”, 116 - 121, Proc Oriental COCOSDA, 2009 ... Nhằm tìm hiểu cơng nghệ tổng hợp tiếng nói dựa HMM áp dụng cho tiếng Việt, chọn đề tài nghiên cứu là: ? ?Ứng dụng mơ hình Markov ẩn xây dựng hệ thống tổng hợp tiếng nói tiếng Việt? ?? Mục đích ý nghĩa... HMM ứng dụng tổng hợp tiếng nói - Xây dựng cài đặt hệ thống tổng hợp tiếng nói tiếng Việt dựa HMM b Ý nghĩa khoa học thực tiễn đề tài - Đóng góp vào lĩnh vực nghiên cứu ứng dụng tổng hợp tiếng nói. .. thích sử dụng lọc tổng hợp tiếng nói [7] Hình 2.1 Tổng hợp tiếng nói dựa mơ hình Markov ẩn 2.2 Framework phân tích /tổng hợp tiếng nói Các nghiên cứu phân tích /tổng hợp tiếng nói dựa mơ hình nguồn-bộ