Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 37 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
37
Dung lượng
1,81 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA - LÊ VĂN THỨC ỨNG DỤNG MƠ HÌNH MARKOV ẨN XÂY DỰNG HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng – 2018 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA - LÊ VĂN THỨC ỨNG DỤNG MƠ HÌNH MARKOV ẨN XÂY DỰNG HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Ninh Khánh Duy Đà Nẵng – 2018 i LỜI CAM ĐOAN Tôi xin cam đoan luận văn nghiên cứu hướng dẫn khoa học thầy TS Ninh Khánh Duy Các số liệu tài liệu luận án trung thực chưa công bố cơng trình nghiên cứu Tất tham khảo kế thừa trích dẫn tham chiếu đầy đủ Đà Nẵng, năm 2018 Người thực Lê Văn Thức ii LỜI CẢM ƠN Để hoàn thành luận văn tốt nghiệp mình, em xin gửi lời cam ơn chân thành tri ân sâu sắc thầy cô trương Đại học Bách Khoa Đà Nẵng, đặc biệt khoa Công Nghệ Thông Tin trường hết lịng tận tình dạy, truyền đạt kiến thức cho chúng em suốt trình học tập nghiên cứu Đặc biệt, em xin bày tỏ lòng biết ơn sâu sắc đến thầy TS Ninh Khánh Duy– người trực tiếp hướng dẫn, tận tình giúp đỡ động viên em suốt trình thực luận văn tốt nghiệp Thật lịng vô cảm ơn hỗ trợ, giúp đỡ, động viên tồn thể gia đình, bạn bè suốt q trình hồn thành khóa luận tốt nghiệp, suốt trình học tập vừa qua Mặc dù cố gắng song luận văn tốt nghiệp khơng tránh khỏi thiếu sót Kính mong q thầy giáo, giáo tồn thể bạn bè góp ý để kiến thức em lĩnh vực hồn thiện Xin kính chúc q Thầy, Cơ sức khỏe thành công nghiệp đào tạo hệ tri thức tương lai Một lần xin chân thành cảm ơn! Đà Nẵng, năm 2018 Người thực Lê Văn Thức iii TÓM TẮT Tóm tắt - Mơ hình Markov ẩn (Hidden Markov model) mơ hình tốn thống kê ứng dụng xử lý tiếng nói Tổng hợp tiếng nói dựa mơ hình Markov ẩn nghiên cứu ứng dụng mạnh mẽ giới Ở Việt Nam, tổng hợp tiếng nói tiếng Việt dựa HMM nghiên cứu triển khai năm gần đây, đạt kết tương đối khả quan Luận văn nghiên cứu lý thuyết mơ hình Markov ẩn (HMM) ứng dụng HMM tổng hợp tiếng nói, nghiên cứu đặc trưng ngữ âm âm vị tiếng Việt, đặc trưng tín hiệu tiếng nói (phổ, tần số bản, …), tổng quan công nghệ tổng hợp tiếng nói (các module frontend backend), kỹ thuật tạo nhãn âm vị theo ngữ cảnh để từ tổng hợp tiếng nói Kết xây dựng module tạo nhãn âm vị theo ngữ cảnh cho tiếng Việt, dùng ngôn ngữ Python framework Kivy xây dựng chương trình chuyển văn thành tiếng nói cho tiếng Việt với chất lượng tốt Từ khóa - xử lý tiếng nói; tổng hợp tiếng nói; mơ hình morkov ẩn; ngữ âm tiếng Việt; âm vị tiếng Việt Abstract - The Hidden Markov model (HMM) is a widely used probability model for speech processing HMM-based speech synthesis has been studied and applied in many languages around the world for a long time, but has been under development for about 10 years now in Vietnamese This thesis presents the theory of HMM modeling and the application of HMM in speech synthesis In addition, the thesis also examines the phonetic and phoneme characteristics of the Vietnamese language, the basic features of the speech signal (such as spectrum, fundamental frequency, etc.), Modules of a text-to-speech system The main result of the thesis is to build the speech synthesis software for Vietnamese language with good quality using Python programming language and Kivy framework Keywords - speech processing; speech synthesis; hidden Markov model; Vietnamese phonetics iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT iii MỤC LỤC iv DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vi DANH MỤC BẢNG vii DANH MỤC CÁC HÌNH VẼ viii MỞ ĐẦU 1 Lý chọn đề tài Mục đích ý nghĩa đề tài Mục tiêu nhiệm vụ Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Kết luận Cấu trúc luận văn Chương - TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI 1.1 Giới thiệu 1.2 Ngữ âm Tiếng Việt 1.3 Phân loại âm vị theo đặc trưng âm học 1.4 Các thành phần ngữ điệu tiếng nói 1.4.1 Cao độ (pitch f0) 1.4.2 Trường độ 1.4.3 Cường độ 10 1.5 Phân tích tiếng nói 10 1.5.1 Mơ hình phân tích tiếng nói 10 1.5.2 Phân tích tiếng nói ngắn hạn 11 1.6 Các tham số tiếng hiệu tiếng nói 12 1.6.1 Tần số formant 12 1.6.2 Tần số (F0) 13 Chương - TỔNG HỢP TIẾNG NĨI TỪ VĂN BẢN DỰA TRÊN MƠ HÌNH MARKOV ẨN 15 2.1 Giới thiệu 15 2.2 Framework phân tích/tổng hợp tiếng nói 15 v 2.3 Giai đoạn huấn luyện mơ hình 16 2.3.1 Mơ hình hố phổ HMM có phân bố xác suất liên tục 17 2.3.2 Mơ hình hố F0 HMM có phân bố xác suất đa khơng gian 19 2.3.3 Tính tốn đặc trưng động 21 2.3.4 Mơ hình hố trường độ 22 2.3.5 Mơ hình hoá phụ thuộc ngữ cảnh gom cụm ngữ cảnh 22 2.4 Giai đoạn tổng hợp tiếng nói 25 2.4.1 Phân tích văn 25 2.4.2 Xác định trường độ trạng thái 25 2.4.3 Ảnh hưởng đặc trưng động sinh tham số tiếng nói 26 Chương – XÂY DỰNG HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT 29 3.1 Phân tích hệ thống 29 3.1.1 Mô-đun xử lý ngôn ngữ tự nhiên (front-end) 29 3.1.2 Mơ-đun tổng hợp tiếng nói (back-end) 29 3.1.3 Nhãn âm vị phụ thuộc ngữ cảnh 30 3.1.4 Quy tắc chuyển chữ có dấu mũ dấu sang nhãn âm vị 33 3.1.5 Xử lý Unicode cho tiếng Việt 33 3.1.6 Thuật toán chuyển âm tiết thành chuỗi âm vị 34 3.2 Thiết kế hệ thống 35 3.2.1 Mô-đun app.py 35 3.2.2 Mô-đun xử lý ký tự Unicode tiếng Việt uniproc.py 35 3.2.3 Mô-đun xử lý âm tiết let2snd.py 36 3.2.4 Mô-đun tạo nhãn âm vị phụ thuộc ngữ cảnh generate_label.py 36 3.2.5 Mô-đun định nghĩa cấu trúc văn bản, định dạng nhãn âm vị tạo nhãn âm vị phụ thuộc ngữ cảnh label_format.py 36 3.3 Môi trường phát triển 38 Chương – KẾT QUẢ THỰC NGHIỆM 39 4.1 Điều kiện thử nghiệm 39 4.2 Kết đánh giá 39 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 45 Kết đạt 45 Hướng phát triển 45 TÀI LIỆU THAM KHẢO 46 vi DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ADC : Analog to Digital Converter STFT : Short-time Fourier transform LPC : Linear Prediction Coded THTN : Tổng hợp tiếng nói HMM : Hidden Markov Model MLSA : Mel Log Spectrum Approximation LSP : Line spectral pair EM : Expectation-Maximization MSD : Multi-space Probability Distribution MDL : minimum description length HTS : HMM-based Speech Synthesis System API : Application Programming Interface Δ : Delta vii DANH MỤC BẢNG Số hiệu bảng Tên bảng Trang 1.1 Cấu trúc âm tiết tiếng Việt [1] 1.2 Bảng ánh xạ chữ sang âm vị tiếng Việt 3.1 Quy tắc chuyển dấu sang nhãn âm vị 33 3.2 Quy tắc chuyển chữ có dấu mũ sang nhãn âm vị 33 viii DANH MỤC CÁC HÌNH VẼ Số hiệu Tên hình Trang 1.1 (a) Tần số, đường lượng âm vô thanh; (b) tần số, đường lượng âm hữu 1.2 Mơ hình tổng qt việc xử lý tín hiệu tiếng nói [9] 10 1.3 Âm xác định tốt formant chuyển tiếp âm vị chúng [8] 13 1.4 Dạng sóng âm (đồ thị trên) so với đường F0 (đồ thị dưới) 14 2.1 Tổng hợp tiếng nói dựa mơ hình Markov ẩn 15 2.2 Mơ hình nguồn-bộ lọc mơ cách người phát âm 16 2.3 Một HMM có trạng thái (khơng bỏ qua trạng thái từ trái sang phải) sinh chuỗi quan sát (chỉnh sửa từ [3]) 18 2.4 Mơ hình hóa đường F0 hai khơng gian [3] 20 2.5 MSD-HMM cho mơ hình hóa đường F0 [3] 21 2.6 Vector đặc trưng khung tín hiệu [3] 22 2.7 Một ví dụ phân cụm ngữ cảnh dựa định [3] 24 2.8 Sơ đồ khối giai đoạn tổng hợp [3] 25 2.9 Sinh trường độ trạng thái [7] 26 2.10 Quỹ đạo tham số tiếng nói sinh [3] (chỉ hiển thị chiều vector đặc trưng) Các tham số delta hiển thị đại diện cho đặc trưng động 27 3.1 Mô-đun xử lý ngôn ngữ tự nhiên (front-end) 29 3.2 Mơ-đun tổng hợp tiếng nói (back-end) q trình huấn luyện HMM để tạo HTS_voice 30 3.3 Thuật toán chuyển âm tiết thành chuỗi âm vị cho tiếng Việt [2] 34 3.4 Class diagram mô tả class đại diện cho văn 36 4.1 Giao diện chương trình 40 4.2 Giao diện chương trình nhãn ngữ cảnh tạo 41 hình 13 trực tiếp chứa thông tin formant biên độ phổ Do đó, trở thành sở cho việc phân tích tần số formant tín hiệu tiếng nói b) Xác định formant từ phân tích LPC Các tần số formant ước lượng từ tham số dự đoán theo hai cách Cách thứ xác định trực tiếp cách phân tích nhân tử đa thức dự đốn dựa nghiệm thu để định xem nghiệm tương ứng với formant Cách thứ hai sử dụng phân tích phổ chọn formant tương ứng với đỉnh nhọn thuật toán chọn đỉnh biết Một lợi điểm sử dụng phương pháp phân tích LPC để phân tích formant tần số trung tâm formant băng tần chúng xác định cách xác thơng qua việc phân tích nhân tử đa thức dự đốn Một phép phân tích LPC bậc p chọn trước, số khả lớn có điểm cực liên hợp phức p/2 Do đó, việc gán nhãn q trình xác định xem điểm cực tương ứng với formant đơn giản phương pháp khác Ngoài ra, với điểm cực bên ngồi thường dễ dàng phân tách phân tích LPC băng tần chúng thường lớn so với băng tần thông thường formant tín hiệu tiếng nói Hình 1.3 Âm xác định tốt formant chuyển tiếp âm vị chúng [8] 1.6.2 Tần số (F0) Chu kỳ T0: dây rung với chu kỳ T0 thơng lượng biến đổi tuần hồn theo chu kỳ ta gọi T0 chu kỳ 14 Giá trị nghịch đảo T0 F0=1/T0 gọi tần số tiếng nói F0 phụ thuộc vào giới tính lứa tuổi người phát âm; F0 nữ thường cao nam, F0 người trẻ thường cao người già Thường với giọng nam, F0 nằm khoảng từ 80-250Hz, với giọng nữ, F0 khoảng 150-500Hz Sự biến đổi F0 có tính định đến điệu từ ngữ điệu câu Hình 1.4 Dạng sóng âm (đồ thị trên) so với đường F0 (đồ thị dưới) 15 Chương - TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN DỰA TRÊN MƠ HÌNH MARKOV ẨN 2.1 Giới thiệu Phần trình bày tổng quan tổng hợp tiếng nói (THTN) dựa mơ hình Markov ẩn (Hidden Markov model – HMM) Một hệ thống THTN dựa mơ hình HMM điển hình bao gồm hai phần: huấn luyện mơ hình (training) tổng hợp tiếng nói (synthesis), thể hình 2.1 Trong phần huấn luyện, trước tiên tham số phổ (ví dụ hệ số mel-cepstral) tham số kích thích (ví dụ tần số F0) trích xuất từ liệu tiếng nói mẫu Sau tham số trích xuất mơ hình hóa mơ hình HMM phụ thuộc ngữ cảnh Mơ hình trường độ phụ thuộc ngữ cảnh tính tốn giai đoạn Trong phần tổng hợp, văn đầu vào cắt thành câu câu chuyển thành chuỗi nhãn âm vị phụ thuộc ngữ cảnh nhờ mơ-đun phân tích văn Sau đó, HMM mức câu tạo cách ghép nối HMM mức âm vị phụ thuộc ngữ cảnh lại với Các tham số tiếng nói (phổ, nguồn kích thích, trường độ) sinh từ HMM mức câu thuật toán tạo tham số dựa tiêu chuẩn xác suất cực đại Cuối cùng, tín hiệu tiếng nói tổng hợp trực tiếp từ tham số phổ nguồn kích thích sử dụng lọc tổng hợp tiếng nói [7] Hình 2.1 Tổng hợp tiếng nói dựa mơ hình Markov ẩn 2.2 Framework phân tích/tổng hợp tiếng nói Các nghiên cứu phân tích/tổng hợp tiếng nói dựa mơ hình nguồn-bộ lọc mơ cách phát âm người [3] (Hình 2.2) Trong mơ hình này, tín hiệu tiếng nói giả định đầu hệ thống (còn gọi lọc) tuyến tính bất biến theo thời gian, hệ thống bị kích thích tín hiệu kích thích (cịn gọi 16 nguồn) cách luân phiên thay đổi hai nguồn: xung tuần hoàn cho âm hữu (voiced speech) nhiễu trắng cho âm vô (unvoiced speech) Tín hiệu kích thích e(n) mơ cho luồng khơng khí dây âm (bộ phận phát tiếng nói quản), lọc h(n) mô hiệu ứng cộng hưởng tuyến âm (vocal tract) trình phát âm người Để tạo tín hiệu tiếng nói giống với tiếng nói tự nhiên, nguồn kích thích thuộc tính lọc tuyến âm phải thay đổi theo thời gian Hình 2.2 Mơ hình nguồn-bộ lọc mơ cách người phát âm Q trình phân tích tiếng nói phải xem xét đến yếu tố: tính chất tín hiệu tiếng nói biến đổi chậm theo thời gian Do đó, người ta thường giả định đặc tính chung tham số kích thích tuyến âm khơng thay đổi khoảng thời gian ngắn từ 10 đến 40 ms Trong thực tế, khung tín hiệu dài 25 ms với độ dịch khung liên tiếp ms thường sử dụng để trích xuất tham số tín hiệu tiếng nói, bao gồm tham số kích thích tham số phổ Các tham số kích thích bao gồm: tiếng nói hữu hay vơ (voiced/unvoiced), tần số (F0) tiếng nói hữu Các tham số phổ mơ tả đáp ứng tần số lọc mô tuyến âm, thường hệ số mel-cepstral LSP (line spectral pair) Trong luận văn này, hệ số mel-cepstral trích xuất kỹ thuật phân tích melcepstral Để tổng hợp tiếng nói từ tham số nguồn kích thích tham số phổ, lọc tổng hợp phải xây dựng dựa hệ số phổ mel-cepstral Ở đây, lọc MLSA (Mel Log Spectrum Approximation) [3] sử dụng để tổng hợp tín hiệu tiếng nói từ hệ số mel-cepstra thu 2.3 Giai đoạn huấn luyện mơ hình Phần mơ tả cách tham số phổ, F0 trường độ mô hình hố đồng thời tảng hợp mơ hình HMM theo tiêu chuẩn cực đại hố xác suất (Maximum Likelihood) 17 2.3.1 Mơ hình hố phổ HMM có phân bố xác suất liên tục a) HMM có phân bố xác suất liên tục Trong tổng hợp tiếng nói dựa mơ hình HMM, tham số phổ biểu diễn cách sử dụng HMM giống nhận dạng tiếng nói [3] HMM máy trạng thái hữu hạn tạo chuỗi quan sát, nhiên, trạng thái bị ẩn (tức khơng thể quan sát được) Hiểu theo tốn học, HMM q trình ngẫu nhiên kép, trạng thái HMM đơn vị thời gian thay đổi theo xác suất chuyển đổi trạng thái, sau quan sát tạo thông qua hàm phân bố xác suất sinh quan sát ứng với trạng thái • Một HMM có N trạng thái định nghĩa tập tham số mơ hình bao gồm: • Các xác suất trạng thái ban đầu π = { i }iN=1 , i = P ( q1 = i ) (2.1) xác suất trạng thái i thời điểm Các xác suất thoả mãn ràng buộc: N i =1 i = (2.2) • Các xác suất chuyển tiếp trạng thái A = {aij }iN, j =1 , aij = P ( qt +1 = j | qt = i ) (2.3) xác suất chuyển từ trạng thái i sang trạng thái j với giả thuyết xác suất chuyển trạng thái tuân theo trình Markov bậc (có nghĩa xác suất trạng thái thời điểm phụ thuộc vào trạng thái không phụ thuộc vào trạng thái khứ) không phụ thuộc thời gian Các xác suất tuân theo ràng buộc sau: N a = 1, j =1 ij i N • Hàm phân bố xác suất sinh quan sát trạng thái B = {b j (ot )} b j (ot ) = P(ot | qt = j ) (2.4) N j =1 , (2.5) xác suất sinh quan sát ot trạng thái j vào thời điểm t Hàm phân bố xác suất sinh quan sát b j (ot ) rời rạc liên tục tùy thuộc vào quan sát nhận giá trị rời rạc hay liên tục Để đơn giản ký hiệu, tham số mơ hình HMM biểu thị sau: = ( A, B, π ) (2.6) 18 a22 a11 1 a12 b1 (ot ) a33 a 23 b2 (ot ) o1 o2 o3 o4 o5 b3 (ot ) ・・ oT Hình 2.3 Một HMM có trạng thái (khơng bỏ qua trạng thái từ trái sang phải) sinh chuỗi quan sát (chỉnh sửa từ [3]) Hình 2.3 cho thấy HMM với trạng thái có tơ-pơ khơng bỏ qua trạng thái từ trái sang phải Đây cấu hình HMM thường sử dụng để mơ hình hóa chuỗi tham số tiếng nói đơn vị lời nói (ví dụ âm vị) thực tế tín hiệu tiếng nói có thuộc tính biến đổi liên thời gian Trong cấu trúc HMM này, số trạng thái tăng không đổi số thời gian tăng lên Trong hình 2.3, HMM giả định tạo chuỗi quan sát O = (o1 , o2 , , oT ) , có bốn quan sát sinh từ trạng thái Quan sát οt vector tham số tiếng nói D-chiều thu sau tham số hóa khung phân tích số thời gian t (ví dụ vector tham số phổ gồm hệ số mel-cepstral) Đối với việc mơ hình hóa liệu quan sát liên tục theo nhiều chiều, sử dụng mơ hình HMM với phân bố xác suất liên tục, hàm phân bố xác suất sinh quan sát trạng thái thường biểu diễn hỗn hợp phân bố Gaussian đa biến sau M b j (ot ) = w jm N ( ot ; μ jm , Σ jm ) , j N, (2.7) m =1 M số thành phần Gaussian hỗn hợp; w jm , μ jm , Σ jm trọng số, vector trung bình D-chiều, ma trận hiệp phương sai thành phần Gaussian m trạng thái j, tương ứng Chức phân bố xác suất Gaussian (PDF) N ( ot ; μ jm , Σ jm ) định nghĩa N ( ot ; μ jm , Σ jm ) = ( 2 ) D /2 Σ jm 1/2 T exp − ( ot − μ jm ) Σ −jm1 ( ot − μ jm ) (2.8) Khi thành phần vector thuộc tính D-chiều giả định không tương quan với (giả định thường sử dụng tổng hợp tiếng nói dựa mơ hình HMM), Σ jm trở thành ma trận đường chéo phương trình 19 rút gọn sau: D N ( ot ; μ jm , Σ jm ) = i =1 2 jmi ( oti − jmi )2 , exp − jmi (2.9) oti thành phần thứ i ot , jmi thành phần thứ i μ jm , jmi thành phần thứ i ma trận đường chéo Σ jm Đối với việc sử dụng HMM mơ hình hóa tượng thực tế, cần giải cách hiệu ba vấn đề sau đây, có giải pháp tốn học trình bày chi tiết [3]: • Vấn đề (tính xác suất): cho mơ hình HMM , làm để tính xác suất P(O | ) chuỗi quan sát O = (o , o , , o ) T • Vấn đề (xác định chuỗi trạng thái tối ưu): cho mơ hình HMM , làm để xác định chuỗi trạng thái tối ưu q = (q1 , q2 , , qT ) sinh chuỗi quan sát O = (o1 , o2 , , oT ) ? • Vấn đề (tính tham số mơ hình): cho chuỗi quan sát O = (o1 , o2 , , oT ) , làm để xác định tham số mơ hình = ( A, B, π ) cho cực đại hóa xác xuất P(O | ) ? b) Huấn luyện HMM theo tiêu chuẩn xác suất cực đại (maximum likelihood) Khơng có lời giải cho vấn đề (cịn gọi tốn huấn luyện mơ hình) để tìm tập hợp tham số mơ hình = ( A, B, π ) cho cực đại hố xác suất tồn cục chuỗi quan sát cho trước O = (o1 , o2 , , oT ) : ˆ = arg max P(O | ) = arg max P(O, q | ) , (2.10) all q q biểu thị chuỗi trạng thái có thể, biến ẩn Tuy nhiên, tham số mô hình cực đại hố xác suất cục P(O | ) thu cách sử dụng thủ tục lặp ví dụ thuật tốn cực đại hóa kỳ vọng (ExpectationMaximization (EM)) [3] Thuật tốn kỹ thuật dùng rộng rãi thống kê học máy để giải tốn tìm xác suất cực đại mơ hình xác suất có biến ẩn trạng thái HMM 2.3.2 Mô hình hố F0 HMM có phân bố xác suất đa khơng gian Chúng ta mơ hình hố chuỗi tham số phổ có số chiều cố định dùng hàm phân bố xác suất Gauss liên tục Tuy nhiên, khó để sử dụng phân bố xác suất rời rạc liên tục để mơ hình hố tham số có số chiều biến đổi tần số (F0) Đường F0 20 trích xuất từ tín hiệu tiếng nói bao gồm quan sát có giá trị thực đoạn tiếng nói hữu có giá trị không xác định đoạn tiếng nói vơ Nói cách khác, chuỗi quan sát F0 bao gồm giá trị liên tục (một chiều) thể tiếng nói hữu ký hiệu rời rạc (khơng chiều) biểu trưng cho tiếng nói vơ Để mơ hình hóa chuỗi quan sát có số chiều thay đổi, HMM dùng phân bố xác suất đa không gian (Multi-space Probability Distribution - MSD) đề xuất áp dụng cho mơ hình hóa đường F0 tổng hợp tiếng nói dựa HMM [3] Hình 2.4 Mơ hình hóa đường F0 hai khơng gian [3] Hình 2.4 minh hoạ việc mơ hình hố đường F0 sử dụng phân bố xác suất đa không gian, quan sát F0 giả định sinh từ không gian chiều 1 cho đoạn tiếng nói hữu khơng gian khơng chiều 2 cho đoạn tiếng nói vơ Mỗi khơng gian g có trọng số riêng wg đáp ứng ràng buộc xác suất: g =1 wg = (2.11) Khơng gian 1 có hàm mật độ xác suất Gaussian chiều N ( x ) , không gian 2 có điểm mẫu Một quan sát F0 o bao gồm biến ngẫu nhiên liên tục x tập số không gian X , nghĩa o = ( X , x), (2.12) X = 1 cho vùng hữu X = 0 cho vùng vô Xác suất quan sát o xác định sau: b (o ) = gS ( o ) wg N g (V ( o ) ) , (2.13) với V ( o ) = x and S ( o ) = X Chú ý N ( x) để đơn giản ký hiệu Bằng cách sử dụng mơ hình HMM phân bố xác suất sinh quan sát trạng thái MSD xác định phương trình (2.13) (từ gọi 21 MSD-HMM), quan sát F0 miền hữu vơ mơ hình hố mơ hình thống mà khơng có giả thuyết heuristic [7] Hình 2.5 thể cấu trúc MSD-HMM cho việc mơ hình hóa đường F0 Mỗi trạng thái có trọng số MSD (tức trọng số hữu thanh/vơ thanh) biểu diễn xác suất âm hữu âm vô thanh, hàm phân bố xác suất liên tục cho quan sát hữu Việc huấn luyện MSD-HMM theo tiêu chuẩn cực đại hoá xác suất sử dụng thuật toán EM tương tự HMM với hàm mật độ xác suất liên tục Hình 2.5 MSD-HMM cho mơ hình hóa đường F0 [3] Tuy nhiên, phổ F0 mơ hình hóa riêng biệt đoạn tiếng nói khơng thống chúng Để tránh vấn đề này, chúng mơ hình hóa cách kết hợp MSD-HMM đa luồng (multi-stream), phần phổ mơ hình hố phân bố xác suất liên tục phần F0 mơ hình hố MSD (Hình 2.6) Trong hình, ct , X , xtp đại diện cho vector tham số phổ, tập hợp số không gian tham số F0, F0 thời điểm t , đại diện cho tham số delta delta-delta 2.3.3 Tính tốn đặc trưng động Trong THTN dựa mơ hình HMM, khơng tham số phổ F0 (được gọi đặc trưng tĩnh) mà thành phần delta delta-delta tương ứng chúng (được gọi đặc trưng động) mơ hình hố theo HMM Những đặc trưng nắm bắt thuộc tính động quỹ đạo tham số âm Do đó, việc tích hợp đặc trưng động vào vector đặc trưng khung tín hiệu tiếng nói cần thiết cho việc mơ hình hóa sinh quỹ đạo tham số Trong luận văn đặc trưng động tham số phổ xác định sau: ct = 0.5 ( ct +1 − ct −1 ) , (2.14) 2ct = ct +1 − 2ct + ct −1 (2.15) 22 Tương tự, đặc trưng động tham số F0 xác định sau: xtp = 0.5 ( xtp+1 − xtp−1 ) , (2.16) xt p = xtp+1 − xtp + xtp−1 (2.16) Trong miền vô xtp , xtp , xt p ký hiệu rời rạc Đối với khung tín hiệu ranh giới miền hữu vô nơi đặc trưng động F0 tính tốn chúng xác định ký hiệu rời rạc Hình 2.6 Vector đặc trưng khung tín hiệu [3] 2.3.4 Mơ hình hố trường độ Trong THTN dựa mơ hình HMM, nhịp điệu nhanh/chậm tiếng nói tổng hợp điều khiển trường độ (hay độ dài) trạng thái HMM Trường độ trạng thái HMM số lượng khung tín hiệu tiếng nói liên tiếp thuộc (hay sinh bởi) trạng thái Vì sử dụng HMM có cấu trúc từ trái sang phải khơng bỏ qua trạng thái để mơ hình hố âm vị, trạng thái HMM coi mơ hình phần âm vị (sub-phoneme) Để điều khiển linh hoạt trường độ âm vị tổng hợp, độ dài trạng thái HMM mơ hình hóa phân bố Gauss [3] 2.3.5 Mơ hình hố phụ thuộc ngữ cảnh gom cụm ngữ cảnh Sự thể tham số âm phổ, nguồn kích thích, trường độ tiếng nói tự nhiên bị ảnh hưởng yếu tố ngữ âm, ngữ điệu ngôn ngữ học Các yếu tố làm ảnh hưởng đến đặc trưng âm học âm vị gọi ngữ cảnh âm vị Để có tiếng nói tổng hợp chất lượng cao cần biểu diễn tập hợp lớn ngữ cảnh khác Các ngữ cảnh sử dụng rộng rãi cho tổng hợp tiếng nói bao gồm [3]: 23 • Các âm vị kế cận với âm vị xét Thông thường, hai âm vị bên trái bên phải âm vị gọi ngữ cảnh ngữ âm học • Loại âm vị (phụ âm/ngun âm/âm xát/âm bật, hữu thanh/vơ thanh) • Vị trí âm vị, âm tiết, từ, cụm từ đơn vị mức cao (ví dụ vị trí âm vị âm tiết) • Số lượng âm vị, âm tiết, từ, cụm từ đơn vị mức cao (ví dụ số lượng âm vị âm tiết) • Vị trí âm tiết nhấn trọng âm ngơn ngữ có trọng âm (ví dụ tiếng Anh), điệu ngơn ngữ có điệu (ví dụ tiếng Việt) • Vai trị ngơn ngữ học, ví dụ từ loại từ danh/động/tính/đại từ Mỗi âm vị gắn nhãn tích hợp tất thơng tin ngữ cảnh liên quan đến nó, gọi nhãn ngữ cảnh đầy đủ (full-context label) Để xử lý độ phức tạp ngữ cảnh, mơ hình HMM riêng biệt phải sử dụng cho tổ hợp ngữ cảnh xảy ra, gọi mơ hình HMM phụ thuộc ngữ cảnh (context-dependent) Tuy nhiên, tổng số tổ hợp có yếu tố tăng lên theo cấp số nhân với số lượng ngữ cảnh có (khoảng 50) Lượng liệu huấn luyện thường khơng đủ để tính tốn cách đáng tin cậy tất mơ hình HMM phụ thuộc ngữ cảnh có đủ liệu để bao phủ tất tổ hợp ngữ cảnh Bên cạnh có biến đổi lớn số lần xuất âm vị phụ thuộc ngữ cảnh Để khắc phục vấn đề này, gom cụm (clustering) ngữ cảnh dùng định sử dụng phổ biến để nhóm trạng thái HMM chia sẻ tham số mơ hình trạng thái cụm [3] Một ví dụ việc phân cụm ngữ cảnh dựa định thể hình 2.7 Cây định nhị phân Mỗi nút (trừ nút lá) có câu hỏi liên quan đến bối cảnh, chẳng hạn R-silence? ("Là âm vị bên phải R silence?") L-vowel? ("Là âm vị bên trái L vowel?"), hai nút đại diện cho câu trả lời "Có" "Khơng" cho câu hỏi Các nút có phân bố đầu trạng thái Bằng cách sử dụng định dựa nhóm ngữ cảnh, tham số mơ hình đơn vị tiếng nói ngữ cảnh nhập nhằng đạt được, ngữ cảnh đến nút theo hướng xuống theo cấu trúc cây, nút gốc sau chọn nút tùy thuộc vào câu trả lời ngữ cảnh 24 Hình 2.7 Một ví dụ phân cụm ngữ cảnh dựa định [3] Q trình phát triển dựa tiêu chí độ dài mô tả cực tiểu (minimum description length - MDL) [3], trình thể cân độ phức tạp mơ hình độ tăng xác suất liệu huấn luyện, tóm tắt sau: • Tập hợp mơ hình HMM dựa vào ngữ cảnh với phân phối Gaussian đơn trạng thái huấn luyện theo tiêu chí cực đại hố xác suất mơ tả Phần 2.3.1(b) • Phân bố ước lượng tất trạng thái nhóm tập hợp lại đặt nút gốc cây, liệu huấn luyện tính toán với giả thiết tất trạng thái gắn (ví dụ: tham số mơ hình chia sẻ các trạng thái) • nút lá, khả liệu huấn luyện cho phép tăng tối đa nút tách thành hai nút cách sử dụng câu hỏi • Trong số tất nút lá, nút đạt độ dài mơ tả cực tiểu mơ hình tách thành hai nút cách sử dụng câu hỏi bước • Nút chọn chia thành hai độ dài mơ tả mơ hình sau tách nhỏ với độ dài trước Ngược lại, q trình phát triển bị dừng lại • Lặp lại bước 3, 4, trình phát triển bị dừng lại Cần lưu ý rằng, xây dựng cho số trạng thái để tạo cấu trúc chia sẻ tham số Ngoài ra, riêng biệt xây dựng cho tham số phổ, kích thích, trường độ tham số có độ phụ thuộc vào ngữ cảnh riêng 25 2.4 Giai đoạn tổng hợp tiếng nói Trong giai đoạn tổng hợp, văn cần chuyển thành tiếng nói chuyển thành chuỗi nhãn âm vị phụ thuộc vào ngữ cảnh mơ-đun phân tích văn Dựa vào chuỗi nhãn này, HMM mức câu tạo cách ghép nối HMM mức âm vị tương ứng Sau đó, độ dài trạng thái HMM mức câu tính tốn để tối đa hóa xác suất độ dài trạng thái chuỗi trạng thái [3] Dựa độ dài trạng thái thu được, chuỗi hệ số mel-cepstral giá trị F0 sinh cho cực đại hoá xác suất đầu chúng với HMM mức câu [3] Cuối cùng, lọc MLSA [3] sử dụng để tổng hợp dạng sóng tín hiệu tiếng nói từ chuỗi mel-cepstral đường F0 có Tồn q trình tổng hợp minh họa Hình 2.8 Tải FULL (65 trang): bit.ly/2Ywib4t 2.4.1 Phân tích văn Dự phịng: fb.com/KhoTaiLieuAZ Nhiệm vụ mơ-đun phân tích văn trích xuất thơng tin ngữ cảnh chuyển chúng thành chuỗi nhãn ngữ cảnh từ văn đầu vào Luận văn sử dụng lại chỉnh sửa nhãn ngữ cảnh cung cấp công cụ HTS cho phù hợp với tiếng Việt [3] Hình 2.8 Sơ đồ khối giai đoạn tổng hợp [3] 2.4.2 Xác định trường độ trạng thái Cho trước chuỗi nhãn ngữ cảnh W , HMM mức câu ˆ (có cấu trúc từ trái sang phải không bỏ qua trạng thái nào), chiều dài mong muốn (theo đơn vị khung tín hiệu) tiếng nói tổng hợp T , xác suất dãy trạng thái q = (q1 , q2 , , qT ) tính sau [3] 26 K P(q | W , ˆ) = pk (d k ), (2.18) k =1 pk (dk ) xác suất trạng thái k cho khung dk , K số trạng thái HMM ˆ , Tải FULL (65 trang): bit.ly/2Ywib4t Dự phòng: fb.com/KhoTaiLieuAZ K d k = T (2.19) k =1 Khi trường độ trạng thái mơ hình hố phân bố Gauss ( d k − k )2 pk (d k ) = N ( d k ; k , ) = exp − , k 2 k2 k (2.20) trường độ trạng thái {d k }kK=1 cực đại hóa (2.18) ràng buộc phương trình (2.19) xác định sau: d k = k + k2 , k K, K K = T − k / k2 , k =1 k =1 (2.21) (2.22) k k2 giá trị trung bình phương sai hàm mật độ xác suất trường độ trạng thái k (hình 2.9) Hình 2.9 Sinh trường độ trạng thái [7] Cần lưu ý tốc độ nói điều khiển thay T chúng có liên quan với (phương trình 2.21) Để tổng hợp tiếng nói với tốc độ nói trung bình, nên phương trình cụ thể sau: K T = k (2.23) k =1 Để tăng giảm tốc độ nói phải có giá trị tương ứng dương âm 2.4.3 Ảnh hưởng đặc trưng động sinh tham số tiếng nói 27 Chuỗi trạng thái qˆ = (q1 , q2 , , qT ) sử dụng cho q trình tổng hợp dễ dàng suy từ trường độ trạng thái tổng hợp {d k }kK=1 , từ chuỗi vector đặc trưng o = ( o ,o2 , ,o ) (T biểu thị phép chuyển vị ma trận) tạo để tối đa T hóa xác suất đầu ˆ , tham khảo [3], oˆ = arg max P(o | qˆ, ˆ) (2.24) o Phần trình bày tóm tắt ảnh hưởng đặc trưng động trình tạo tham số âm Để đơn giản hóa, giả định phân bố đầu trạng thái phân bố Gauss đa chiều, cụ thể sau: bk (ot ) = N ( ot ; μk , Σk ) , (2.25) μk Σ k vector trung bình ma trận hiệp phương sai trạng thái thứ k Từ phương trình (2.33) (2.34), có sau: oˆ = arg max N ( o; μqˆ , Σqˆ ) , (2.26) o μqˆ = ( μq ,μq , ,μq T ) Σ qˆ = diag ( Σ q ,Σ q , ,Σ q T ) vector trung bình ma trận hiệp phương sai liên quan đến chuỗi trạng thái qˆ Nếu vector đặc trưng thời điểm t bao gồm tham số tĩnh, tức ot = ct chuỗi vector đặc trưng sinh oˆ theo phương trình (2.26) chuỗi vector trung bình μqˆ giả thiết phân bố Gauss (đường ngang màu đỏ Hình 2.10) Các quỹ đạo tham số bị gián đoạn (nhảy bậc biên trạng thái HMM) biểu diễn không tốt tiếng nói tự nhiên Nó làm suy giảm nghiêm trọng chất lượng lời nói tổng hợp không liên tục xảy ranh giới trạng thái Hình 2.10 Quỹ đạo tham số tiếng nói sinh [3] (chỉ hiển thị chiều vector đặc trưng) Các tham số delta hiển thị đại diện cho đặc trưng động Để tạo nhiều quĩ đạo tham số giống tiếng nói thực mối quan hệ đặc trưng tĩnh động đưa vào làm ràng buộc cho tốn tối đa hóa 97926655 ... Nhằm tìm hiểu cơng nghệ tổng hợp tiếng nói dựa HMM áp dụng cho tiếng Việt, chọn đề tài nghiên cứu là: ? ?Ứng dụng mơ hình Markov ẩn xây dựng hệ thống tổng hợp tiếng nói tiếng Việt? ?? Mục đích ý nghĩa... HMM ứng dụng tổng hợp tiếng nói - Xây dựng cài đặt hệ thống tổng hợp tiếng nói tiếng Việt dựa HMM b Ý nghĩa khoa học thực tiễn đề tài - Đóng góp vào lĩnh vực nghiên cứu ứng dụng tổng hợp tiếng nói. .. thích sử dụng lọc tổng hợp tiếng nói [7] Hình 2.1 Tổng hợp tiếng nói dựa mơ hình Markov ẩn 2.2 Framework phân tích /tổng hợp tiếng nói Các nghiên cứu phân tích /tổng hợp tiếng nói dựa mơ hình nguồn-bộ