The overall performance of the systems is often limited by the accuracy of the underlying speech parameterization and reconstruction method. The method proposed in this paper allows accurate MFCC, F0 and tone extraction and high-quality reconstruction of speech signals assuming Mel Log Spectral Approximation filter. Its suitability for high-quality HMM-based speech synthesis is shown through evaluations subjectively.
Tạp chí Tin học Điều khiển học, T.29, S.1 (2013), 55–65 TRÍCH CHỌN CÁC THAM SỐ ĐẶC TRƯNG TIẾNG NÓI CHO HỆ THỐNG TỔNG HỢP TIẾNG VIỆT DỰA VÀO MƠ HÌNH MARKOV ẨN PHAN THANH SƠN, DƯƠNG TỬ CƯỜNG Học viện Kỹ thuật Quân sự; sonphan.hts@gmail.com Tóm tắt Phương pháp tổng hợp tiếng nói dựa mơ hình Markov ẩn (HMM) cần kho ngữ liệu tiếng nói thu âm sẵn đủ lớn (bao hàm tất âm vị ngôn ngữ) để phục vụ cho mục đích huấn luyện Trong phương pháp này, mơ hình thống kê sử dụng để mơ hình hóa phân bố véctơ âm phụ thuộc ngữ cảnh, véctơ trích rút từ tín hiệu tiếng nói, véctơ tham số đặc trưng cho khung tín hiệu qui tắc ngữ âm tiếng Việt, phục vụ cho trình tổng hợp tiếng nói Hiệu hệ thống bị hạn chế mức độ xác tham số hóa đặc trưng tiếng nói phương pháp tái tạo tín hiệu tiếng nói từ tham số Bài báo giới thiệu phương pháp trích chọn tham số MFCC, F0 tái tạo tín hiệu tiếng nói chất lượng cao sử dụng lọc MLSA Phương pháp thích hợp cho tổng hợp tiếng nói dựa HMM kết đánh giá qua thực tế tốt so với số phương pháp khác Từ khóa Tổng hợp tiếng Việt, tham số hóa tiếng nói, tổng hựp tiếng nói tham số thống kê, mơ hình Markov ẩn, hệ số phổ tần số thang Mel, tần số Abstract Recently, the statistical framework based on Hidden Markov Models (HMMs) plays an important role in the speech synthesis method The system can be built without requiring a very large speech corpus for training the system In this method, statistical modeling is applied to learn distributions of context-dependent acoustic vectors extracted from speech signals, each vector contains a suitable parametric representation of one speech frame and Vietnamese phonetic rules to synthesize the speech The overall performance of the systems is often limited by the accuracy of the underlying speech parameterization and reconstruction method The method proposed in this paper allows accurate MFCC, F0 and tone extraction and high-quality reconstruction of speech signals assuming Mel Log Spectral Approximation filter Its suitability for high-quality HMM-based speech synthesis is shown through evaluations subjectively Key words Vietnamese speech synthesis, context-dependent, speech parameterization, statistical parametric speech synthesis, Hidden Markov Models, mel-frequency cepstral coefficient, fundamental frequency GIỚI THIỆU Các phương pháp tổng hợp tiếng nói mức thấp kể đến là: mô máy phát âm, tổng hợp format, ghép nối tổng hợp tham số thống kê dựa mơ hình Markov ẩn Về mặt lý thuyết, phương pháp tổng hợp máy phát âm cho chất lượng tiếng nói xác phương pháp mơ hệ thống tạo tiếng nói người 56 PHAN THANH SƠN, DƯƠNG TỬ CƯỜNG cách trực tiếp, nhược điểm phương pháp khó tiếp cận Tổng hợp format dựa việc mơ hình hóa cộng hưởng dây phát âm, phương pháp tiếp cận tổng hợp tiếng nói phổ biến vài thập niên qua Tổng hợp ghép nối phương pháp dựa ghép nối lượng lớn mẫu thu âm sẵn để tạo tiếng nói với chất lượng tự nhiên Phương pháp ứng dụng phổ biến hệ thống tổng hợp tiếng nói có sử dụng server (chẳng hạn hệ thống giải đáp, trả lời tự động, hệ thống dịch tiếng nói), nhược điểm hệ thống thụ động, không linh hoạt (phụ thuộc vào server), không ổn định, thời gian đáp ứng (phụ thuộc vào đường truyền), đặc biệt cần khả tổng hợp tiếng nói với nhiều đặc trưng giọng nói ngữ điệu khác Một lý xuất phát từ thực tế, khó chuẩn bị, tổ chức lưu trữ số lượng lớn liệu tiếng nói nhiều người khác với cách nói khác Hệ thống tổng hợp tiếng nói tham số thống kê dựa HMM (HTS) nghiên cứu phát triển phổ biến vài năm gần để khắc phục nhược điểm tổng hợp theo phương pháp ghép nối Bên cạnh đó, nghiên cứu, cải tiến thuật toán nhằm nâng cao chất lượng tín hiệu tiếng nói tổng hợp từ tham số tham số thống kê, dựa mơ hình Markov ẩn, chủ đề quan tâm [1] HTS địi hỏi tín hiệu đầu vào phải dịch thành tập véc tơ dễ xử lý với đặc trưng tốt Do đó, hệ số Mel-frequency Cepstral Coefficients - MFCC (sử dụng nhiều lĩnh vực xử lý tiếng nói) sử dụng để mơ hình hóa phổ tiếng nói hệ thống tổng hợp chuyển đổi tiếng nói [1] Ngồi khả mơ hình hóa phổ, MFCCs cịn có ưu điểm bật chúng cho phép sử dụng ma trận hiệp phương sai chéo hóa, thành phần riêng biệt véc tơ tương quan với Đặc trưng HTS hệ thống có khả huấn luyện mơ hình tổng hợp tiếng nói khơng phụ thuộc ngơn ngữ cần kho ngữ liệu thu âm đủ lớn (chứa đủ âm vị cần có ngơn ngữ) Vì vậy, chọn HTS để cải tiến làm công cụ tổng hợp tiếng Việt (là ngôn ngữ đơn lập âm tiết tính có điệu) Đồng thời tiến hành thu âm xây dựng tập liệu tiếng nói tiếng Việt, phục vụ cho việc thử nghiệm tổng hợp so sánh, đánh giá kết Tín hiệu tiếng nói dạng sóng sở liệu phân đoạn gán nhãn với thông tin ngữ cảnh điệu, âm tiết, từ, cụm từ câu nói để làm đầu vào cho q trình huấn luyện mơ hình tái tạo tiếng nói từ mơ hình [2] Bố cục báo gồm: Mục giới thiệu tổng quan, Mục mô tả sơ lược hệ thống tổng hợp tiếng nói áp dụng cho tiếng Việt dựa HTS Các kết thử nghiệm tổng hợp tiếng Việt đề cập đến Mục 3, chất lượng tiếng nói tổng hợp so sánh, đánh giá Mục 4, cuối kết luận định hướng nghiên cứu HỆ THỐNG TỔNG HỢP TIẾNG NÓI THAM SỐ THỐNG KÊ DỰA TRÊN HMM Về mặt lý thuyết, tín hiệu tiếng nói tổng hợp từ vectơ đặc trưng Trong HTS, vectơ đặc trưng bao gồm tham số phổ (các MFCC điệu, trường độ, tần số khác) tham số nguồn kích thích (tần số F0) Hình mô tả pha huấn luyện hệ thống tổng hợp tiếng nói tiếng Việt, phần này, TRÍCH CHỌN CÁC THAM SỐ ĐẶC TRƯNG TIẾNG NÓI CHO HỆ THỐNG TỔNG HỢP TIẾNG VIỆT 57 Hình Pha huấn luyện hệ thống tổng hợp tiếng nói dựa HMM tham số phổ (MFCC) tham số nguồn kích thích (tần số bản) trích chọn từ sở liệu tiếng nói, sau chúng mơ hình HMM phụ thuộc ngữ cảnh Hình Pha tổng hợp hệ thống tổng hợp tiếng nói dựa HMM Hình minh họa pha tổng hợp hệ thống tổng hợp tiếng Việt, pha này, từ chuỗi nhãn phụ thuộc ngữ cảnh văn cần tổng hợp mà chuỗi HMM phụ thuộc ngữ cảnh tương ứng chúng chọn từ sở liệu HMM Sau đó, tham số phổ, tham số trường độ tham số kích thích sinh từ chuỗi HMM cách sử dụng thuật tốn sinh tham số [5] Cuối cùng, thơng qua lọc tổng hợp, tham số tổng hợp thành tín hiệu tiếng nói dạng sóng [6] Tham số phổ, tham số trường độ nguồn kích thích tham số cần thiết cho lọc tổng hợp, tham số phải mơ hình đồng thời HMM Chi tiết phần huấn luyện tổng hợp áp dụng cho tổng hợp tiếng nói tiếng Việt miêu tả sau: A Pha huấn luyện 58 PHAN THANH SƠN, DƯƠNG TỬ CƯỜNG Trong phần huấn luyện, đầu vào câu nói thu âm sẵn mơ tả mức âm vị chúng, tiếp HMM phụ thuộc ngữ cảnh âm vị huấn luyện từ tham số phổ nguồn kích thích với đặc trưng động chúng Các tham số phổ mơ hình thơng qua việc sử dụng HMM phân bố liên tục [7], tham số kích thích lại mơ hình cách sử dụng HMM phân bố xác suất đa không gian (Multi-Space probability Distribution HMMs, MSD-HMM) để khắc phục đan xen âm hữu vô [8] Đồng thời mật độ thời gian trạng thái mơ hình phân bố Gaussian đơn [4] Quá trình huấn luyện HMM âm vị sử dụng đồng thời tham số phổ, tham số trường độ tham số kích thích chế thống thông qua việc sử dụng MSD-HMM phân bố Gauss đa chiều [8] Trong đó, q trình huấn luyện HMM phụ thuộc ngữ cảnh sử dụng đồng thời tần số F0 MFCC Quá trình phân cụm phụ thuộc ngữ cảnh phân bố Gauss thực độc lập với phổ, tần số thời gian trạng thái hệ số phâm cụm khác 1) Mơ hình hóa phổ tín hiệu Trong cách tiếp cận báo này, MFCC gồm tham số điệu, thời gian trạng thái hệ số delta delta-delta tương ứng chúng sử dụng tham số phổ Các hệ số delta delta-delta tương ứng với tham số điệu, thời gian trạng thái tính tốn nhằm phản ánh biến thiên tiếng nói theo thời gian Các giá trị delta tính tốn dựa giá trị MFCC khung tín hiệu lân cận Ngồi giá trị delta delta (hay cịn gọi acceleration) tính tốn từ giá trị delta tính tốn Các chuỗi vectơ MFCC (trích chọn từ sở liệu tiếng nói), mơ hình HMM mật độ liên tục Kỹ thuật phân tích cho phép tổng hợp tiếng nói từ MFCC nhờ sử dụng lọc Mel Log Spectral Approximation (MLSA) [10] Các MFCC trích chọn thơng qua phân tích Mel-cepstral bậc 24 (giá trị tối ưu rút từ thực nghiệm với nhiều ngôn ngữ khác nhau), sử dụng cửa sổ Hamming 40 ms, độ dịch khung ms Các xác suất đầu MFCC tương ứng với phân bố Gauss đa biến [2] 2) Mơ hình hóa nguồn kích thích Các tham số nguồn kích thích bao gồm logarit tần số (log F 0) hệ số delta delta-delta tương ứng chúng Chuỗi tham số log F vùng âm vô mơ hình HMM dựa phân bố xác suất đa khơng gian [8] 3) Mơ hình hóa thời gian trạng thái Mật độ thời gian trạng thái mơ hình thơng qua phân bố Gauss đơn [4] Chiều mật độ số trạng thái HMM, chiều thứ n mật độ thời gian trạng thái tương ứng với trạng thái thứ n HMM Cấu trúc HMM bao gồm trạng thái trái sang phải, không bỏ qua trạng thái Hiện nay, có nhiều kỹ thuật huấn luyện HMM sử dụng mật độ thời gian trạng thái đồng thời Tuy nhiên, kỹ thuật địi hỏi khơng gian lưu trữ lớn khả tính tốn hệ thống Trong báo này, mật độ thời gian trạng thái ước lượng cách sử dụng xác suất xuất trạng thái nhận lần lặp cuối q trình tái ước lượng nhúng [4] TRÍCH CHỌN CÁC THAM SỐ ĐẶC TRƯNG TIẾNG NÓI CHO HỆ THỐNG TỔNG HỢP TIẾNG VIỆT 59 4) Các yếu tố ngữ cảnh phụ thuộc ngơn ngữ Có nhiều yếu tố ngữ cảnh (ví dụ như: nhận dạng âm tố, trọng âm, phương ngữ, điệu) có ảnh hưởng đến phổ, cao độ thời gian trạng thái Chú ý HMM phụ thuộc ngữ cảnh tương ứng với âm vị Các yếu tố ngữ cảnh phụ thuộc ngơn ngữ sử dụng HTS nhãn ngữ cảnh yếu tố phân cụm ngữ cảnh Do tiếng Việt ngơn ngữ có điệu, nên cần có tập phát âm phụ thuộc điệu tập ngữ âm yếu tố điệu tính tương ứng để xây dựng định Vấn đề phân cụm ngữ cảnh dựa vào thiết kế để có điệu xác vấn đề quan trọng tốn tổng hợp ngơn ngữ điệu, có tiếng Việt [11, 12] Một số thơng tin ngữ cảnh cần thiết cho q trình gán nhãn liệu tiếng nói tiếng Việt kể đến [2]: a) Mức âm vị: • Âm vị trước, âm vị tại, hai âm vị phía sau; • Vị trí âm vị âm tiết (tính từ đầu từ cuối âm tiết); b) Mức âm tiết: • Thanh điệu âm tiết trước, âm tiết tại, âm tiết phía sau; • Số lượng âm vị âm vị trước, âm vị tại, âm vị sau; • Vị trí âm tiết từ (tính từ đầu từ cuối từ); • Mức độ trọng âm (thể điệu tính); • Khoảng cách đến âm tiết có trọng âm trước đến âm tiết có trọng âm sau; c) Mức từ: • Loại từ (Part-of-speech) từ trước, từ từ phía sau; • Số lượng âm tiết từ trước, từ từ phía sau; • Vị trí từ cụm từ; • Số lượng từ nhóm từ {trước, sau} tính từ vị trí tại; • Khoảng cách đến từ trước từ sau tính từ vị trí tại; d) Mức cụm từ: • Số lượng âm tiết, từ cụm từ trước, cụm từ cụm từ phía sau; • Vị trí cụm từ câu nói; e) Mức câu nói: • Số lượng âm tiết, từ, cụm từ câu nói; 5) Phân cụm ngữ cảnh dựa vào định Trong số trường hợp, liệu tiếng nói khơng có đủ số mẫu ngữ cảnh sinh nhãn ngữ cảnh khơng tương ứng với HMM tập mơ hình huấn luyện Vì vậy, để khắc phục vấn đề này, kỹ thuật phân cụm ngữ cảnh dựa vào định áp dụng vào phân bố tham số phổ, tần số thời gian trạng thái Để thực phân cụm ngữ cảnh dựa định, số yếu tố định cần phải xây dựng tuân theo để phân cụm âm vị Sau đó, yếu tố định mở rộng dần để bao hàm tất thông tin ngữ cảnh, chẳng hạn điệu, âm tiết, từ, cụm từ câu nói Các yếu tố định pha huấn luyện HTS phân chia theo đặc tính ngữ âm điệu, nguyên âm, bán nguyên âm, âm đôi 60 PHAN THANH SƠN, DƯƠNG TỬ CƯỜNG phụ âm Các âm vị điệu phân lớp để xây dựng yếu tố định áp dụng vào trình sinh định Hình Phân cụm ngữ cảnh dựa vào định Hình minh họa định phổ, F0 thời gian trạng thái trước chúng sử dụng pha tổng hợp B Pha tổng hợp Trong pha tổng hợp, tham số tiếng nói sinh từ tập HMM phụ thuộc ngữ cảnh thứ tự theo chuỗi nhãn ngữ cảnh tương ứng với phát âm văn cần tổng hợp Các tham số kích thích Mel-cepstral sinh sử dụng để tạo tín hiệu tiếng nói dạng sóng thơng qua mơ hình nguồn lọc (bộ lọc tổng hợp) Ưu điểm phương pháp tiếp cận trích rút đặc trưng âm phát âm phụ thuộc ngữ cảnh kho ngữ liệu tiếng nói Các đặc tính tiếng nói tổng hợp dễ dàng thay đổi cách điều chỉnh tham số HMM hệ thống hồn tồn áp dụng cho ngôn ngữ khác Pha tổng hợp HTS mơ tả Hình Trong phần này, đoạn văn tùy ý phân tích chuyển đổi thành chuỗi nhãn phụ thuộc ngữ cảnh Sau đó, tùy thuộc vào chuỗi nhãn mà câu HMM sinh cách ghép nối HMM phụ thuộc ngữ cảnh lại với Các mơ hình thời gian trạng thái câu HMM xác định để cực đại hóa lân cận mật độ thời gian trạng thái [6] Tùy thuộc vào thời gian trạng thái mà chuỗi MFCC giá trị tham số kích thích (bao gồm âm hữu vô thanh) tạo từ câu HMM cách sử dụng thuật toán sinh tham số tiếng nói [5] Cuối cùng, tiếng nói tổng hợp trực tiếp từ MFCC giá trị tham số kích thích thơng qua lọc MLSA [10] TRÍCH CHỌN CÁC THAM SỐ ĐẶC TRƯNG TIẾNG NÓI CHO HỆ THỐNG TỔNG HỢP TIẾNG VIỆT 61 Hình Phần tổng hợp hệ thống THỬ NGHIỆM Ở đây, ta sử dụng hai ngữ liệu tiếng Việt Phịng Nhận dạng cơng nghệ tri thức để tiến hành thử nghiệm đánh giá kết hệ thống tổng hợp thống kê dựa HMM Tất liệu tiếng nói thu âm lấy mẫu 48 kHz, kênh đơn (mono chanel) mã hóa định dạng PCM 16 bit, sau tín hiệu tiếng nói chuyển đổi tần số lấy mẫu 16 kHz, định khung 40 ms với cửa sổ Hamming độ dịch khung 8ms trước đưa vào hệ thống để huấn luyện Hai liệu tiếng Việt: 500 câu giọng nam (trong 568 câu giọng miền Nam) 500 câu giọng nữ (trong 567 câu giọng miền Bắc) sử dụng riêng biệt cho trình huấn luyện HMM phụ thuộc ngữ cảnh Các MFCC F tính tốn cho câu nói thu âm nhờ sử dụng cơng cụ SPTK [14] Các vectơ đặc trưng phổ, điệu vectơ tham số cao độ (F0) bao gồm MFCC bậc 24 (giá trị cho hiệu với tín hiệu lấy mẫu tần số 16 kHz thông qua nhiều thực nghiệm), giá trị logarit F0 (mục đích để chuyển giá trị F0 sang miền khác mà giá trị tương ứng chúng dễ biểu diễn đồng thời phép tính chuyển từ phép nhân sang phép cộng), hệ số delta delta-delta chúng Qua nhiều thực nghiệm có thay đổi tham số tham khảo từ cơng trình tương tự tác giả giới, cuối chọn sử dụng hình trạng HMM trạng thái trái sang phải với phân bố Gauss đơn, huấn luyện nhúng sử dụng thuật tốn cực đại hóa kỳ vọng (EM – expectation maximization, phương pháp lặp để tìm khả cực đại ước lượng hậu nghiệm, MAP, cực đại) lặp 20 lần để tạo tham số tiếng nói, phạm vi tần số trích chọn tham số F0 khoảng từ 80-450 Hz (bao hàm giọng nam giọng nữ) Các nhãn phụ thuộc ngữ cảnh hai liệu tiếng nói tiếng Việt sinh tự động từ văn tương ứng nhờ sử dụng phân tích văn tiếng Việt [2] Ngồi ra, chúng tơi sử dụng kỹ thuật phân cụm ngữ cảnh dựa định để huấn luyện HMM phụ thuộc ngữ cảnh tương 62 PHAN THANH SƠN, DƯƠNG TỬ CƯỜNG ứng với tham số phổ, F0 thành phần tuần hoàn khác Trong phần tổng hợp đánh giá, chúng tơi sử dụng phần liệu cịn lại (68 câu giọng nam 67 câu giọng nữ) ngữ liệu nói Q trình tổng hợp thực trường hợp: a) Tổng hợp giọng nam phần liệu giọng nam Các HMM phụ thuộc ngữ cảnh thu sau trình huấn luyện 500 câu nói giọng nam (giọng miền Nam), sau HMM kết hợp với 68 chuỗi văn cần tổng hợp gán nhãn (phân tích văn gán nhãn thực theo [2] [13]) Từ mơ hình này, sử dụng thuật toán sinh tham số để tạo tham số vectơ phổ MFCC tham số nguồn kích thích (F0 hay cao độ) Cuối cùng, tham số tổng hợp thành tiếng nói dạng sóng thơng qua lọc tổng hợp (MLSA) b) Tổng hợp giọng nữ phần liệu giọng nữ Tương tự trình huấn luyện tổng hợp giọng nam trên, 500 câu nói giọng nữ (miền Bắc) sử dụng để huấn luyện HMM phụ thuộc ngữ cảnh, sau kết hợp với chuỗi nhãn 67 câu lại để sinh vectơ tham số cần thiết cho trình tổng hợp tiếng nói c) Tổng hợp giọng nam phần liệu giọng nữ Một mở rộng phần tổng hợp đánh giá kết khác sử dụng HMM giọng nam huấn luyện để tổng hợp 67 câu văn gán nhãn phần lại liệu giọng nữ Kết so sánh, đánh giá với kết phần b câu nói thu âm gốc liệu d) Tổng hợp giọng nữ phần liệu giọng nam Tương tự phần c), HMM thu sau huấn luyện giọng nữ sử dụng để tổng hợp 68 câu văn gán nhãn lại liệu giọng nam Sau đó, so sánh, đánh giá kết với kết phần a) liệu gốc ĐÁNH GIÁ KẾT QUẢ Trong phần thực so sánh, đánh giá khách quan chất lượng tiếng nói tổng hợp sử dụng phương pháp thống kê sở HMM Đánh giá chủ quan thực thông qua phương pháp so sánh tương đồng ảnh phổ (spectrogram) đường bao cao độ kết tổng hợp liệu gốc Do trình sinh tham số sử dụng giá trị trung bình mơ hình thời gian trạng thái, nên trường độ (khoảng thời gian nghỉ âm tiết) câu nói tổng hợp khác với trường độ câu nói liệu gốc Trong phần thử nghiệm, sử dụng chuỗi trạng thái (thu từ q trình force-align) với mơ hình phổ cao độ, để sinh tham số tiếng nói Vì thế, đánh giá kết thử nghiệm thơng qua so sánh tín hiệu tiếng nói tổng hợp tiếng nói thu âm gốc mà khơng quan tâm đến đặc trưng trường độ câu kết Hình so sánh ảnh phổ câu nói: (a) tổng hợp từ mơ hình giọng nữ miền Bắc, (b) tổng hợp từ giọng nam miền Nam (c) thu âm gốc văn “Lại phải đánh thơi” (trích truyện đọc “Dế mèn phiêu lưu ký nhà văn Tơ Hồi”, thu âm giọng nữ) Chú ý trục thời gian, ta thấy cho khác trường độ kết tổng hợp câu nói thu âm gốc TRÍCH CHỌN CÁC THAM SỐ ĐẶC TRƯNG TIẾNG NÓI CHO HỆ THỐNG TỔNG HỢP TIẾNG VIỆT 63 Hình Ảnh phổ câu nói: (a) tổng hợp từ mơ hình giọng nữ miền Bắc, (b) tổng hợp từ mơ hình giọng nam miền Nam (c) thu âm gốc văn “Lại phải đánh thơi” Hình minh họa tương đồng đường bao cao độ câu nói: (a) tổng hợp từ mơ hình giọng nữ miền Bắc, (b) tổng hợp từ mơ hình giọng nam miền Nam (c) thu âm gốc văn “Lại phải đánh thơi” Trong hình 6, nhận thấy có đồng dạng tương đối đường bao cao độ kết liệu gốc Chú ý trục tần số, ta thấy có khác tần số (F0) giọng nam giọng nữ KẾT LUẬN Bài báo đề xuất hệ thống tổng hợp tiếng nói thống kê dựa HMM, phát triển cho tổng hợp tiếng Việt Trong đó, tập trung trích chọn tham số đặc trưng phổ, điệu, thời gian trạng thái tần số để mơ hình hóa đồng thời sử dụng HMM Thông tin ngữ cảnh lựa chọn cho việc phân cụm ngữ cảnh định, sử dụng để huấn luyện HMM, xây dựng dựa vào tập âm có điệu, kết hợp với tập lựa chọn ngữ âm ngữ điệu định tương ứng Hệ thống tổng hợp tiếng nói dựa HMM thử nghiệm hai liệu huấn luyện với thời gian tiếng Kết tiếng nói hệ thống tổng hợp tiến hành đánh giá sơ dựa 64 PHAN THANH SƠN, DƯƠNG TỬ CƯỜNG Hình Đường bao cao độ câu nói: (a) tổng hợp từ mơ hình giọng nữ miền Bắc, (b) tổng hợp từ mơ hình giọng nam miền Nam (c) thu âm gốc văn “Lại phải đánh thôi” đánh giá cảm nhận người nghe, mang tính chất chủ quan, dựa việc so sánh ảnh phổ đường bao cao độ (thực chất F0) Kết đánh giá cho thấy hệ thống đề xuất tổng hợp tiếng nói tiếng Việt với chất lượng gần với tiếng nói tự nhiên Tóm lại, với hệ thống này, tổng hợp tiếng nói với đặc điểm giọng nói khác nhau, ví dụ cảm xúc, trọng âm, phương pháp thích nghi người nói kỹ thuật nội suy người nói Trong tương lai, việc tập trung nghiên cứu, áp dụng yếu tố ngữ cảnh điều kiện phân cụm ngữ cảnh, cải tiến trình xử lý văn đánh giá tiếng nói tổng hợp để đạt mục tiêu chất lượng tiếng nói tổng hợp tốt tổng hợp tiếng nói với đặc tính âm học khác TÀI LIỆU THAM KHẢO [1] H Zen, K Tokuda, A W Black, Statistical parametric speech synthesis, Speech Communication 51 (11) (2009) 1039–1064 [2] Thang Tat Vu, Mai Chi Luong, Satoshi Nakamura, An HMM-based Vietnamese speech synthesis system, Proc Oriental COCOSDA, Urumqi, China, 2009 [3] K Tokuda, T Masuko, N Miyazaki and T Kobayashi, Hidden Markov models based on multispace probability distribution for pitch pattern modeling, Proc of ICASSP, Phoenix, Arizona, USA, 1999 [4] T Yoshimura, K Tokuda, T Masuko, T Kobayashi, and T Kitamura, Duration modeling in HMM-based speech synthesis system, Proc of ICSLP, tập 2, Sydney, Australia, 1998 (29—32) [5] K Tokuda, T Yoshimura, T Masuko, T Kobayashi, and T Kitamura, Speech parameter generation algorithms for HMM-based speech synthesis, Proc.ICASSP 2000, Orlando, Florida, USA, June 2000 (1315—1318) TRÍCH CHỌN CÁC THAM SỐ ĐẶC TRƯNG TIẾNG NÓI CHO HỆ THỐNG TỔNG HỢP TIẾNG VIỆT 65 [6] T Yoshimura, “Simultaneous modeling of phonetic and prosodic parameters, and characteristic conversion for HMM-based text-to-speech systems", Doctoral Dissertation, Nagoya Institute of Technology, January 2002 [7] K Tokuda, H Zen, and A Black, An HMM-based speech synthesis system applied to English, IEEE Speech Synthesis Workshop, Santa Monica, USA, 2002 [8] K Tokuda, T Masuko, N Miyazaki, and T Kobayashi, Multi-space probability distribution HMM, IEICE 85-d (3) (2002) [9] T Fukada, K Tokuda, T Kobayashi, and S Imai, An adaptive algorithm for Mel-cepstral analysis of speech, Proc of ICASSP, tập 1, San Francisco, California, 1992 (137—140) [10] S Imai, Cepstral analysis synthesis on the mel frequency scale, Proc of ICASSP, Boston Massachusetts, 1983 (93—96) [11] T.T Vu, T.K Nguyen, H.S Le, C.M Luong, Vietnamese tone recognition based on MLP neural network, Proc Oriental COCOSDA, Kyoto, Japan, 2008 [12] H Mixdorff, H B Nguyen, H Fujisaki, C M Luong, Quantitative analysis and synthesis of syllabic tones in Vietnamese, Proc EUROSPEECH, Geneva, 2003 (177-180) [13] Phan Thanh Son, Vu Tat Thang, HMM-based Speech Synthesis for Vietnamese language, Kỷ yếu Hội nghị Khoa học kỷ niệm 45 năm thành lập trường Đại học Điện lực, Hà Nội, 10-2011 [14] Department of Computer Science, Nagoya Institute of Technology, “Speech Signal Processing Toolkit, SPTK 3.0 Reference manual”, http://ktlab.ics.nitech.ac.jp/˜tokuda/SPTK/, Japan, 122003 [cập nhật 28-4-2011] Ngày nhận 17 - - 2012 Ngày lại sau sửa ngày 13 - - 2013 ... tần số khác) tham số nguồn kích thích (tần số F0) Hình mơ tả pha huấn luyện hệ thống tổng hợp tiếng nói tiếng Việt, phần này, TRÍCH CHỌN CÁC THAM SỐ ĐẶC TRƯNG TIẾNG NÓI CHO HỆ THỐNG TỔNG HỢP TIẾNG... gian, ta thấy cho khác trường độ kết tổng hợp câu nói thu âm gốc TRÍCH CHỌN CÁC THAM SỐ ĐẶC TRƯNG TIẾNG NÓI CHO HỆ THỐNG TỔNG HỢP TIẾNG VIỆT 63 Hình Ảnh phổ câu nói: (a) tổng hợp từ mơ hình giọng... trực tiếp từ MFCC giá trị tham số kích thích thơng qua lọc MLSA [10] TRÍCH CHỌN CÁC THAM SỐ ĐẶC TRƯNG TIẾNG NÓI CHO HỆ THỐNG TỔNG HỢP TIẾNG VIỆT 61 Hình Phần tổng hợp hệ thống THỬ NGHIỆM Ở đây,