Luận án Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CƠNG NGHỆ Ngơ Hồng Huy NGHIÊN CỨU CÁC ĐẶC TRƯNG TÍN HIỆU VÀ RÀNG BUỘC NGƠN ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG TỔNG HỢP VÀ NHẬN DẠNG TIẾNG VIỆT Chuyên ngành: Cơ sở Toán học cho Tin học Mã số: 62 46 01 10 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Lương Chi Mai PGS.TS Ngô Quốc Tạo Hà Nội – 2016 Cơng trình hồn thành tại: Viện Hàn lâm Khoa Học Công Nghệ Việt Nam Học viện Khoa học Công nghệ Người hướng dẫn khoa học: PGS.TS Lương Chi Mai PGS.TS Ngô Quốc Tạo Phản biện 1: TS Trịnh Anh Tuấn Phản biện 2: TS Nguyễn Phú Bình Phản biện 3: PGS.TS Vũ Kim Bảng Luận án bảo vệ trước Hội đồng chấm luận án cấp Học viện họp tại: …….……………………………………………………………………… Vào hồi ngày tháng năm Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Thư viện Học viện Khoa học Công nghệ, Viện Hàn lâm Khoa học Công nghệ Việt Nam Phạm vi, nội dung, phương pháp nghiên cứu kết cấu luận án Cấu trúc tổng thể luận án Hình 1.2 chương cịn lại luận án tổ chức sau: Chương Tổng quan tổng hợp nhận dạng tiếng nói Chương Xử lý tiếng nói mơ hình học máy Chương Dự báo trường độ, âm lượng tổng hợp điệu tiếng việt Chương Kết hợp tham số cấu âm, formant điệu để nâng cao chất lượng nhận dạng tiếng Việt Phụ lục Luận án Chương tổng quan tổng hợp nhận dạng tiếng nói Tổng hợp tiếng nói Nhận dạng tiếng nói Các cơng trình xuất liên quan Chương xử lý tiếng nói mơ hình học máy Xử lý tiếng nói Mơ hình dự báo CART Mơ hình Markov ẩn (HMM, Hidden Markov Model) Chương Dự báo trường độ, âm lượng tổng hợp điệu tiếng việt Khảo sát số đặc tính âm học tiếng Việt Chương kết hợp tham số cấu âm, formant điệu để nâng cao chất lượng nhận dạng tiếng Việt Dự báo thông tin trường độ, âm lượng âm tiết tiếng Việt ngữ cảnh câu, thử nghiệm đánh giá hệ thống tổng hợp tiếng Việt theo phương pháp ghép nối Nhận dạng điệu tiếng Việt Đặc trưng MFCC với phép chuẩn hóa độ dài cấu âm VTLN kết hợp với F0 Hệ thống nhận dạng tiếng Việt nhúng CHƯƠNG TỔNG QUAN VỀ TỔNG HỢP VÀ NHẬN DẠNG TIẾNG NÓI Chương trình bày khái niệm tổng hợp nhận dạng tiếng nói, khái quát phạm vi ứng dụng nhận dạng, tổng hợp tiếng nói sống Trong chương này, phương pháp tiếp cận nhận dạng, tổng hợp tiếng nói đại, so sánh ưu, nhược điểm phương pháp giới thiệu, từ đề xuất sử dụng đặc trưng ngơn điệu để nâng cao chất lượng nhận dạng tổng hợp tiếng Việt Phần chương này, luận án đề cập đến kiến thức bản,liên quan đến xử lý tiếng nói, trích chọn đặc trưng mơ hình học máy sử dụng luận án gồm HMM CART 1.1 Tổng hợp tiếng nói Hình 1 Hệ thống TTS tổng quát Nói chung trình Tổng hợp tiếng nói bao gồm giai đoạn chính: i) Chuẩn hóa văn phân tích câu - xử lý ngôn ngữ tự nhiên ii) Chuyển văn sang đơn vị tiếng nói iii) Dự báo ngơn điệu iv) Sinh tiếng nói Câu tổng hợp chưa thay đổi trường độ/âm lượng “Tơi học nói tiếng Việt” Thay đổi trường độ/âm lượng câu tổng hợp Hình Xử lý ngôn điệu tiếng Việt 1.2 Nhận dạng tiếng nói Độ phức tạp hệ thống nhận dạng tiếng nói thường phụ thuộc vào yếu tố sau : - Môi trường thu nhận tín hiệu - Tập từ vựng sử dụng - Sự phụ thuộc vào người nói - Kiểu phát âm (rời rạc, kết nối, liên tục) Hình 1.3 Liệt kê kiểu hệ thống nhận dạng tiếng nói - Tài nguyên hệ thống Bảng 1 Các loại nhận dạng tiếng nói Chế độ nói : liên tục Người nói : phụ thuộc độc lập người nói Mơi trường thu nhận tín hiệu Từ vựng : vừa nhỏ Kiểu nói : tự nhiên mệnh lệnh Độ xác nhận dạng môi trương : nhà ở-văn phịng; tơ; mơi trường cơng nghiệp; nguồn âm có khoảng cách với mic khác nhau, nguyên nhân tín hiệu nhiễu, tiếng vang gây Bảng Phân loại môi trường theo mức nhiễu Mơi trường nhà ở-văn phịng tơ Mơi trường tự nhiên-công nghiệp Độ nhiễu [20dB,30dB] [-5dB, 10dB] [-5dB, 10dB] Tập từ vựng Căn vào số lượng từ nhận dạng mà người ta chia hệ thống sử dụng cơng nghệ nhận dạng tiếng nói làm ba loại: số lượng từ vựng nhỏ (30-100), số lượng từ vựng trung bình (100500), số lượng từ vựng lớn (> 500) Sự phụ thuộc người nói Trong hệ thống nhận dạng phụ thuộc người nói, chủ thể tương tác với hệ thống phải người có liệu tiếng nói tập liệu huấn luyện ban đầu hệ thống Đối với hệ thống nhận dạng độc lập người nói, người tương tác với hệ thống Hệ thống địi hỏi phải có nguồn liệu tiếng nói kích thước lớn nhiều người nói Khả nhận dạng xác hệ thống độc lập người nói thấp hệ thống phụ thuộc người nói Tài nguyên hệ thống Tài nguyên hệ thống chủ yếu gồm lực tính tốn dung lượng nhớ Các chip thường đủ đáp ứng u cầu tính tốn chấm tĩnh, hệ thống nhận dạng khơng thiết kế tốt độ xác bị suy giảm khơng đáp ứng yếu tố thời gian thực CHƯƠNG XỬ LÝ TIẾNG NĨI VÀ CÁC MƠ HÌNH HỌC MÁY Chương trình bày tổng quan thuật tốn khử nhiễu, mơ hình học máy HMM CART 2.1 Xử lý tiếng nói Một số loại nhiễu mơi trường thực : - Nhiễu hướng (Directional noise) : nhiễu từ hướng âm TV, giọng nói v.v… - Nhiễu khuếch tán (Diffuse noise): nhiễu môi trường, v.v - Vang (Reverberation) : nhiễu trễ phản xạ tường, trần nhà v.v… - Nhiễu thiết bị : quạt tản nhiệt, cấu chấp hành, mang tính hướng khuếch tán Hình Quá trình hình thành tiếng nói nhiễu Huấn luyện HMM : Nhận dạng với HMM: Đầu vào gồm T frame đặc trưng MFCC Đầu vào gồm T frame đặc trưng Bước 1: Xác định đãy trạng thái tối ưu MFCC thuật toán Viterbi: Giải mã theo Viterbi để xác định tập nhãn, đãy trạng thái tối ưu ứng với T S  ({s t }Tt 1 )  arg max  log p(Ot  , W ) tham số mô hình HMM cho: t 1 Bước 2: Hiệu chỉnh lại tham số mơ hình T HMM:   arg max  log p(Ot  , st , W ) T (W , S  {s t }Tt 1 )  arg max  log p(Ot  , st ) t 1 * t 1 Bước 3: Đặt =*, lặp lại tới mơ hình hội tụ Đặc trưng MFCC Các hệ nhận dạng tiếng nói thường tách đặc trưng từ tín hiệu cách:chia tín hiệu thành đoạn độ dài 5-15 ms, đoạn gọi khung (frame) Mỗi frame cho đặc trưng vector đặc trưng tồn tín hiệu dãy vector MFCC phương pháp trích đặc trưng (theo thang tần số mel, theo Hz) dựa đặc điểm cảm thụ tần số âm tai người: tuyến tính tần số nhỏ 1kHz phi tuyến tần số 1kHz Việc tính đặc trưng MFCC có sơ đồ sau Hình 2 Các băng lọc dạng tam giác Kỹ thuật cộng chồng đồng cao độ tần số – PSOLA PSOLA (Pitch Synchronous Overlap Add) phương pháp tổng hợp dựa phân tích tín hiệu thành chuỗi tín hiệu thành phần, sử dụng để thay đổi giá trị đường F0 trường độ trực tiếp dạng sóng tiếng nói 2.2 Mơ hình dự báo CART Các CART tự bao gồm câu hỏi yes/no điểm đặc trưng cuối đưa mật độ xác suât, dự đoán giá trị xác thực (cây phân loại), độ lệch tiêu chuẩn dự báo giá trị liên tục (cây hồi quy) Các kỹ thuật tốt sử dụng để xây dựng tối ưu từ tập liệu huấn luyện Chương trình phát triển liên kết với Festival, gọi Wagon, cung cấp phương thức đủ mạnh cho việc xây dựng 2.3 Mơ hình Markov ẩn (HMM, Hidden Markov Model) Mơ hình Markov ẩn mở rộng khái niệm từ mơ hình Markov cách trạng thái gắn với hàm phát xạ quan sát (observation distribution) Ngồi q trình ngẫu nhiên chuyển trạng thái, trạng thái cịn có q trình ngẫu nhiên sinh quan sát Như Mơ hình Markov ẩn có q trình ngẫu nhiên kép, có q trình ngẫu nhiên khơng quan sát Tập quan sát O sinh dãy trạng thái S1, S2, , SN mơ hình, mà dãy trạng thái khơng thấy được, lý mơ hình gọi mơ hình Markov ẩn (hidden) Mơ hình HMM máy trạng thái sinh dãy quan sát thời gian rời rạc Tại đơn vị thời gian (frame), thay đổi trạng thái HMM theo xác suất chuyển trạng thái, sau sinh dãy quan sát Ot thời điểm t theo phân bố xác suất đầu trạng thái Một HMM N trạng thái định nghĩa phân bố xác suất chuyển trạng thái A  {aij }iN, j 1 , phân bố xác suất output B  {b j (o)}Nj1 , phân bố xác suất trạng thái khởi tạo   { i }iN1 Ta kí hiệu   ( A, B, ) tham số mơ hình Nhận dạng tiếng nói với mơ hình Markov ẩn Các hệ thống nhận dạng dựa HMM thường sử dụng đặc trưng chuẩn MFCC quy trình huấn luyện nhận dạng theo thuật toán sau: Bảng Thuật toán nhận dạng tiếng nói dựa HMM với đặc trưng MFCC Huấn luyện HMM : Nhận dạng với HMM: Đầu vào gồm T frame đặc trưng MFCC Đầu vào gồm T frame đặc trưng Bước 1: Xác định dãy trạng thái tối ưu MFCC thuật toán Viterbi: Giải mã theo Viterbi để xác định tập nhãn, dãy trạng thái tối ưu ứng với T S  ({s t }Tt 1 )  arg max  log p(Ot  , W ) tham số mơ hình HMM cho: t 1 Bước 2: Hiệu chỉnh lại tham số mơ hình T (W , S  {s t }Tt 1 )  arg max  log p(Ot  , st ) T HMM:   arg max  log p(Ot  , st , W ) t 1 * t 1 Bước 3: Đặt =*, lặp lại tới mơ hình hội tụ CHƯƠNG DỰ BÁO TRƯỜNG ĐỘ, ÂM LƯỢNG VÀ TỔNG HỢP THANH ĐIỆU TIẾNG VIỆT Vấn đề tổng hợp tiếng Việt giọng tự nhiên vấn đề phức tạp tiếng nói tự nhiên hàm chứa nhiều tượng ngôn điệu trường độ, âm lượng điệu Chun đề trình bày đặc trưng tiếng nói phù hợp với đặc thù ngôn ngữ tiếng Việt, đặc trưng ngữ âm điệu, trường độ formant để đạt hiệu nâng cao chất lượng Tổng hợp nhận dạng tiếng Việt như:  Nghiên cứu phương pháp tổng hợp nhận dạng tiếng nói cách trích chọn đặc trưng đối tượng cần nhận dạng  Nghiên cứu mơ hình ngơn điệu, phân tích đặc trưng tiếng Việt  Nghiên cứu luật ngơn điệu, đặc trưng tín hiệu để nâng cao chất lượng tổng hợp nhận dạng tiếng Việt Hình Sơ đồ hệ thống tổng hợp tiếng nói ghép nối Quy luật biến đổi điệu ngữ cảnh Bảng Trường độ nguyên âm kết hợp với điệu CTV nam Thanh điệu Huyền Ngang Trường độ (ms) Ngã Sắc Hỏi Nặng 10 Một số nghiên cứu gần khảo sát đường điệu tiếng Việt ngữ cảnh để nhận dạng điệu cải tiến kết nhận dạng từ câu tiếng Việt Các tiếp cận chủ yếu ghép trực tiếp đặc trưng điệu vào kiểu đặc trưng tiếng nói MFCC, PLP Có tiếp cận khác sử dụng giá trị đường F0, tần số formant để xây dựng phép hiệu chỉnh lại đặc trưng MFCC, dẫn đến kiểu đặc trưng khơng phụ thuộc người nói q trình huấn luyện nhận dạng, qua kết nhận dạng hệ thống không phụ thuộc người nói cải thiện đáng kế Phép chuẩn hóa VTLN VTLN phép chuẩn hóa tín hiệu tiếng nói để VTL đạt mức trung bình nhờ tham số hiệu chỉnh tần số cho người nói phát âm Có hai tiếp cận cho VTLN, ước lượng hệ số hiệu chỉnh tần số dựa vào đặc điểm âm học người nói tần số formant, hai cách duyệt lưới tham số hiệu chỉnh để tối ưu hóa hàm mục tiêu mơ hình nhận dạng Hình Hiệu chỉnh tần số trích chọn đặc trưng MFCC Biểu diễn tiếng nói đầu vào qua tiền xử lý x(t) miền tần số biến đổi FFT: X()= H()S() + N(), H() biến dạng kênh N() nhiễu cộng tín hiệu Sử dụng M lọc tam giác với khoảng cách vị trí k thang tần số mel:    k 1     ,   [k 1 , k ]  k k 1 Bk ( )    k 1   ,   [ ,  ] k k 1  k 1  k , Y (m)     [ Bk ( ) X ( ) ,0m M-1 (*) (4.1) k 1 , k 1 ] 1  n  m   2  log Y ( m) , 0nN-1 MFCC(n) =  cos M m 0 M 1 (4.2) Khi với phép hiệu chỉnh tần số có dạng ’= () cơng thức (*) trở thành : Y (m)     [ Bk ( ) X ( ( )) (4.2) k 1 , k 1 ] Tổ hợp giá trị F0 chuẩn hóa VTLN Phương pháp ghép giá trị F0 vào hệ số MFCC nắn lại sau phép hiệu chỉnh tần số đề xuất nghiên cứu tác giả thực gồm bước sau: Bước Xác định tham số  hiệu chỉnh lại vector đặc trưng MFCC nhờ phương pháp huấn luyện hợp lý cực đại ML (xem quy trình nêu bước 4) Bước Tính F0 theo thuật toán RAPT, nội suy xác định giá trị liên tục đường F0 đoạn vô Làm trơn chuẩn hóa giá trị F0 25 Bước Kết hợp F0 với hệ số MFCC hiệu chỉnh Thuật toán xác định tham số hiệu chỉnh  dựa phương pháp huấn luyện hợp lý cực đại ML (maximum likelihood) cài đặt sau : Bước Huấn luyện giải mã d Giai đoạn huấn luyện : Với phát âm tiếng nói gán nhãn W, gồm T frame Bước 1: Khởi tạo =1.0 xác định dãy trạng thái tối ưu thuật toán Viterbi: T S  ({s t }Tt 1 )  arg max  log p(Ot  , W ), Ot  Ot ( ) t 1 Bước 2: Duyệt tìm giá trị tối ưu lưới giá trị tham số :  *  arg max[ T , max ]  log p(O t t 1  , st ), Ot  Ot ( ) Bước 3: Thực phân đoạn cưỡng (forced alignment) dựa nhãn W tham số hiệu chỉnh * hiệu chỉnh lại tham số mơ hình HMM: T  *  arg max  log p(Ot  , st , W ), Ot  Ot ( ) * * * t 1 Bước 4: Đặt =*, =*, lặp lại tới mơ hình hội tụ e.Giai đoạn giải mã (nhận dạng): Với phát âm đầu vào gồm T frame Bước 1: Giải mã theo Viterbi để xác định tập nhãn, dãy trạng thái tối ưu ứng với tham số mơ hình HMM cho: T (W , S  {s t }Tt 1 )  arg max  log p(Ot  , st ) t 1 Bước 2: Duyệt tìm giá trị tối ưu lưới giá trị tham số :  *  arg max[ T , max ]  log p(O t t 1  , st ), Ot  Ot ( ) Bước 3: Giải mã Viterbi lần với tham số * để xác định tập nhãn đầu ra: T W *  arg max  log p (Ot  , st ) t 1 * (4.4) Do thuật tốn HMM chuẩn có độ phức tạp O(VN2T), N số trạng thái mô hình HMM (N = thử nghiệm này), V số phần tử từ vựng (V = 117 thử nghiệm này, số âm vị với nguyên âm mang điệu) T số frame đầu vào , nên độ phức tạp thuật tốn HMM có kết hợp với VTLN O(KVN2T), K số giá trị rời rạc hóa lưới giá trị tham số [min, max] (ở min = 0.85, max = 1.15, mức rời rạc hóa theo bước 0.0001) 26 Thử nghiệm tập tên riêng phức tạp Tập thử nghiệm ứng dụng tên khoảng 300 trường Đại học Cao đẳng nước (một số tên trường khơng cịn thực tế) Tập âm vị tiếng Việt gồm khoảng 52 âm vị bao gồm phụ âm đầu, âm đệm, nguyên âm với điệu âm cuối tương ứng với 52 mơ hình HMM cần huấn luyện Giá trị đường F0 vector đặc trưng MFCC trích chọn với frame độ dài 25 mili giây, phần trùng frame liên tiếp 15 mili giây Các vector đặc trưng gồm 12 hệ số MFCC hệ số lượng sai phân bậc bậc 13 hệ số Các HMM có hàm mật độ xác suất liên tục Việc hiệu chỉnh vector MFCC ghép giá trị F0 sử dụng phương pháp trình bày Bảng Bảng kết thực nghiệm kiểm tra Người đọc Đặc trưng chuẩn MFCC mức từ mức câu Đặc trưng MFCC + F0 mức từ mức câu Nu1 93,8 82,2 92,7 81,2 Nu2 97,0 86,3 97,3 88,4 Nu3 95,5 82,8 93,4 78,7 Nu4 97,4 90,9 97,0 88,8 Nu5 95,5 85,1 97,1 91,0 Nu6 86,7 67,7 88,1 72,9 Nu7 95,7 84,6 96,9 89,9 Nam1 98,6 92,9 98,5 92,9 Nam2 95,3 79,0 96,5 86,0 Nam3 97,1 88,8 97,7 93,9 Trung 95,3 84,6 95,6 86,4 bình Ước lượng tham số chuẩn hóa VTLN phương pháp formant VTLN-MFCC + F0 mức từ mức câu 96,7 88,5 97,6 89,4 96,4 87,8 97,6 91,9 98,9 97,0 91,8 81,2 98,1 93,8 98,9 94,9 97,3 88,0 98,6 96,2 97,1 90,6 tham số VTLN đề xuất cách ước lượng tự động từ giá trị trung bình formant F3 tiếng nói đầu vào tập huấn luyện, nhiên tác giả không đưa cách tính trường hợp thời gian thực trường hợp frame tiếng nói đầu vào vơ (các giá trị F0, formant không xác định được) Xấp xỉ giá trị trung bình thời gian thực: Nếu cho trước N hữu hạn số thực x1, x2,…,xN dễ dàng tính giá trị trung bình N xmean  x k 1 N k Phép tính giá trị trung bình đơn giản thường xuyên sử dụng phép chuẩn hóa đặc trưng MFCC để giảm thiểu sai lệch phổ đặc trưng tập người huấn luyện đặc trưng người nói 27 N N   mfcck     k 1 mfcck   N    k 1 mfccutt  mfcck k 1 N Ở N số frame ngữ đoạn tiếng nói, mfcck k 1 dãy N vector đặc trưng MFCC N N frame Trong [12] [39] tác giả chứng tỏ với phép chuẩn hóa CMN cải thiện độ xác nhận dạng tiếng nói Trrong thời gian thực, số frame không xác định tìm kiếm điểm đầu cuối (Endpoint detector) phát Vấn đề phát biểu hình thức sau: Cho trước xn n1 dãy vector số có số chiều hữu hạn , xác định dãy vector  yn n 1   sau: y1 =y0+x1, yn=yn-1 + xn, n=2,3…, ,  (0,1),  + =1, y0 = xác định trước Trong ứng dụng xử lý tín hiệu số, tiếng nói liệu ảnh thường vector xn biến đổi xung quanh giá trị trung bình (tổng quát kiểu biến ngẫu nhiên có phân bố)sau phép tiền xử lý tín hiệu qua phép phân cụm, phân loại tín hiệu (chẳng hạn phép phân loại tín hiệu nền/nhiễu/tiếng nói xử lý tiếng nói.) Mệnh đề 1:  N > 1, n>N n 1 n yn  x k 1 n k   yn 1  x k 1 k n 1  ax xk  (n   N ) max xn  xk  Nm 1 k N k n n 1 n  Nmax xk  (n  N ) max xn  xk 1 k N k n n Từ ước lượng ta thấy để yn gần giá trị trung bình thơng thường x1,x2,…,xn ta chọn  gần Mệnh đề 2:  N > 1, n > N yn N  y2 N   N yn  yN  max N 1l  n  N xnl  N  xl Mệnh đề 3: xn  yn n1 dãy có tổng trung bình phần tử xấp xỉ thời điểm  Nhận xét : Với tín hiệu tiếng nói, thường x1,y1 xấp xỉ vector 0, nên n x k 1 k  yk   yn 1 Dựa [38], đề xuất cách ước lượng tham số VTLN sau cho dãy frame tiếng nói câu đọc vào [CT5]: F  0  F 3train aF  i  1  bF  i  , frame(i) hữu F 3i    (4.5)  F  i  1 28 , trái lại a, b hệ số, a,b(0,1), a+b =1, chọn a=0.95, b=0.05 thực nghiệm    F 3train    i    max , max  ,    F  i    (4.6) Ở F 3train giá trị trung bình format F3 toàn tập frame hữu tiếng nói huấn luyện, F3(i) giá trị ước lượng formant F3(i) từ thuật toán RAPT Nhận dạng điệu tiếng Việt Trong chương chúng tơi trình bày kết nghiên cứu vấn đề kết hợp đặc trưng điệu đặc trưng cấu âm người nói để tăng độ xác nhận dạng tiếng nói rời rạc liên tục Nhận dạng điệu vấn đề phức tạp với hạn chế tiếng nói đọc rời âm tiết cho người nói xác định Để đặc trưng hóa điệu tiếng Việt, ngồi tần số F0 cần có thêm số tham số khác trường độ, lượng Trong ngữ lưu tiếng nói có biến mà để lượng hóa cần phải dùng đến mơ hình lượng hóa phức tạp Fujisaki, Xu Trong dạng rời rạc, đường nét điệu tương đối ổn định, không dễ dàng khu biệt chúng, chẳng hạn có giọng nói huyền có đường nét giống với hỏi 29 T1…T8 Phân lớp Nơ ron Chuẩn hóa Tính đặc trưng điệu Trích chọn F0 Sóng âm tiết Hình Sơ đồ nhận dạng điệu tiếng Việt tiếng nói rời rạc ww (4.7) (4.8) ju   j : j  jmax , E j 1  0.9Emax , E j  0.9Emax  jl  max  j : j  ju , E j  0.1Emax , E j 1  0.1Emax  (4.9) Để tăng độ xác kết nhận dạng thơng qua mạng nơ ron dựa tri thức phụ thuộc vào trường độ âm tiết, sử dụng luật Heuristic sau để loại nhanh số trường hợp: Luật 1: trung bình (F0) > Fbase cao ngược lại thấp Luật 2: Dur(F) > D0 (ms): khơng phải âm tiết có phụ âm cuối p-t-c Luật 3: Fmax  Fmin  Frate : huyền Fmid Trong [6], tác giả sử dụng đặc trưng điệu tiếng Việt gồm: F0 ban đầu, F0 sau cùng, giá trị độ tăng F0, trường độ điệu, tỷ số giảm lượng, kết hợp với cấc Luật 1, 2, (trong thực nghiệm, tham số D0=300, Fbase =200, Frate = 0.3 ứng với giọng nữ kiểm tra.) để nhận dạng tượng điệu tiếng Việt, âm tiết rời rac, phụ thuộc người nói với kết nhận dạng 93% Đây kết báo cáo đề tài KC.01.03 [88] STT Thanh điệu Thanh ngã(x) Thanh huyền(f) Thanh hỏi (r) Thanh ngang Số mẫu huấn liệu 214 422 394 438 Số mẫu kiểm tra 54 110 101 215 Kết quả(%) 96.20 99 93.06 96.70 30 (middle) Thanh sắc(s) Thanh sắc có kết thúc âm tiết /p/, /t/, /k/ (s2) Thanh nặng (j) Thanh nặng có kết thúc âm tiết /p/, /t/, /k/ (j2) 417 273 182 78 98,30 97,40 341 187 94 46 98,90 93,40 Hệ thống nhận dạng tiếng Việt nhúng Chúng tơi trình bày phương pháp thiết kế hệ nhận dạng lệnh tiếng Việt điều khiển thiết bị di động robot hút bụi, xe lăn điện dựa chip vi hệ thống họ PSoC5 OMAP3, đặc trưng MFCC hiệu chỉnh theo VTLN tính tốn đặc trưng q trình giải mã HMM tăng tốc nhờ phép tính tốn chấm tĩnh độ xác cao cho hiệu chất lượng nhận dạng so sánh với hệ thống PC 31 Hình Sơ đồ tích hợp nhận dạng tiếng nói điều khiển thiết bị DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ [CT1] Ngơ Hồng Huy, Dự báo giá trị ngơn điệu tiếng Việt cho tiếng nói tổng hợp, Tạp chí Cơng nghệ Thơng tin Truyền thông, Tập V-1 số 6(26), 09-2011, trang 236-241 [CT2] Ngô Hoàng Huy, Tổ hợp đường F0 VTLN cho nhận dạng tên riêng tiếng Việt, Tạp chí Tin học Điều khiển học, trang 273 – 282, Tập 27, số 3, 2011 32 [CT3] Ngơ Hồng Huy, Phạm Thượng Cát, Nguyễn Trịnh Nguyên, Nguyễn Tu Trung, Ngô Trần Anh, (2012) Thiết kế hệ thống nhận dạng lệnh tiếng Việt điều khiển thiết bị tự hành vi hệ thống điện thấp với phép chuẩn hóa VTLN – MFCC Hội nghị Cơ điện tử VCM-2012 [CT4]Nguyễn Tu Trung, Ngơ Hồng Huy, (2014) Tối ưu lưu trữ tính tốn tín hiệu tiếng nói cho hệ tổng hợp Tiếng Việt dựa ghép nối Hội nghị quốc gia lần thứ VII "Nghiên cứu ứng dụng Cơng nghệ thơng tin", FAIR 2014 [CT5]Ngơ Hồng Huy, Trích chọn đặc trưng âm học tiếng Việt dựa F0 biến thể MFCC với ước lượng VTLN từ giá trị formant Hội nghị quốc gia lần thứ VII "Nghiên cứu ứng dụng Công nghệ thông tin", FAIR 2014 TÀI LIỆU THAM KHẢO Tiếng Việt Đặng Ngọc Đức, Lương Chi Mai “Tăng cường độ xác hệ thống mạng nơ ron nhận dạng tiếng Việt”, Tạp chí Bưu Viễn thơng - Chun san cơng trình nghiên cứu triển khai Cơng nghệ thông tin Viễn thông, 11, 75-81 33 Ngơ Hồng Huy, Nguyễn Thị Thanh Mai, Quản Thái Hà, Nguyễn Huy Hồng, (2006) "Sử dụng mơ hình Fujisaki mạng neuron nhận dạng tổng hợp điệu tiếng Việt" (2006), Kỷ yếu hội thảo: “Nghiên cứu ứng dụng công nghệ thông tin FAIR2005”, Thành phố Hồ Chí Minh tháng năm 2005, NXB KHKT, Hà Nội Lương Chi Mai, Bạch Hưng Khang, Ngô Hoàng Huy, Bùi Quang Trung, Vũ Tất Thắng, Nguyễn Tiến Dũng, Nguyễn Thị Thanh Mai, (2006) "Nghiên cứu phát triển công nghệ tổng hợp nhận dạng tiếng Việt" (2006), Kỷ yếu hội nghị: Nghiên cứu ứng dụng cơng nghệ thơng tin FAIR2005, Thành phố Hồ Chí Minh tháng năm 2005, NXB KHKT Ngơ Hồng Huy, Nguyễn Thị Thanh Mai, Phân lớp đường điệu ngữ cảnh câu (2006), Kỷ yếu Hội thảo Quốc gia, NXB KHKT, tr 279-284 Ngơ Hồng Huy, Nguyễn Thị Thanh Mai, Nhận dạng điệu tiếng Việt tiếng nói rời rạc phụ thuộc người nói” (2006) , Kỷ yếu Hội thảo Quốc gia, NXB KH&KT, tr 443449 Lê Hồng Minh, “Một số kết nghiên cứu phát triển hệ phần mềm chuyển văn thành tiếng nói cho tiếng Việt tổng hợp formant,” Kỷ yếu Hội thảo Khoa học Quốc gia lần thứ - Nghiên cứu Phát triển Ứng dụng Công nghệ Thông tin Truyền thông (ICT.rda’03), Hà Nội, tr 292-301 Vũ Hải Quân Cao Xuân Nam, “Tổng hợp tiếng nói tiếng Việt theo phương pháp ghép nối cụm từ,” Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT, Tạp chí CNTT TT, Tập V-1(1), tr 70-76 Đoàn Thiện Thuật, Ngữ âm tiếng Việt, NXB Đại học Quốc gia Hà Nội Huỳnh Công Tín, Giáo trình Cơ sở ngữ âm học, Đại học Cần thơ 10 Trịnh Anh Tuấn, “Một số phương pháp nâng cao chất lượng hệ thống tổng hợp tiếng Việt V-TALK,” Tạp chí Bưu Viễn thơng, Số 3, Hà Nội, tr 19-23, 2000 11 Trịnh Anh Tuấn, Nghiên cứu đặc trưng để phân tích tổng hợp tín hiệu âm tần, Luận án tiến sỹ, Học viện Công nghệ Bưu Viễn thơng Tiếng Anh 12 Alex Acero, Xuedong Huang,AUGMENTED CEPSTRAL NORMALIZATION FOR ROBUST SPEECH RECOGNITION 13 Praveen Kumar Bamini , FPGA-based Implementation of Concatenative Speech Synthesis Algorithm Ph.D thesis 14 Dragos Burileanu, Andrei Fecioru, Dragos Ion, Madalin Stoica, and Costel IlasAN OPTIMIZED TTS SYSTEM IMPLEMENTATION USING AMOTOROLA STARCORE C140-BASED PROCESSOR,aculty of Electronics and Telecommunications, “Politehnica” University of Bucharest, Romania ; Motorola Software Center Romania 15 Shanqing Cai, H Timothy Bunnell, and Rupal PatelUnsupervised Vocal-tract Length Estimation Through Model-based Acoustic-to-Articulatory Inversion 34 16 Ken Chen, Sarah Borys, and Mark Hasegawa-Johnson.Prosody Dependent Speech Recognition With Explicit Duration Modelling at Intonational Phrase Boundaries Interspeech 2003 17 Ken Chen, Mark Hasegawa-Johnson, Senior Member, IEEE, Aaron Cohen, Sarah Borys, Sung-Suk Kim, Jennifer Cole, and Jeung- Yoon Choi Prosody Dependent Speech Recognition on Radio News Corpus of American English, IEEE transactions On Speech And Audio Processing, vol.13,No.6, November 2005 18 Chistikov, P G.; Korolkov, E A Talanov “Combining HMM and unit selection technologies to increase naturalness of synthesized speech,” Proc in 19th International Computational Linguistics Conference, Naro-Fominsk, Russia 19 Piero Cosi, Cinzia Avesani, Piero Cosi, Cinzia Avesani, On The Use Of Cart-Tree For Prosodic Predictions In The Italian Festival TTS 20 Tran DD, Castelli E, et al, Influence of F0 on Vietnamese syllable perception , Proc of Interspeech, Lisbon, pp 1697-1700 21 Soumyajit Dey, Monu Kedia, Anupam Basu, Architectural Optimizations for Text to Speech Synthesis in Embedded Systems 22 Dung, T.N., Mixdorff, H et al, “Fujisaki Model based F0 contours in Vietnamese TTS”, In Proceedings of ICSLP2004, Jeju, South Korea 23 Demiroglu, “A Small Footprint Hybrid Statistical and Unit Selection Text-to-Speech Synthesis System for Turkish,” Proc in ICASSP,Kyoto, Japan, tr 4537-4540 24 Dusterhoff, K and Black, “Generating F0 contours for speech synthesis using the Tilt intonation theory”, Proceedings of ESCA Workshop of Intonation, pp 107-110, September, Athens, Greece 25 Donovan, Trainable speech synthesis, PhD thesis, Cambridge University Egineering Department 26 Daniel Elenius, Mats Blomberg, Dynamic vocal tract length normalization in speech recognition, Proceedings from Fonetik 2010 Lund, 2010, ISSN 0280-526X, 29-34 27 Guner, E Demiroglu, C (2012), “A Small Footprint Hybrid Statistical and Unit Selection Text-to-Speech Synthesis System for Turkish,” Proc in ICASSP, Kyoto, Japan, tr 4537-4540 28 C Hanilỗi and T Kinnunen, “Source Cell-Phone Recognition from Recorded Speech Using Non-Speech Segments”, Digital Signal Processing (to appear) Source Cell-Phone Recognition from Recorded Speech Using Non-Speech Segments 29 X Huang, A Acero, and H W Hon, Spoken Language Processing, Prentice-Hall, 2001 30 Ngo Hoang Huy, Nguyen Thi Thanh Mai, Bui Quang Trung, "Vietnamese text normalize and processing" Proceedings of National IT Conference Nha Trang June , 2002 35 31 Ngo Hoang Huy et al., Development of Automatic Data Entry Systems with Pattern Recognition Techniques, International Symposium on Knowledge Creation in Economics,Enviromental and Societal Systems, JAIST, Kanazawa, pp 72-78, 2002 32 Ngo Hoang Huy, Nguyen Thi Thanh Mai, Bui Quang Trung, "Vietnamese text normalize and processing" Proceedings of National IT Conference Nha Trang June , 2002 33 Ngo Hoang Huy, Luong Chi Mai, et al (2003), Thiết kế hệ thống nhận dạng tiếng Việt thời gian thực, kỷ yếu báo cáo hội nghị FAIR nghiên cứu ứng dụng công nghệ thông tin, trang 349 – 357 34 Hunt, A.; Black,A Alan, “Unit selection in a concatenative speech synthesis system using a large speech database,” Proc in ICASSP Vol.1, tr 373-376 LNAI 4274, pp 87 – 94, Springer-Verlag, Berlin Heidelberg 2006 35 Tomi Kinnunen, Rahim Saeidi, Member, IEEE, Filip Sedl´ak, Kong Aik Lee, Johan Sandberg, Maria Hansson-Sandsten, Member, IEEE, and Haizhou Li, Senior Member, IEEE 36 Tomi Kinnunen, Md Jahangir Alam, Pavel Matˇejka Frequency Warping and Robust Speaker Verification: A Comparison of Alternative Mel-Scale Representations LowVariance Multitaper MFCC Features: a Case Study in Robust Speaker Verification IEEE TRANSACTIONS ON SPEECH, AUDIO AND LANGUAGE PROCESSING, 2011 37 Bach Hung Khang, Luong Chi Mai, Ngo Hoang Huy, et al (2002) , Development of Automatic Data Entry Systems With Pattern Recognition Techniques, International Symposium on Knowledge Creation in Economics, Enviromental and Societal Systems, Japan Advanced Institute for Science and Technology, Kanazawa, pp 72-78 38 Li Lee, Richard C Rose Speaker normalization using efficient frequency warping procedures ICASSP 1996, Atlanta, Georgia, USA, 1996 39 Jinyu Li, Member, IEEE, Li Deng, Fellow, IEEE, Yifan Gong, Senior Member, IEEE, and Reinhold Haeb-Umbach, Senior Member, IEEE An Overview of Noise-Robust Automatic Speech Recognition IEEE TRANS AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL X, NO X, XXX 2013 40 Jian Liu, Thomas Fang Zheng, and Wenhu Wu, Pitch Mean Based Frequency Warping 41 Dang-Khoa Mac, Eric Castelli 1, Véronique Aubergé, MODELING THE PROSODY OF VIETNAMESE ATTITUDES FOR EXPRESSIVE SPEECH SYNTHESIS 42 Hansjoerg Mixdorf, Nguyen Tien Dung, Lưong Chi Mai, Ngo Hoang Huy, Vu Kim Bang 2004, Toward integrating the Fujisaki model into Vietnamese TTS , Proceeding of the International Conference on Spoken Language Processing, Korea 43 Hansjoerg Mixdorf, Nguyen Tien Dung, Lưong Chi Mai, Ngo Hoang Huy “Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese,” Proc in EUROSPEECH, Geneva, tr 177-180 44 Hansiorg Mixdorff, Nguyen Tien Dung, Vu Trung Nghia, “Duration Modeling in a Vietnamese Text To Speech System”, Speech Communication, 2005 36 45 Iosif Mporas, Todor Ganchev, Mihalis Siafarikas, Nikos Fakotakis, Comparison of Speech Features on the Speech Recognition Task, Journal of Computer Science (8): 608-616, 2007, ISSN 1549-3636 46 Naresh, V ; Dept of ECE, Nat Inst of Technol., Tiruchirappalli, India ; Venkataramani, B ; Karan, A ; Manikandan, J PSoC based isolated speech recognition system, Communications and Signal Processing (ICCSP), 2013 International Conference on Page(s): 693 - 697 ISBN: 978-1-4673-4865-2 47 Trung-Nghia PHUNG, Thanh-Son PHAN, Thang Tat VU, Mai Chi LUONG and Masato AKAGI (2013), “Improving the naturalness of HMM-based TTStrained with limited data data by Temporal decomposition,” IEICE TRANS INF & SYST., Japan, Vol.E96(11), tr 2417-2426 48 Kuldip K Paliwal, SPECTRAL SUBBAND CENTROID FEATURES FOR SPEECH RECOGNITION ICASSP 1998 49 Sankaran Panchapagesan *, Abeer Alwan, Frequency warping for VTLN and speaker adaptation by linear transformation of standard MFCC Computer Speech and Language 23 (2009) , 42–64 50 Branislav Popović, Dragan Knežević, Milan Sečujski, Darko Pekar AUTOMATIC PROSODY GENERATION IN A TEXT-TO-SPEECH SYSTEM FOR HEBREW FACTA UNIVERSITATIS Series: Electronics and Energetics Vol 27, No 3, September 2014, pp 467 – 477 DOI: 10.2298/FUEE1403467P 51 Michael Price, James Glass, Anantha P Chandrakasan A 6mW 5K-Word Real-Time Speech Recognizer Using WFST Models 2014 IEEE International Solid-State Circuits Conference, 978-1-4799-0920-9/14/$31.00 ©2014 IEEE 52 NGUYEN Hong Quang, NOCERA Pascal, CASTELLI Ericy and TRINH Van Loan Tone Recognition of Vietnamese Continuous Speech using Hidden Markov Model.HUTICCE 2008, the Second International Conference on Communications and Electronics 53 William R Rodr´ıguez, Oscar Saz, Antonio Miguel and Eduardo Lleida On line vocal tract length estimation for speaker normalization in speech recognition, VI Jornadas en Tecnología del Habla and II Iberian SLTech Workshop, FALA 2010, Vigo, Spain, 2010 54 Hamid Sheikhzadeh, Etienne Cornu, Robert Brennan, and Todd Schneider,EAL-IME SPEECH SYNTHESIS ON AN ULTRA LOW-RESOURCE, PROGRAMMABLE DSP SYSTEM, ICASSP’02 55 Hanna Silén, Elina Helander1, Jani Nurminen2, Moncef Gabbouj Analysis of Duration Prediction Accuracy in HMM-Based Speech Synthesis 56 Silverman, K., Beckman, M., Pierrehumbert, J., Ostendorf, M., Wightman, C., Price, P and Hirschberg, J., “ToBI: A Standard Scheme for Labeling Prosody”, in Proc ICSLP 1992, 867-869 57 Malcolm Slaney, Michael L Seltzer THE INFLUENCE OF PITCH AND NOISE ON THE DISCRIMINABILITY OF FILTERBANK FEATURES To be published at Interspeech 2014 Singapore, September 2014 Interspeech2014 37 58 Young-Woo Son, Jae-Keun Hong The formant-emphasized Feature Vector for Speech Recognition in Noisy Condition 59 Taylor, P., “Analysis and synthesis of intonation using the Tilt model”, J Acoust Soc Am., 107: 1697-1714, 2000 60 Ye Tian, Jian-Lai zhuo, Min Chu, Eric Chang, Tone Ricognition with Fractionized Models and Outlined Features 61 Thang Tat Vu*, Dung Tien Nguyen**, Mai Chi Luong**, John-Paul Hosom ,Vietnamese Large Vocabulary Continuous Speech Recognition, EuroSpeech 2005 62 Vu Thang Tat; Luong, Mai Chi Satoshi, Nakamura (2009), “An HMMbased Vietnamese Speech Synthesis System,” Proc in Oriental COCOSDA, Urumqi, China, tr 116-121 63 DO Van Thao, TRAN Do Dat, NGUYEN Thi Thu Trang “Nonuniformunit selection in Vietnamese Speech Synthesis,” Proceedings of the 2nd SoICT 2011, tr 165-171 64 Ye Tian, Jian-Lai zhuo, Min Chu, Eric Chang , Tone Ricognition with Fractionized Models and Outlined Features 65 Nguyen Thi Thu Trang et al., “INTONATION ISSUES IN HMM-BASED SPEECH SYNTHESIS FOR VIETNAMESE,” SLTU-2014, St Petersburg, Russia, 14-16 May 2014 66 NGUYEN Thi Thu Trang, Christophe D’ALESSANDRO, Albert RILLIARD, TRAN Do Dat , HMM-based TTS for Hanoi Vietnamese: issues in design and evaluation 67 Umit H Yapanel and John H.L Hansen, A New Perspective on Feature Extraction for Robust In-Vehicle Speech Recognition, Eurospeech 2003, Geneva 68 Lifu Yi, Jian Li, Xiaoyan Lou, Jie Hao,A Unified Totally-Data-Driven Framework for Duration and Intonation Modeling International Symposium on Chinese Spoken Language Processing (ISCSLP 2006) Kent Ridge, Singapore December 13-16, 2006 69 Ekaterina Verteletskaya, Boris Simak Enhanced spectral subtraction method for noise reduction with minimal speech distortion IWSSIP 2010 - 17th International Conference on Systems, Signals and Image Processing 70 Jian Yu, Meng Zhang, Jianhua Tao,, Xia Wang, A NOVEL HMM-BASED TTS SYSTEM USING BOTH CONTINUOUS HMMS AND DISCRETE HMMS 71 Heiga Zen, Takashi Nose, Junichi Yamagishi, Shinji Sako, Takashi Masuko, AlanW Black, Keiichi Tokuda The HMM-basedSpeech Synthesis System (HTS) Version 2.0, 72 Puming Zhan and Alex Waibel, “Vocal tract length normalization for large vocabulary continuous speech recognition”, Technical report, CMU-LTI-97-150, 1997 73 Puming Zhan, Martin Westphal, Speaker normalization based on frequency warping, ICASSP 1997, Munich , Bavaria, Germany, 1997 74 Naoya Wada, Shingo Yoshizawa, Yoshikazu Miyanaga, A Real Time Noise-Robust Speech Recognition System, ECTI Transaction CIT Vol 1, No (2005) 38 75 Shizhen Wang, Yi-Hui Lee, Abeer Alwan,Bark-shift based nonlinear speaker normalization using the second subglottal resonance,INTERSPEECH 2009, Brighton UK,2009,(1619-1622) 76 Katrin Weber, Samy Bengio, and Hervé Bourlard HMM2- Extraction of formant Structures and their Use for Robust ASR Trang Web 77 Tiếng nói Phương Nam, http://www.ailab.hcmus.edu.vn/slp/ 78 http://www.vnisg.com/vnisg-sanpham-181-0-0-0.html 79 www.cstr.ed.ac.uk/projects/festival/ 80 http://htk.eng.cam.ac.uk/ 81 http://hts.sp.nitech.ac.jp/ 82 http://www.cypress.com 83 http://www.opener-project.eu/project/ 84 http://www.praat.org 85 http://en.wikipedia.org/wiki/Named-entity_recognition 86 http://vi.wikipedia.org/wiki/Ti%E1%BA%BFng_Th%C3%A1i 87 http://vi.wikipedia.org/wiki/B%C3%ADnh_%C3%A2m_H%C3%A1n_ng%E1%BB%AF Đề tài nghiên cứu Khoa học 88 Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt Đề tài cấp nhà nước 2001-2003 Viện CNTT chủ trì 89 Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt Đề tài cấp nhà nước 2007-2009 Viện CNTT chủ tŕ 90 Nghiên cứu thiết kế chế tạo thiết bị hệ thống tự động hóa thơng minh sử dụng tương tác người-máy tiếng nói điều khiển Đề tài cấp nhà nước 2007-2009 Đại học Bách Khoa Hà Nội chủ trì 91 Nghiên cứu thiết kế chế tạo hệ thống điều khiển tiếng nói tích hợp vào robot hút bụi tự động thơng minh Đề tài cấp thành phố 2011-2012 Viện CNTT chủ trì 39 ... biện 3: PGS.TS Vũ Kim Bảng Luận án bảo vệ trước Hội đồng chấm luận án cấp Học viện họp tại: …….……………………………………………………………………… Vào hồi ngày tháng năm Có thể tìm hiểu luận án tại: - Thư viện Quốc gia... học Công nghệ Việt Nam Phạm vi, nội dung, phương pháp nghiên cứu kết cấu luận án Cấu trúc tổng thể luận án Hình 1.2 chương cịn lại luận án tổ chức sau: Chương Tổng quan tổng hợp nhận dạng tiếng... tiếng nói đại, so sánh ưu, nhược điểm phương pháp giới thiệu, từ đề xuất sử dụng đặc trưng ngôn điệu để nâng cao chất lượng nhận dạng tổng hợp tiếng Việt Phần chương này, luận án đề cập đến kiến

Định dạng
Số trang	39
Dung lượng	1,33 MB