Áp dụng phương pháp P-SOLA trong tổng hợp tiếng nói tiếng Việt : Luận văn ThS. Công nghệ thông tin: 1 01 10

Mục lục Mục lục MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ TIẾNG NÓI 1.1 Lịch sử phát triển 1.2 Âm chế phát âm 1.3 Các đặc trƣng sinh học âm: 1.4 Các tham số âm 10 1.5 Một số khái niệm ngữ âm 11 CHƢƠNG 2: XỬ LÝ TÍN HIỆU SỐ 14 2.1 Số hố tín hiệu 15 2.2 Xác định tần số lấy mẫu tín hiệu tiếng nói 16 2.3 Biểu diễn tín hiệu số 17 2.4 Biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT) 17 2.5 Các hàm cửa sổ 19 CHƢƠNG 3: CÁC HỆ THỐNG TỔNG HỢP TIẾNG NÓI 20 3.1 Tổng quan tổng hợp tiếng nói 21 3.2 Các phƣơng pháp tổng hợp tiếng nói 23 3.2.1 Tổng hợp theo cấu âm 24 3.2.2 Tổng hợp Formant theo quy luật 25 3.2.3 Tổng hợp xích chuỗi 28 3.2.4 Tổng hợp xích chuỗi sử dụng mã tiên đốn tuyến tính LPC 31 3.3 Các ứng dụng TTS 35 3.4 Lựa chọn phƣơng pháp tổng hợp Tiếng Việt 36 CHƢƠNG 4: NGỮ ÂM TIẾNG VIỆT 39 4.1 Tổng quan ngữ âm tiếng Việt 40 4.2 Các đặc điểm âm tiết tiếng Việt 43 4.3 Cấu trúc âm tiết tiếng Việt 43 4.4 Thanh điệu tiếng Việt 45 CHƢƠNG : XÂY DỰNG CƠ SỞ DỮ LIỆU ÂM 49 Hoàng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội 5.1 Lựa chọn đơn vị âm cho tổng hợp tiếng Việt 50 5.2 Ghi âm 51 5.3 Gán nhãn sở liệu 52 5.3.1 Gán nhãn tay 53 5.3.2 Gán nhãn tự động 59 5.3.3 Thuật toán gán nhãn tự động mức âm tiết 60 5.3.4 Thuật toán gán nhãn tự động mức âm vị 61 5.4 Kết luận 61 CHƢƠNG 6: ÁP DỤNG P-SOLA TRONG TỔNG HỢP TIẾNG VIỆT 63 6.1 Kỹ thuật PSOLA 64 6.1.1 Phân tích tín hiệu 65 6.1.2 Tính điểm cao độ tần số tổng hợp (epoch) 69 6.2 Làm mềm hoá biên nối 75 6.3 Kết luận 76 CHƢƠNG 7: CÀI ĐẶT CHƢƠNG TRÌNH 78 7.1 Lựa chọn công cụ 79 7.2 Phƣơng pháp tổng hợp 79 7.3 Giao diện chƣơng trình 80 7.4 Kết luận 81 ĐÁNH GIÁ KẾT QUẢ VÀ ĐỊNH HƢỚNG NGHIÊN CỨU 82 TÀI LIỆU THAM KHẢO 83 Hồng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt Mở đầu Từ thời tiền sử đến nay, truyền thơng tiếng nói phƣơng thức trội xã hội loài ngƣời việc trao đổi thông tin Các từ ngữ ngày đƣợc mở rộng thông qua phƣơng tiện mang tính cơng nghệ nhƣ điện thoại, phim ảnh, truyền thanh, truyền hình Internet Khuynh hƣớng ảnh hƣởng khơng nhỏ đến truyền thơng tiếng nói ngƣời Hầu hết máy tính ngày sử dụng giao diện đồ hoạ ngƣời dùng (Graphic User Interface), dựa giao diện thể đồ hoạ chức nhƣ cửa sổ, biểu tƣợng, trình đơn, trỏ Hầu hết hệ điều hành ứng dụng phụ thuộc vào đáp ứng gõ phím hay nhấn chuột, sau hiển thị hồi âm qua hình Máy tính ngày thiếu chức ngƣời nhƣ nói, nghe, hiểu học Tiếng nói, đƣợc hỗ trợ phƣơng thức tự nhiên khác phƣơng tiện để giao tiếp với máy tính Và chí trƣớc giao tiếp dựa tiếng nói đạt đến độ thục ứng dụng gia đình, di động, văn phịng kết hợp với cơng nghệ tiếng nói thay đổi cách thức sống làm việc Một hệ thống tiếng nói cần phải có khả nhận dạng tổng hợp câu chữ Tuy nhiên có thành phần khơng đủ để tạo nên hệ tiếng nói hữu dụng, cần phải có thành phần hội thoại hiểu đƣợc cộng với miền tri thức cho chúng để thực thao tác thích hợp Để làm đƣợc thành phần này, nhiều thách thức tồn tại, nhƣ tính ổn định, linh hoạt, dễ tích hợp, hiệu Mục tiêu để xây dựng đƣợc hệ tiếng nói mang tính thƣơng mại thu hút nhiều nhà khoa học kỹ sƣ toàn giới Một mục tiêu quan trọng tổng hợp tiếng nói tiếng nói tổng hợp đƣợc phải đạt đến độ tự nhiên tối đa, đồng thời để áp dụng đƣợc vào nhiều lĩnh vực sống, phải có khả linh hoạt, tuỳ biến theo nhiều tham số khác Hoàng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt Hiện giới có nhiều thuật tốn đƣợc áp dụng nhằm thoả mãn yêu cầu này, số phƣơng pháp PSOLA Trong luận văn này, sử dụng phƣơng pháp để áp dụng cho tiếng Việt dựa đặc thù riêng mặt ngữ âm Qua thực nghiệm kết thu đƣợc khả quan Cấu trúc luận văn bao gồm chƣơng đƣợc trình bày cụ thể nhƣ sau: Chƣơng 1: Tổng quan tiếng nói Chƣơng 2: Số hố tiếng nói Chƣơng 3: Các phƣơng pháp tổng hợp tiếng nói Chƣơng 4: Ngữ âm tiếng Việt Chƣơng 5: Xây dựng sở liệu âm Chƣơng 6: Áp dụng phƣơng pháp PSOLA việc tổng hợp tiếng nói Chƣơng 7: Cài đặt chƣơng trình Kết đạt đƣợc luận văn khiêm tốn nhƣng đáng khích lệ Ngƣời viết mong muốn nhận đƣợc góp ý thầy cô, bạn bè tất quan tâm đến tổng hợp tiếng nói tiếng Việt Tôi xin gửi lời cảm ơn chân thành tới Phó Giáo sƣ, Tiến sĩ Lƣơng Chi Mai, ngƣời dù bận nhiều cơng việc nhƣng tận tình hƣớng dẫn tơi hồn thành luận văn Xin cảm ơn anh chị phịng Nhận dạng Cơng nghệ tri thức – Viện Công nghệ Thông tin, trực tiếp bảo, đóng góp ý kiến quý báu Xin cảm ơn gia đình, ngƣời thân bạn bè động viên, giúp đỡ nhiều giúp tơi hồn thành khố học luận văn Hà Nội, ngày 26 tháng 10 năm 2006 Hồng Tiểu Bình Hồng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt CHƢƠNG 1: TỔNG QUAN VỀ TIẾNG NÓI 1.1 Lịch sử phát triển 1.2 Âm chế phát âm 1.3 Các đặc trƣng sinh học vật lý âm 1.4 Các tham số âm 1.5 Một số khái niệm ngữ âm Hồng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt 1.1 Lịch sử phát triển Năm 1797 Christian Kratzenstein trƣờng đại học St Petersburg xây dựng mơ hình có dạng vịm họng ngƣời tạo nguyên âm (a, e, i, o u) Sau đƣợc đƣợc Wolfgang von Kempelen Vienna, Austria phát triển thêm gọi Máy tạo tiếng nói dựa chế âm học Chiếc máy đƣợc bổ sung thêm mơ hình mơi lƣỡi, cho phát nguyên âm nhƣ phụ âm Trong năm 1930, Phịng thí nghiệm Bell Labs phát triển hệ thống VOCODER, tổng hợp phân tích tiếng nói dựa việc mơ hình hố cộng hƣởng ống linh kiện điện tử Honer Dodley nâng cấp hệ thống thành VODER đƣợc trƣng bày hội chợ New York World's Fair vào năm 1939 Hệ thống tổng hợp tiếng nói dựa máy tính đƣợc xây dựng vào năm 50 kỷ trƣớc hệ thống text-to-speech đƣợc hoàn thành vào năm 1968 Từ đến có nhiều cải tiến mặt công nghệ, kỹ thuật áp dụng cho tổng hợp tiếng nói, có đƣợc điều nhờ khả tính tốn máy tính tăng lên gấp nhiều nhiều lần, nghiên cứu sở liệu âm tiếng nói dày thêm tạo kho âm lớn phục vụ cho việc phân tích tiếng nói Tổng hợp tiếng nói vấn đề khoa học nhận dạng liên quan đến nhiều lĩnh vực khoa học khác nhƣ ngơn ngữ học, tâm lý học, tốn học, xử lý tín hiệu số khoa học máy tính Hiện nay, giới, nhà khoa học nghiên cứu xây dựng nhƣ đƣa vào ứng dụng thực tế nhiều hệ thống với chất lƣợng âm tiến dần đến tiếng nói tự nhiên ngƣời Thậm chí số ứng dụng định, chất lƣợng âm tổng hợp đạt đến độ tự nhiên nhƣ tiếng nói ngƣời Hiện Việt Nam, có nhiều quan, viện nghiên cứu, trƣờng đại học có nghiên cứu bƣớc đầu đem lại số kết khả quan Hồng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt vấn đề tổng hợp tiếng Việt Nghiên cứu tổng hợp tiếng Việt đòi hỏi tất yếu xã hội để theo kịp xu thế giới đặc thù ngôn ngữ quốc gia không cho phép sử dụng phần mềm có sẵn nƣớc ngồi việc đọc văn tiếng Việt Hơn việc nghiên cứu tổng hợp tiếng Việt giúp cho ta có đƣợc hiểu biết sâu ngơn ngữ văn hố Việt Nam, qua có ý thức việc giữ gìn sáng tiếng Việt nhƣ sắc văn hoá ngƣời Việt Nam 1.2 Âm chế phát âm Âm sóng áp lực theo chiều dọc đƣợc hình thành việc nén giãn phần tử khơng khí theo hƣớng song song với nguồn lƣợng phát Hình 1.1 Năng lƣợng sóng tạo việc nén/giãn phân tử khí đƣợc mơ tả nhƣ hình sin, có tham số quan trọng biên độ bƣớc sóng Tần số [chu kỳ/giây – đơn vị Hertz (Hz)] đơn vị để đo dạng sóng Tuy nhiên hình 1.1 chƣa mô tả đƣợc biến đổi áp suất cục theo thời gian, âm khơng phải hình thành theo chiều ngang, phân tử khơng khí dao động chỗ dọc theo đƣờng mức lƣợng Tốc độ âm xấp xỉ 331.5 + 0.6Tcm/s, với Tc nhiệt độ mơi trƣờng tính theo độ Celcius Cƣờng độ âm lƣợng đƣợc sóng âm truyền đơn vị thời gian qua đơn vị diện tích đặt vng góc với phƣơng truyền âm Hồng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt Đối với ngƣời, giá trị tuyệt đối cƣờng độ âm P không quan trọng giá trị tỷ đối P so với giá trị P0 Ngƣời ta định nghĩa mức cƣờng độ âm nhƣ sau: Mức cƣờng độ âm (Sound Pressure Level) giá trị tuyệt đối cƣờng độ âm theo dB đƣợc đo bằng: SPL(dB) = 20log10(P/P0) SPL dB ta gọi ngƣỡng nghe (là mức cƣờng độ âm mà tai ta phân biệt đƣợc) với âm 1kHz Khi ta nói chuyện cách khoảng mét có mức cƣờng độ âm 60dB SPL, máy khoan bê tông khoảng 120dB SPL Ngƣời ta dùng đại lƣợng Watts/m2 để đo cƣờng độ âm Một ngƣời bình thƣờng nghe thấy âm có cƣờng độ 10-12 W/m2 (ngưỡng nghe – threshold of hearing hay TOH) Con ngƣời có khả nghe âm nhỏ 0dB lớn 120dB Giá trị ngƣời ta gọi ngƣỡng đau Miền từ ngƣỡng nghe đến ngƣỡng đau gọi miền nghe đƣợc Tín hiệu tiếng nói phụ thuộc vào nhiều yếu tố tình trạng khí xung quanh Những yếu tố thể mức độ ngữ nghĩa, làm cho não hiểu đƣợc ý chứa đựng tín hiệu tiếng nói Một đặc trƣng tín hiệu tiếng nói độ dƣ thừa lớn, điều kiện cần thiết để tiếng nói truyền mơi trƣờng có nhiều tác động vào độ dƣ thừa cho phép não hiểu đƣợc câu nói dễ dàng 1.3 Các đặc trƣng sinh học âm: Tiếng nói đƣợc tạo sóng áp lực khơng khí xuất phát từ mồm mũi ngƣời nói Trong hầu hết ngơn ngữ giới, ngƣời ta chia âm vị thành hai lớp: + phụ âm: tạo thành luồng khơng khí từ phổi bị cản trở điểm đó, chẳng hạn khép chặt hai môi phát âm ([b], [m]), tiếp xúc đầu lƣỡi với lợi ([t], [d]) gây nên tiếng nổ tiếng xát gây nên âm khó nghe Hồng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt + nguyên âm: ngƣợc lại với phụ âm, nguyên âm thƣờng đƣợc tạo thành luồng khơng khí ngồi cách tự do, tạo thành âm hƣởng êm Hình 1.2 Bộ máy phát âm ngƣời Âm cịn đƣợc chia thành nhóm nhỏ dựa đặc trƣng phát âm Những đặc trƣng có đƣợc nhờ cấu tạo quan phát âm vị trí mà chúng tiếp xúc với thành phần khác Hơn số lƣợng lớn tham gia vào việc định vị chuyển động Ở hình xem xét có giới hạn quan phát âm Ngồi ra, thành phần tham gia vào việc phát âm cịn có phổi, khí quản, quản, khoang hầu (cổ họng), miệng khoang mũi Hầu khoang miệng tham gia tạo âm hữu thanh, cịn khoang mũi tạo âm mũi Theo hình minh hoạ ta có chức quan nhƣ sau: Phổi: Nguồn cung cấp nói Dây âm (thanh quản): Khi chúng kết hợp với dao động tạo âm hữu thanh, chúng chùng xuống căng lên tạo rung động cách định kỳ tạo âm vơ Vị trí dây kết hợp với gọi mơn Hồng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt 10 Vòm miệng (Ngạc mềm): hoạt động nhƣ van, mở cho phép khơng khí (gây tiếng vang) thông qua khoang mũi Âm tạo m n Ngạc cứng: vùng bề mặt cứng phía mồm kết hợp với lƣỡi để tạo phụ âm Lưỡi: phận linh hoạt, tạo hình dạng khác với vịm miệng để tạo nguyên âm, kết hợp với ngạc cứng để tạo phụ âm Lƣỡi tiến trƣớc, lùi lại sau, nâng cao lên, hạ thấp xuống, làm cho khoang miệng ln thay đổi, tạo khoang cộng hƣởng quan trọng phía hầu Răng: kết hợp với lƣỡi để tạo phụ âm khác Mơi: cuộn trịn căng dài để tạo nguyên âm, đóng kín để ngăn luồng tạo âm nhƣ p, b, m 1.4 Các tham số âm Độ cao: Âm phát độ cao định Mức độ cao thấp âm phụ thuộc vào chấn động nhanh hay chậm phần tử khơng khí thời gian định Có nghĩa độ cao âm phụ thuộc vào tần số dao động Tần số dao động dây quy định độ cao giọng nói ngƣời Độ mạnh: Độ mạnh âm biên độ dao động định Biên độ dao động lớn âm phát mạnh Thông thƣờng phụ âm mạnh nguyên âm Độ mạnh đƣợc gọi cƣờng độ Độ dài: Độ dài hay trƣờng độ âm phụ thuộc vào chấn động lâu hay chóng phần tử khơng khí Ví dụ tiếng Việt, a hai dài a hay Âm sắc: Âm sắc sắc, sắc thái riêng biệt âm Cùng nốt nhạc nhƣng âm loại đàn khác có sắc thái khác Đó khác âm sắc Âm sắc khác vật tạo âm sắc (chất liệu, thành phần vật lý…), cách tạo âm (tay, miếng gẩy…) Ngồi cịn yếu tố Hồng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt   y ( n) y ( n)   h (t  n) q 69 q q q q (6.4) q Với hq cửa sổ tổng hợp Hệ số αq đƣợc sử dụng để cân thay đổi lƣợng thay đổi cao độ tần số Trong băng tần hẹp, thay đổi lƣợng không đáng kể đặc biệt chọn độ rộng cửa lần chu kỳ cao độ tần số Tốc độ pitch tín hiệu tổng hợp khơng thay đổi nhiều so với tín hiệu gốc coi αq khơng thay đổi Trong trƣờng hợp này, giả thiết αq = cịn tổng cửa sổ Hanning tức: Thì: ∑hq(tq-n) = 1; αq = (6.5) y(n) =  y q (n) (6.6) q 6.1.2 Tính điểm cao độ tần số tổng hợp (epoch) Để tính tập điểm cao độ tần số tổng hợp ts(u) với chu kỳ cao độ tần số Ps(t) cho trƣớc Nếu giá trị Ps(t) = P khơng đổi theo thời gian, epoch tổng hợp đƣợc tính ts(u) = uP Tuy nhiên chu kỳ pitch Ps(t) thu đƣợc thƣờng hàm theo thời gian Bằng thực nghiệm tính ts(u+1) thông qua epoch trƣớc ts(u) chu kỳ pitch thời điểm đó: ts(u+1) - ts(u) = Ps(ts(u)) (6.7) Tuy nhiên phép tính gần đúng, chấp nhận đƣợc giá trị Ps(t) thay đổi chậm theo thời gian Việc tính tốn xác giá trị giúp ta hiểu rõ thay đổi cao độ trƣờng độ đoạn kề cận Mỗi epoch ts(u+1) đƣợc tính khoảng cách với epoch ts(u) liền kề Hiệu số ts(u+1) - ts(u) chu kỳ pitch trung bình đoạn ts(u) ≤ t ≤ ts(u+1) (hình ) Hồng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt 70 Ta có: t s (u  1)  t s (u )  t s (u  1)  t s (u ) ts ( u 1)  P (t )dt s (6.8) ts ( u ) Hình 6.4 Chu kỳ cao độ tần số tổng hợp hàm tăng tuyến tính theo thời gian với giá trị cuối gấp hai lần giá trị ban đầu Có thể xem Ps(t) tuyến tính với t: Ps(t) = Ps(ts(u)) + b(t - ts(u)) (6.9) Khi đẳng thức (6.8) đƣợc tính nhƣ sau: t s ( u 1) u   P ( t ) dt   P ( t ( u )  b u s  s   t s (u ) (6.10) Với δj đƣợc tính bởi: δu = ts(u+1) - ts(u) (6.11) Thay (6.10) (6.11) vào (6.8) ta đƣợc: δu = P(t(u)) + bδu /2 (6.12) Dùng (6.11) với epoch ts(u+1) ta có: ts(u+1) - ts(u) = δu = Ps(t(u)) / (1-b/2) (6.13) Nhƣ với giá trị hệ số b nhỏ biểu thức (6.7) xấp xỉ (6.13) Thay (6.9) giá trị ts(u+1) ta có: Ps(ts(u+1)) = Ps(ts(u)) + b(ts(u+1) - ts(u)) Hồng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội (6.14) Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt 71 6.1.2.1 Thay đổi cao độ tần số Đơi ta khơng sinh cao độ tần số phân tích hàm theo thời gian mà muốn tự thay đổi cách thay đổi cao độ giữ nguyên trƣờng độ Khi thay đổi cao độ tần số bản, điểm chu kỳ tổng hợp ts(u) phải đƣợc tính từ chu kỳ phân tích ta(s), hệ số thay đổi cao độ tần số β = β(ta(s)) theo cách: Giả sử chu kỳ cao độ tần số phân tích Pa(t) tín hiệu phân tích vào thời điểm t số độ lệch epoch: Pa(t) = ta(i+1) – ta(i) (6.15) Hình 6.5 Chu kỳ cao độ tần số tín hiệu phân tích hàm theo thời gian bất biến đoạn Chu kỳ pitch tín hiệu tổng hợp Ps(t) vào thời điểm t đƣợc tính độ chênh lệch epoch j j+1: ts(j) ≤ t ≤ ts(j+1) (6.16) với ts(j) thời gian tức thời epoch j sóng tổng hợp Nhƣ ta có mối liên hệ chu kỳ tần số sóng tổng hợp sóng phân tích: Ps(t) = β(t)Pa(t) (6.17) với β(t) đƣợc gọi hệ số thay đổi tần số bản, hàm với đối số thời gian Kết hợp với công thức 6.8 ta đƣợc Hồng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt t s (u  1)  t s (u )  t s (u  1)  t s (u ) 72 t s ( u 1)   (t ) P (t )dt a (6.18) ts ( u ) Với β(t) = β(ta(s)) = βs Chu kỳ cao độ tần số thay đổi tín hiệu gốc đƣợc tính khoảng thời gian [ts(u), ts(u+1)] Và khoảng giá trị P(t), β(t) hàm bất biến việc tính tích phân đƣợc thực đơn giản 6.1.2.2 Thay đổi trường độ Thay đổi trƣờng độ trình biến đổi độ dài tín hiệu tiếng nói đoạn giữ nguyên giá trị cao độ Điều đƣợc thực việc sử dụng hàm thời gian t = D(ta) Nó làm lệch giá trị thời gian tín hiệu gốc tín hiệu biến đổi Ta sử dụng khái niệm hệ số thay đổi α(t) đƣợc biểu diễn nhƣ sau: t D(t )    ( )d (6.19) Giả sử hệ số thay đổi trƣờng độ α(t) = α số, ánh xạ D(t) (6.19) tuyến tính Nếu α > có nghĩa làm chậm tín hiệu lại, ngƣợc lại, α < làm tăng nhanh tín hiệu Chúng ta xem xét khoảng thời gian t epoch i i + 1: D(ta(0)) = D(t) = D(ta(s) + α(t-ta(s)) (6.20) ta(s) ≤ t < ta(s+1) Do mối tƣơng quan chu kỳ cao độ phân tích tổng hợp là: Ps(D(t)) = Pa(t) (6.21) Để giải vấn đề này, ta sử dụng chuỗi điểm chu kỳ ảo số thời gian t'a(u) tín hiệu phân tích liên quan đến điểm tổng hợp hệ thức: ts(u) = D(t'a(u)) Hồng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội (6.22) Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt 73 Hình 6.6 Thay đổi trƣờng độ tín hiệu Trong hình 6.6, năm epoch phân tích ta(u) nằm trục hoành bốn epoch tổng hợp ts(u) trục tung Trƣờng độ ngắn 25% giữ nguyên chu kỳ pitch Các epoch phân tích ảo t'a(u) tƣơng ứng đƣợc tính qua ánh xạ D(t), với hệ số α = 0.75 Bây phải xác định ts(u+1) thông qua giá trị ts(u) t's(u) Giá trị ts(u+1) - ts(u) trung bình chu kỳ cao độ tần số tín hiệu gốc hai điểm t'a(u) t'a(u+1) t s (u  1)  t s (u )  t 's (u  1)  t 's (u ) t 's ( u 1)  P (t )dt a (6.23)  P (t )dt (6.24) t 's ( u ) Thay (6.20) (6.22) vào (6.23) ta có: t s (u  1)  t s (u )   t s (u  1)  t s (u ) t s ( u 1) /  a ts ( u ) / Hồng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt 74 Theo công thức này, chu kỳ cao độ tần số trung bình tín hiệu gốc đƣợc tính khoảng thời gian t's(u+1) - t's(u) đƣợc ánh xạ với ts(u+1) - ts(u) qua ánh xạ D(t) Cũng nhƣ trình thay đổi cao độ tần số bản, hàm tích phân đƣợc tính dễ dàng D(t) P(t) hàm tuyến tính đoạn 6.1.2.3 Thay đổi đồng thời cao độ tần số trường độ Việc thay đổi đơn giản việc kết hợp hai kết Từ (6.18) (6.24) ta đƣợc: t s (u  1)  t s (u )   t s (u  1)  t s (u ) ts ( u 1) /    (t ) P (t )dt a (6.25) ts ( u ) / Kết hàm bậc hai β(t)Pa(t) số đoạn tuyến tính theo t 6.1.2.4 Ánh xạ điểm cao độ tần số tổng hợp điểm cao độ tần số phân tích Bƣớc cuối áp tín hiệu thời gian ngắn vào điểm đồng tổng hợp Ta nhận thấy điểm chu kỳ tổng hợp khơng liên quan đến điểm chu kỳ phân tích Điểm chu kỳ ảo t's(u) (bằng với điểm chu kỳ tổng hợp ts(u) cho thay đổi độ cao tần số bản) không thiết phải tƣơng ứng với điểm cao độ tần số tổng hợp Một giải pháp đơn giản lấy trung bình trọng số hai tín hiệu phân tích gần Giả sử ta(s) ≤ t'a(u) ≤ ta(s+1), y(u,n) = (1- αu)x(s,n) + αux(s+1,n) αu đƣợc cho biểu thức: u  t 's (u )  t a ( s ) t a ( s  1)  t a ( s ) 6.24) Đơn giản hơn, ta chọn αu giá trị đặc biệt Khi điểm phân tích thời gian ngắn nằm gần với điểm chu kỳ ảo t's(u) Trong Hồng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt 75 trƣờng hợp này, thay đổi độ dài, phƣơng pháp PSOLA loại bỏ thêm bớt vào tín hiệu phân tích thời gian ngắn 6.2 Làm mềm hoá biên nối Sau áp dụng thuật toán làm PSOLA đảm bảo điều kiện tần số F0, lƣợng độ dài tín hiệu, để nâng cao chất lƣợng âm tổng hợp, ta phải qua bƣớc tinh chỉnh để làm trơn biên nối kết tín hiệu nhằm loại bỏ khập khiễng mức chiều biến thiên tức thời điểm này, điều tạo tiếng lạo xạo Thuật tốn đƣợc mơ tả nhƣ sau [7]: Giữa đoạn cuối bán âm tiết trƣớc đoạn đầu bán âm tiết sau, không nối trực tiếp mà cộng chồng lên với độ dài đoạn cộng chồng giá trị trung bình hai chu kỳ pitch thuộc hai bán âm tiết điểm liên kết Nhƣ thực có rút ngắn âm tiết nhƣng không đáng kể Với chu kỳ pitch lớn cho âm hữu 20ms độ dài bán âm tiết 500ms độ dài tín hiệu bị chồng chiếm 4% độ dài âm ghép nối Đoạn cộng chồng hai bán âm tiết hai nửa cửa sổ phân tích có độ dài chu kỳ pitch tƣơng ứng Hai nửa cửa sổ tổng hợp có độ dài giá trị trung bình cộng hai độ dài Giả sử hai bán âm tiết lần lƣợt x1(n) x2(n) đƣợc cắt điểm đánh dấu pitch hữu cho tín hiệu x2(n) điểm cuối x1(n) Hai nửa cửa sổ Hanning phân tích tƣơng ứng h1(n-t1) h2(n-t2) Trong đó:  0.5 0.5 cos(Pn ), n 0 h1 ( n )    1, n khác  0.5 0.5 cos(Pn ), n0 h2 ( n )    1, n khác P1, P2 hai chu kỳ pitch tƣơng ứng điểm nối, t1 điểm đánh dấu pitch sát cuối x1(n) với đoạn hữu cách điểm cuối đoạn không đổi vô (thƣờng lấy 16ms), t2 điểm đánh dấu pitch sát x2(n) với đoạn hữu cách điểm đoạn không đổi vô (16ms) Hai nửa cửa sổ Hanning tổng hợp tƣơng ứng h'1(n-t1) h'2(n-t2-P) Hoàng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt  h '1 ( n )    1, n khác 0.5 0.5 cos( n P ), 0 n  P 76  0.5 0.5 cos(Pn ), P n0 h'2 (n)    1, n khác P=(P1+P2)/2 Khi biểu thức tín hiệu tổng hợp là:  x1 ( n ) h1h( n(nt1 t) )x2h( n(nPt) h2 (Pn)t  P ) , x1 ( n ), 1 2 x ( n )   x ( n ),  n  t 1  x1 ( n ),  n  t1 t1  n  t1  P Hình 6.7 Làm mềm hoá biên nối 6.3 Kết luận Áp dụng thuật tốn PSOLA làm thay đổi độ dài cao độ tần số bản, phƣơng pháp thay đổi ngữ điệu, ngữ âm Hơn Hồng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt 77 PSOLA đời thay đƣợc LPC thay đổi F0 làm biến dạng phổ tín hiệu gốc, PSOLA hầu nhƣ giữ đƣợc đặc tính tín hiệu gốc Kết hợp kỹ thuật tổng hợp PSOLA với mơ hình liệu phụ thuộc ngữ cảnh cho kết tƣơng đối hồn hảo tiếng nói tổng hợp Đây hƣớng tiếp cận đáng ý cho mục tiêu tổng hợp tiếng Việt chất lƣợng cao Tuy nhiên PSOLA tồn số nhƣợc điểm nhƣ tín hiệu ngắn bị mất, pha, biên độ, hay pitch không đồng trình ghép nối gây Tuy nhiên nhƣợc điểm dễ dàng bị thuyết phục lợi ích mà đem lại Hồng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt CHƢƠNG 7: CÀI ĐẶT CHƢƠNG TRÌNH 7.1 Lựa chọn cơng cụ 7.2 Phƣơng pháp tổng hợp 7.3 Giao diện chƣơng trình 7.4 Kết luận Hồng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội 78 Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt 79 7.1 Lựa chọn công cụ Tôi lựa chọn công cụ Microsoft Visual Studio NET 2003 để xây dựng ứng dụng khả hỗ trợ tốt mặt ngơn ngữ lập trình Hơn tảng đƣợc sử dụng rộng rãi nay, phần lớn ứng dụng Việt Nam phát triển môi trƣờng Windows nên khả triển khai rộng rãi cao Mặt khác công cụ hỗ trợ Unicode cách đầy đủ nên tiết kiệm đƣợc công sức chuyển đổi Các thƣ viện chƣơng trình đƣợc xây dựng ngơn ngữ C#, hệ C C++ nên khả xử lý mức hệ thống tốt, phần giao diện tính tốn đơn giản đƣợc lập trình ngơn ngữ Visual Basic NET cho phép dễ dàng tạo chƣơng trình với thời gian ngắn Với mục đích thử nghiệm thuật tốn tiếng nói nên giao diện chƣơng trình tƣơng đối đơn giản Ngƣời viết bỏ qua phần xử lý ngôn ngữ phân tích cú pháp Văn sau đƣợc phân tích để tránh nhập nhằng xử lý ký hiệu, ký tự đặc biệt đƣợc telex hoá Đây đầu vào modul tổng hợp tiếng nói 7.2 Phƣơng pháp tổng hợp Phƣơng pháp tổng hợp đƣợc sử dụng phƣơng pháp xích chuỗi miền thời gian tốc độ tính tốn nhanh chất lƣợng âm tổng hợp cao Đơn vị âm đƣợc sử dụng phụ âm phần vần có dấu Ví dụ /c/, /ông/, /ngh/, /ệ/ hai đơn vị âm Số lƣợng âm thu đƣợc khoảng 2600 âm đƣợc lƣu trữ dƣới dạng file wav với tên file dƣới dạng telex Đây file với chất lƣợng âm cao file gốc chƣa bị nén hay biến đổi Quá trình thu âm đƣợc thực cách thu trực tiếp tiếng nói đọc từ văn cho trƣớc Văn có độ dài bao trùm đại đa số phần vần phụ âm tiếng Việt Quá trình tổng hợp đơn giản cách ghép nối file âm có sẵn sau phân tích văn đầu vào Với âm tiết "ngoèo" đƣợc phân tích thành "ng" "oèo" Khi tổng hợp ta gọi hai file ng.wav oeof.wav để thực ghép nối Hồng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt 80 Quá trình ghép nối phát âm thiết bị phải trình song song, tức việc phát âm đƣợc tiến hành sau khoảng thời gian sau ghép nối đƣợc ngữ đoạn Điều cần thiết phát sau hoàn thành việc ghép nối nhiều thời gian đồng thời bị chiếm nhiều nhớ trình xử lý Âm sau phát xong đƣợc giải phóng khỏi nhớ để tiếp tục q trình đồng "tổng hợp-phát âm" khác 7.3 Giao diện chƣơng trình Chƣơng trình gồm chức sau: + Phát âm từ văn đƣợc nạp từ file gõ trực tiếp vào hộp văn + Phát âm từ file wave sẵn có + Lƣu file âm đọc từ văn dƣới dạng wave + Biểu diễn file âm dƣới dạng biểu đồ sóng Hình 7.1 Giao diện chƣơng trình TextTrans Hồng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt 81 Trong modul tổng hợp tiếng Việt từ văn sử dụng phƣơng pháp PSOLA để ghép nối thành phần âm 7.4 Kết luận Chƣơng trình minh hoạ thô sơ nhƣng thể đầy đủ kết thuật toán PSOLA việc so sánh chất lƣợng âm gốc âm sau áp dụng thuật tốn Chƣơng trình nâng cấp thêm mặt giao diện trở thành ứng dụng hoàn chỉnh theo hƣớng xây dựng thành dịch vụ web (web service) để áp dụng cho hệ thống đọc tự động (cơ chế đƣợc hỗ trợ đầy đủ công cụ Microsoft Net) xây dựng ứng dụng di động (mobile platform) Hồng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt 82 ĐÁNH GIÁ KẾT QUẢ VÀ ĐỊNH HƢỚNG NGHIÊN CỨU Tổng hợp tiếng nói từ văn (text to speech) vấn đề thực khó, nhiên khả ứng dụng vào sống vơ to lớn Ngồi cịn đem lại ý nghĩa văn hoá xã hội sâu sắc Tuy nghiên cứu đạt đƣợc kết ban đầu khiêm tốn Các kết đạt đƣợc luận văn: + Tìm hiểu đặc trƣng mặt âm học tiếng Việt Từ lựa chọn đƣợc phƣơng pháp tổng hợp tiếng nói có nhiều ƣu điểm trội + Xây dựng sở liệu âm cách đầy đủ phục vụ trình ghép nối + Tìm hiểu xây dựng thành cơng thuật tốn biến đổi PSOLA áp dụng âm ghép nối để biến đổi cao độ nhƣ trƣờng độ nhằm tạo tiếng nói có chất lƣợng cao Hƣớng phát triển thời gian tới: + Nghiên cứu sử dụng mô hình Fujisaki cho việc tổng hợp điệu + Tối ƣu hoá thuật toán sở liệu để triển khai ứng dụng nhúng nhƣ thiết bị trợ giúp cá nhân, điện thoại di động + Xây dựng tham số đầy đủ đa dạng cho đơn vị âm Nếu phát triển thành công theo định hƣớng cho phép xây dựng đƣợc tổng hợp mềm dẻo có miền ứng dụng rộng rãi hơn, giới di động nhƣ ngày Hồng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt 83 TÀI LIỆU THAM KHẢO Tài liệu tiếng Anh [1] An Introduction to Text-to-Speech Synthesis by Thierry Dutoit, Kluwer Academic Publishers [2] Spoken Language Processing - A Guide to Theory, Algorithm and System Development (2001) XueDong Huang, Alex Axero, Hsiao Wue Hon [3] Building Synthesis Voice – Alan W Black and Kevin A.Lenzo Tài liệu tiếng Việt [4] Nhập môn ngôn ngữ học, Vũ Ngọc Cân, Lê Đình Tƣ, Trƣờng Đại học Ngoại ngữ Hà Nội [5] Gán nhãn âm vị trình xây dựng sở liệu tiếng Việt Đặng Ngọc Đức Công ty liên doanh thiết bị viễn thông Alcatel [6] Ứng dụng mơ hình nguồn âm lọc q trình tạo tiếng nói để khảo sát nguồn âm có mang tính điệu dạng tuyến âm số nguyên âm tiếng Việt Phan Quốc Thắng, Trịnh Đăng Khánh - Học viện Kỹ thuật Quân [7] Một số phƣơng pháp Nâng cao chất lƣợng hệ thống Tổng hợp tiếng Việt V-Talk KS Trịnh Anh Tuấn Tài liệu trực tuyến [8] http://www.vietlex.com Trung Tâm Từ Điển Học VietLex [9] http://ngonngu.net Diễn đàn ngơn ngữ tiếng Việt Hồng Tiểu Bình – ĐH Cơng nghệ, ĐHQG Hà Nội

Định dạng
Số trang	83
Dung lượng	1,38 MB