Tổng hợp tiếng nói tiếng việt

Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA o0o LÊ NGỌC PHÚ TỔNG HP TIẾNG NÓI TIẾNG VIỆT Chuyên ngành: Kỹ Thuật Vô Tuyến Điện Tử Mã số ngành: 2.07.01 2.07.07 LUẬN VĂN THẠC SỸ TP HCM 10/2003 CÔNG TRÌNH ĐƯC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học: TS LÊ TIẾN THƯỜNG Cán chấm nhận xét 1:……………………………………………………………………………………………………… Cán chấm nhận xét 2:……………………………………………………………………………………………………… Luận văn Thạc só bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày………tháng………năm…………… Tóm tắt lý lịch trích ngang: Họ tên: LÊ NGỌC PHÚ Ngày, tháng, năm sinh: 11-01-1979 Nơi sinh: Bình Định Địa liên lạc: Bộ môn Viễn Thông – Trường Đại học Bách khoa Tp Hồ Chí Minh – 268 Lý Thường Kiệt, Quận 10, Tp Hồ Chí Minh QUÁ TRÌNH ĐÀO TẠO : 1996 –2001: Học Đại học, chuyên ngành Điện tử Viễn thông, Trường Đại học Bách Khoa Tp.HCM 2001 – 2003: Học Cao học, chuyên ngành Kỹ thuật Vô tuyến Điện tử Trường Đại Học Bách Khoa Tp.HCM QUÁ TRÌNH CÔNG TÁC: 2001 đến nay: Cán giảng dạy Bộ môn Viễn thông, khoa Điện – Điện Tử, Trường Đại Học Bách Khoa Tp.HCM NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN GV Hướng dẫn: Họ tên HV: Ngành: Khoá Tên đề tài: Nhận xét: TS LÊ TIẾN THƯỜNG LÊ NGỌC PHÚ Kỹ thuật Vô tuyến Điện tử 12 TỔNG HP TIẾNG NÓI TIẾNG VIỆT Đánh giá: Tp HCM, ngày tháng năm Giáo Viên Hướng Dẫn TS LÊ TIẾN THƯỜNG NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN GV Phản biện 2: Họ tên HV: Ngành: Khoá Tên đề tài: Nhận xét: LÊ NGỌC PHÚ Kỹ thuật Vô tuyến Điện tử 12 TỔNG HP TIẾNG NÓI TIẾNG VIEÄT Đánh giá: Tp HCM, ngày tháng GV Phản biện năm NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN GV Phản biện 1: Họ tên HV: Ngành: Khoá Tên đề tài: Nhận xét: LÊ NGỌC PHÚ Kỹ thuật Vô tuyến Điện tử 12 TỔNG HP TIẾNG NÓI TIẾNG VIỆT Đánh giá: Tp HCM, ngày tháng GV Phản biện năm Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA COÄNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc Lập – Tự Do – Hạnh Phúc - NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: LÊ NGỌC PHÚ Ngày, tháng, năm sinh: 11-01-1979 Chuyên ngành: Kỹ Thuật Vô Tuyến Điện Tử Phái: Nam Nơi sinh: Bình Định Mã số: 2.07.01 & 2.07.07 I- TÊN ĐỀ TÀI: TỔNG HP TIẾNG NÓI TIẾNG VIỆT II- NHIỆM VỤ VÀ NỘI DUNG: ……………………………………………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………………………………………… III- NGAØY GIAO NHIỆM VỤ:……………………………………………………… IV- NGÀY HOÀN THÀNH NHIỆM VỤ:……………… V- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: TS LÊ TIẾN THƯỜNG CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM NGÀNH BỘ MÔN QUẢN LÝ NGÀNH (Ký tên ghi rõ họ, tên, học hàm học vị) Nội dung đề cương luận văn thạc só Hội Đồng Chuyên Ngành thông qua Ngày………tháng………năm…………… PHÒNG ĐÀO TẠO SĐH KHOA QUẢN LÝ NGÀNH LỜI CẢM ƠN Kính gửi đến TS Lê Tiến Thường lòng biết ơn sâu sắc, thầy tận tình hướng dẫn giúp đỡ nhiều suốt thời gian qua Kính gửi đến cha mẹ người thân lòng biết ơn vô hạn động viên giúp đỡ mặt để đạt kết hôm Chân thành cảm ơn thầy cô Bộ môn Viễn thông, Trường Đại học Bách khoa Tp Hồ Chí Minh, hết lòng tạo điều kiện, hướng dẫn, giúp đỡ truyền đạt cho kiến thức quý báu để hoàn thành tốt luận án Tp Hồ Chí Minh, tháng 10/2003 Tác Giả TỔNG HP TIẾNG NÓI TIẾNG VIỆT THD: TS LÊ TIẾN THƯỜNG ABSTRACT Speech is one of the most natural and effective ways for human to communicate Therefore speech signal processing has been one of the most attractive fields to researchers around the world, especially with the exciting of the rapid development of computers and DSP (digital signal processing) technology On speech signal processing, the synthesis is the field that has been a very long history (since second half of eighteen century) Nowadays it is developing very fast because of its usefulness and practicability to human, especially to telecommunications and information technology, which are the most important fields of current society The purpose of speech synthesis, which may be known as text-to-speech conversion, is to speak aloud texts from user input devices (e.g keyboard, editor, screen…) So that we can store information in text files and then a speech synthesis system can speak aloud it’s content whenever we want Therefore it’s extremely useful to our society, which is known as the information explosion era Because of its important role, many researchers are working on this field Recently, some English speech synthesis systems, whose quality is acceptable, have been published to commerce Other languages like French, Chinese, Indonesian, Japanese, Thai … also have a lot of success on synthesis In spite of the rapid development about this field all over the world, there are very few researches on Vietnamese speech synthesis As far as I know, there is very little number of researchers or published papers on Vietnamese speech synthesis, both in Vietnam and overseas In this thesis I try to study some methods applied to foreign language synthesis (such as French, English…), investigate and find out some algorithms to extract useful features of the Vietnamese speech ABSTRACT After that, using these results and suitable HVTH: KS LÊ NGỌC PHÚ TỔNG HP TIẾNG NÓI TIẾNG VIỆT THD: TS LÊ TIẾN THƯỜNG methods synthesize some simple Vietnamese syllables The content of the thesis focus on three parts: Part I: Introduction In this one, I explain some fundamental concepts (purposes, methods, applications…) about speech synthesis Part II: Signal processing In this one, I present some useful tools, used to analyze speech, especially the Fourier transform and STFT – Short Time Fourier Transform The features of Vietnamese speech are also presented in this part Part III: Vietnamese speech synthesis This is the most important part of the thesis Investigating and extracting Vietnamese speech features, building a system to synthesize Vietnamese speech, the results and some directions to continue this topic is represented in this part The Vietnamese syllables that I have synthesized in the program have fine quality They can be heard and recognized correctly Because of the limitation of time and the extreme difficulties of Vietnamese speech, I have just synthesized the simple syllables – these syllables only combine one or two characters I hope to get comments and suggestions to develop and complete this program in the near future ABSTRACT HVTH: KS LEÂ NGỌC PHÚ MỤC LỤC Phần Trang Phần I GIỚI THIỆU Phần II CƠ SỞ LÝ THUYẾT Chương 1: Cơ Sở Toán Học 1.1 Xử lý tín hiệu 1.1.1 Xử lý tín hiệu liên tục 1.1.2 Xử lý tín hiệu rời rạc 5 1.2 Biến đổi Fourier 1.2.1 Biến đổi Fourier liên tục CTFT 1.2.2 Khai triển Fourier 1.2.3 Hàm Dirac, dãy xung công thức tính tổng Poisson 1.2.4 Lấy mẫu 1.2.5 Phép biến đổi Fourier rời rạc 1.2.6 Khai triển chuỗi Fourier rời rạc 1.2.7 Ưu điểm hạn chế phép biến đổi Fourier 10 12 13 14 15 1.3 Phân tích Fourier thời gian ngắn STFT 1.3.1 Công thức biến đổi 1.3.2 Một số kết Chương 2: Tiếng nói, ngữ âm tiếng Việt 2.1 Bộ máy phát âm 2.2 Tiếng nói 2.3 Tổng quan tiếng Việt 18 19 22 23 25 28 TỔNG HP TIẾNG NÓI TIẾNG VIỆT THD: TS LÊ TIẾN THƯỜNG DỮ LIỆU CHƯƠNG TRÌNH Dữ liệu người Dữ liệu người Dữ liệu người n Nhãn Nhãn Nhãn Nhãn Nhãn Nhãn Hai chu kỳ cao độ Hai chu kỳ cao độ Hai chu kỳ cao độ Hai chu kỳ cao độ Hai chu kỳ cao độ Hai chu kỳ cao độ Các đỉnh chu kỳ cao độ Các đỉnh chu kỳ cao độ Các đỉnh chu kỳ cao độ Các đỉnh chu kỳ cao độ Các đỉnh chu kỳ cao độ Các đỉnh chu kỳ cao độ Dữ liệu tiếng Hình 4.21 Cơ sở liệu CHƯƠNG HỆ THỐNG TỔNG HP TIẾNG NÓI TIẾNG VIỆT HVTH: KS LÊ NGỌC PHÚ TỔNG HP TIẾNG NÓI TIẾNG VIỆT TS LÊ TIẾN THƯỜNG CHƯƠNG TRÌNH TỔNG HP TIẾNG NÓI 5.1 Giới thiệu: Chương trình tổng hợp tiếng nói luận văn viết thực máy tính Penttium III, tốc độ CPU 633Mhz, dung lượng nhớ 128Mbyte Thời gian tổng hợp âm tiết tương đối nhanh, tác giả kiểm tra tốc độ tổng hợp trung bình khoảng 0.21 giây/ký tự Chương trình viết ngôn ngữ Matlab, phiên 6.5 Tác giả chọn ngôn ngữ thuận lợi việc khảo sát phân tích Các hàm cần thiết việc xử lý tiếng nói (thu âm, cắt xén, phân tích phổ…) có sẵn, thuận lợi việc khảo sát luận văn Tần số lấy mẫu chọn để xử lý tiếng nói luận văn Fs=44,1 Khz, tần số lấy mẫu cao nhằm mục đích tăng chất lượng tiếng nói tổng hợp 5.2 Chức năng: Một số chức chương trình tổng hợp tiếng nói: Tổng hợp tiếng nói tiếng Việt: nhận vào chữ viết tiếng Việt, thực tạo phát âm tiếng nói tiếng Việt tương ứng Đọc văn bản: Cho phép người sử dụng nhập vào đoạn văn tiếng Việt, chương trình thực tổng hợp phát âm đoạn văn CHƯƠNG 5: CHƯƠNG TRÌNH TỔNG HP TIẾNG NÓI 93 HVTH: KS LÊ NGỌC PHÚ TỔNG HP TIẾNG NÓI TIẾNG VIỆT TS LÊ TIẾN THƯỜNG Chọn giọng phát âm: chương trình tổng hợp tiếng nói thực việc phát âm theo giọng nói người chọn Tạo sở liệu: Cho phép tạo sở tiếng nói người sử dụng cách đọc tiếng nói vào hệ thống để phân tích lưu đặc trưng Xoá sở liệu: liệu tạo không tốt, (do đọc chưa chuẩn) chương trình cho phép xoá để đọc lại Với người không sử dụng chương trình chương trình cho phép xoá sở liệu để tiết kiệm nhớ Khảo sát đặc trưng âm tiết: Chương trình tính toán vẽ số đặc trưng âm tiết (chu kỳ pitch, phổ, thay đổi formant f0…) 5.3 Hoạt động: Để thực chương trình, khởi động Matlab, chương trình vào thư mục tùy định là: C:\Matlab6p5\work\lvtn Nhập vào: LVTN ↵ Giao diện chương trình hình 5.1 Thực chương trình cách nhấn phím TIẾP TỤC Giao diện chọn lựa cho phép người sử dụng chọn số cách để khảo sát hình 5.2 Trong hình vẽ 5.2, chương trình cho phép chọn lựa số cách để thực việc tổng hợp: TỪ: Thực tổng hợp tiếng nói cách nhập chữ liên tiếp vào hình soạn thảo, chương trình tách riêng từ trích liệu từ từ sở liệu, thực nối từ (word concatination), từ thu trước lưu sẵn sở liệu NGUYÊN ÂM ĐƠN: Chọn nút nhấn để tổng hợp nguyên âm đơn (a, e, i, o, u…) kết hợp với dấu NGUYÊN ÂM KÉP: Chọn nút nhấn để tổng hợp vần kết hợp từ hai nguyên âm đơn (ao, eo, iu, ôi,…) kết hợp với dấu KHẢO SÁT DẤU: Chọn nút nhấn để thực việc khảo sát ảnh hưởng điệu (ngang, sắc, huyền, hỏi, ngã, nặng) lên âm tiết tiếng Việt CHƯƠNG 5: CHƯƠNG TRÌNH TỔNG HP TIẾNG NÓI 94 HVTH: KS LÊ NGỌC PHÚ TỔNG HP TIẾNG NÓI TIẾNG VIỆT TS LÊ TIẾN THƯỜNG Hình 5.1 Giao diện chương trình Hình 5.2 Giao diện chọn lựa phương pháp tổng hợp CHƯƠNG 5: CHƯƠNG TRÌNH TỔNG HP TIẾNG NÓI 95 HVTH: KS LÊ NGỌC PHÚ TỔNG HP TIẾNG NÓI TIẾNG VIỆT TS LÊ TIẾN THƯỜNG BÁN ÂM TIẾT: Chọn nút nhấn để thực tổng hợp âm tiết tiếng Việt cách nối hai bán âm tiết lại với Chương trình thực nhiều phần, tác giả giới thiệu phần tổng hợp NGUYÊN ÂM ĐƠN Chương trình thực thi nhấn vào nút NGUYÊN ÂM ĐƠN giao diện hình 5.2 Khi đó, giao diện chương trình tổng hợp nguyên âm đơn hình 5.3 Chương trình tổng hợp nguyên âm đơn cho phép tổng hợp nguyên âm theo hai cách, tổng hợp trực tiếp (từng nguyên âm) từ từ vựng (chú thích hình 5.3 nhập vào vùng nhập chữ viết số nguyên âm để chương trình tổng hợp phát âm liên tiếp Việc thực tổng hợp tiếng nói kết hợp với việc phân tích vẽ đặc trưng tiếng nói tổng hợp dạng sóng, phổ, chu kỳ cao độ, tốc độ qua điểm zero, formant f0…, việc thực cách chọn vào radiobutton VẼ chọn vào checkbox tương ứng giao diện hình 5.3 Khi sau tổng hợp tiếng nói phát âm chương trình vẽ lại số thông số để đánh giá tiếng nói vừa phát âm Ví dụ, thực tổng hợp từ ‘O’ chọn radiobutton VẼ checkbox DẠNG SÓNG, sau tổng hợp chương trình phát âm tiếng ‘O’ đồng thời vẽ dạng sóng tiếng ‘O’ tổng hợp hình 5.4 Chương trình cho phép chọn giọng phát âm cách chọn vào popupmenu chọn giọng nói giao diện hình 5.3 Ở tác giả chọn việc tổng hợp theo giọng nói nên chọn liệu (NGOC PHU) lưu sở liệu Việc thêm liệu (âm tiết mới) vào sở liệu thực cách nhập chữ viết muốn thêm vào hình soạn thảo, sau nhấn nút THÊM, chương trình thực kiểm tra: ¾ Nếu từ chưa có từ vựng, chương trình cho phép thu âm, trích đặc trưng lưu vào sở liệu ¾ Nếu từ có từ vựng, chương trình hiển thị bảng nội dung câu hỏi hình 5.5 Ngoài hoạt động số chức khác giải thích trên, phần giao diện có phần tương tự nên tác giả không giải thích mà viết phần hướng dẫn riêng giao diện chương trình CHƯƠNG 5: CHƯƠNG TRÌNH TỔNG HP TIẾNG NÓI 96 HVTH: KS LÊ NGỌC PHÚ TỔNG HP TIẾNG NÓI TIẾNG VIỆT TS LÊ TIẾN THƯỜNG tổng hợp từ từ vựng Hình 5.3 Giao diện tổng hợp nguyên âm đơn Hình 5.4 Dạng sóng từ ‘O’ tổng hợp Hình 5.5 Bảng câu hỏi thay từ vựng CHƯƠNG 5: CHƯƠNG TRÌNH TỔNG HP TIẾNG NÓI 97 HVTH: KS LÊ NGỌC PHÚ TỔNG HP TIẾNG NÓI TIẾNG VIỆT THD: TS LÊ TIẾN THƯỜNG KẾT QUẢ, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1 Kết Trong luận văn này, tác giả tìm hiểu khảo sát có kết đặc trưng tiếng nói tiếng Việt, nghiên cứu số phương pháp giải thuật để thực tổng hợp tiếng nói tiếng Việt Qua thu số kết sau: 6.1.1 Trích đặc trưng tiếng nói tiếng Việt: ¾ Chiều dài âm tiết: xác định thông qua việc đánh dấu điểm đầu điểm cuối thực âm tiết ¾ Hàm lượng thời gian ngắn ¾ Hàm tự tương quan ¾ Tốc độ qua điểm zero ¾ Giải thuật thực việc đánh dấu chu kỳ cao độ âm tiết ¾ Qua trích chu kỳ cao độ để thực việc tổng hợp tiếng nói CHƯƠNG 6: KẾT QUẢ, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 98 HVTH: KS LÊ NGỌC PHÚ TỔNG HP TIẾNG NÓI TIẾNG VIỆT THD: TS LÊ TIẾN THƯỜNG ¾ Đồ thị phổ (spectralgram) âm tiết tiếng Việt ¾ Cực đại địa phương (local maxima) từ phổ tần số tiếng nói ¾ Tần số F0 tiếng nói tiếng Việt Các đặc trưng sở để thực việc tổng hợp, xử lý nhận dạng tiếng nói 6.1.2 Tổng hợp: Dựa sở đặc trưng trích áp dụng giải thuật TDPSOLA, tác giả viết chương trình hoàn chỉnh để thực việc tổng hợp tiếng nói tiếng Việt Hiện chương trình tổng hợp rõ ràng nguyên âm đơn (a, e, u…) tiếng Việt có kết hợp với điệu tiếng Việt Chất lượng số âm tiết tổng hợp có chất lượng tốt, (rõ ràng, tự nhiên, dễ nhận biết) Đồng thời chương trình tổng hợp số vần kết hợp từ hai nguyên âm (nguyên âm kép) với độ tự nhiên tốt (phân biệt được) Tuy nhiên âm tiết phức tạp dó nhiên vấn đề tổng hợp trở nên khó khăn, kết thu đạt chất lượng Một số âm thực tổng hợp theo giải thuật TD_PSOLA: Nguyên âm đơn: A, Ă, Â, E, Ê, I, O, Ô, Ơ U, Ư… Kết hợp với điệu Vần kết hợp hai nguyên âm: AO, AI, ÔI, EI… Các âm tiết tổng hợp rõ ràng tác giả liệt kê bảng 6.1 Bên cạnh đó, tác giả viết chương trình tổng hợp theo kiểu nối từ (words concatination) Chương trình hoạt động theo đơn vị sở từ, nhập văn vào hình soạn thảo, máy tính thực việc tách văn thành từ đơn, sau thực việc chọn từ đơn phát âm từ đơn liên tiếp Tuy nhiên công việc không đòi hỏi nhiều giải thuật mà yêu cầu thời gian để hoàn thiện Do tác giả viết số chức mang tính giới thiệu mà chưa kịp hoàn thiện tính giống tự điển thực CHƯƠNG 6: KẾT QUẢ, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 99 HVTH: KS LÊ NGỌC PHÚ TỔNG HP TIẾNG NÓI TIẾNG VIỆT THD: TS LÊ TIẾN THƯỜNG Bảng 6.1 Các âm tiết tiếng Việt tổng hợp a e ê i o ô u y ác ãi ảm ản ão au ảy ằm ằn ấc ẫm ẫn âu ây éc ẹm ẹn ẹo ếm ến ết ệu óa ịm íp é ế í ó ố ú ứ ý ạc ại ãm ãn ạo áu ãy ẳm ẳn ậc ậm ận ấu em en eo ép ệm ền ệt ia im in ịp è ề ì ò ù ỳ am an ao áp àu ắc ẵm ắp âm ân ấp ầu ầy ém én éo ẹp ềm ển ía ím ín CHƯƠNG 6: KẾT QUẢ, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ẹ ệ ị ọ ộ ợ ụ ự ỵ ám án áo ạp ay ặc ặm ặp ấm ấn ập ẩu ẩy èm èn èo ẹt ềm ễn ếu ìa ìm ìn ịt ả ẻ ể ỉ ỏ ổ ủ ỷ ài àm àn át áy ăm ăn ầm ần ất ẫu ẫy ẻm ẻn ẻo ét ên ếp ều ịa ỉm ịn iu 100 ã ẽ ễ ó õ ỗ ỡ ũ ữ ỹ ải ạm ạn ảo ạt ày ắm ắn ặt ẩm ẩn ật ậu ậy ẽm ẽn ẽo êm ện ệp ễu ỉa óm ỉn íu HVTH: KS LÊ NGỌC PHÚ TỔNG HP TIẾNG NÓI TIẾNG VIỆT ìu òa òe õi õm õn ốc ổi ồm ồn ốt ởi ỡm ỡn ua úc uệ ụi ụm ụn úy ứa ực ứu ỉu ỏa ỏe ọi ọm ọn ộc ỗi ộm ổn ột ời ợm ợn úa ục ui um un úp ùy ừa ừm ựu THD: TS LÊ TIẾN THƯỜNG óu õa oi om on óp ôi óc ổm ỗn ơm ơn ớp ùa uế úm ún ụp ủy ữa ứt ửu ịu ọa ói óm ón ọp ối ọc ỗm ộn ới ớm ớn ợp uề ùi ùm ùn út ũy ữa ựt ữu oa oe òi òm òn ót ồi ôm ôn ốp ỡi ờm ờn ớt ũa uể ủi ủm ủn ụt ụy ựa ưu ýt óa óe ỏi ỏm ỏn ọt ội ốm ốn ộp ợi ởm ởn ợt ụa uễ ũi ũm ũn uy ưa ức ừu ỵt Ngoài ra, tác giả thử nghiệm tổng hợp theo kiểu nối bán âm tiết (demisyllables concatination) Theo cách này, âm tiết tiếng Việt xem bao gồm hai bán âm tiết âm đầu vần Chẳng hạn âm tiết ‘TÔI’ bao gồm âm đầu T vần ÔI Như chương trình thực nối hai bán âm tiết (được thu âm trước lưu sẵn) lại để tạo thành âm tiết TÔI hoàn chỉnh Tuy nhiên phương pháp bị hạn chế tác giả chưa khảo sát kịp ảnh hưởng lẫn bán âm tiết nên kết tổng hợp chưa có độ tự nhiên tốt Người nghe nhận phân cách vùng tiếp giáp âm đầu vần Nguyên nhân đọc từ hoàn chỉnh máy phát âm hoạt động cách liên tục, ngược lại thực việc ghép ta thực giống CHƯƠNG 6: KẾT QUẢ, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 101 HVTH: KS LÊ NGỌC PHÚ TỔNG HP TIẾNG NÓI TIẾNG VIỆT THD: TS LÊ TIẾN THƯỜNG Đánh giá kết quả: Tiếng nói tín hiệu phức tạp Do sau tổng hợp việc đánh giá khó đánh giả chất lượng (tốt % so với tiếng nói gốc) tiếng nói cách định lượng mà mức định tính Một số cách thực đánh sau: ¾ Quan sát trực tiếp dạng sóng miền thời gian ¾ Quan sát kết phân tích phổ miền tần số ¾ Nghe trực tiếp tiếng nói tổng hợp (có thể so với tiếng nói gốc cách lưu sẵn tiếng nói gốc) Trong ba cách đánh giá cách đánh giá thứ thông dụng xác tiếng nói tổng hợp cuối nhằm mục đích để người nghe cảm nhận hiểu nội dung Như việc đánh giá cách nghe trực tiếp hiệu khách quan thực tế gần cách đánh giá áp dụng để đánh giá chất lượng hệ thống tổng hợp tiếng nói Hai cách đánh giá đầu mang tính chất tương đối 6.2 Kết luận Đây hướng nghiên cứu mới, ý tưởng giải thuật có áp dụng thành công ngôn ngữ nước khác chưa áp dụng tiếng Việt (theo tác giả biết) Qua trình tìm hiểu ý tưởng giải thuật, cộng với việc tự nghiên cứu khảo sát dạng sóng âm tiết tiếng Việt, tác giả nhận thấy khai thác ý tưởng áp dụng cho tiếng nói tiếng Việt, thực tế thực tổng hợp số nguyên âm nguyên âm kép Điều cho thấy tiếp tục nghiên cứu sâu giải thuật cấu trúc âm tiết tiếng Việt để hiệu chỉnh cho phù hợp, khả tổng hợp tất âm tiết tiếng Việt để ứng dụng Một số kết luận rút qua thời gian tác giả thực luận văn: Về chất âm học, tiếng nói tiếng Việt có nhiều đặc trưng để phân biệt, hai đặc trưng quan trọng tiếng nói tiếng Việt là: ¾ Dạng sóng chu kỳ cao độ ¾ Sự thay đổi độ lớn khoảng cách đỉnh chu kỳ cao độ CHƯƠNG 6: KẾT QUẢ, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 102 HVTH: KS LÊ NGỌC PHÚ TỔNG HP TIẾNG NÓI TIẾNG VIỆT THD: TS LÊ TIẾN THƯỜNG Qua trình khảo sát, tác giả rút kết luận phân biệt âm tiết phân biệt giọng nói người dựa đặc trưng Đây kết luận tiếng nói tiếng Việt mà tác giả nhận thấy chưa có tài liệu công bố Tất nguyên âm đơn tổng hợp rõ ràng, có số nguyên âm tổng hợp có chất lượng cao Đó nguyên âm dễ phát âm nhất, nguyên âm tròn môi (o, ô, ơ) Về mặt chất, phát âm nguyên âm này, máy phát âm hoạt động cách tự nhiên Những nguyên âm khó phát âm (u, i, e) chất lượng tiếng nói tổng hợp thấp hơn, phát âm âm này, máy phát âm người hoạt động cách phức tạp Đối với âm tiết bao gồm hai nguyên âm, việc tổng hợp thực được, nhiên tính phức tạp mà kết thu với độ tự nhiên rõ ràng Như việc phân tích tổng hợp khó khăn thực tổng hợp từ hoàn chỉnh Đối với tiếng Việt, đặc điểm quan trọng điệu Qua trình khảo sát, tác giả nhận thấy âm tiết kết hợp ký tự giống kết hợp với điệu khác có: ¾ Sự khác quy luật biến đổi đỉnh (độ lớn, khoảng cách) chu kỳ cao độ ¾ Dạng sóng chu kỳ cao độ gần giống Đối với âm tiết có điệu có quy luật biến đổi độ lớn chu kỳ cao độ (khoảng cách đỉnh) theo thời gian giống nhau, cụ thể là: Thanh ngang: chu kỳ cao độ thay đổi suốt Thanh sắc: chu kỳ cao độ giảm dần cuối âm tiết Thanh huyền: chu kỳ cao độ tăng dần cuối âm tiết Thanh hỏi: chu kỳ cao độ có đoạn uốn cong (giảm, tăng, giảm) âm tiết giảm dần cuối âm tiết Thanh ngã: đường nét gần giống với hỏi, nhiên tốc độ cong thay đổi nhanh Thanh nặng: Chu kỳ cao độ bị gãy đoạn CHƯƠNG 6: KẾT QUẢ, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 103 HVTH: KS LÊ NGỌC PHÚ TỔNG HP TIẾNG NÓI TIẾNG VIỆT THD: TS LÊ TIẾN THƯỜNG 6.3 Hướng phát triển Tổng hợp tiếng nói tiếng Việt hướng nghiên cứu hấp dẫn, thành công hướng nghiên cứu mang đến ứng dụng hữu ích cho xã hội, đặc biệt lónh vực Viễn thông Công nghệ thông tin Tuy nhiên tiếng nói vấn đề vô phức tạp, đặc biệt tiếng nói tiếng Việt bị ảnh hưởng hệ thống điệu Do phạm vi luận văn tác giả dừng lại mức nghiên cứu ban đầu, kết thu số âm tiết đơn giản tốt Tuy nhiên để ứng dụng phải phát triển đến hướng nghiên cứu Đó là: ¾ Nghiên cứu chất âm học ảnh hưởng âm lân cận Đây vấn đề then chốt việc tổng hợp âm tiết, định nên thành công việc tổng hợp ngôn ngữ ¾ Một vấn đề phức tạp mà luận văn chưa thể đề cập tới tổng hợp phụ âm đầu Để hoàn thiện việc tổng hợp tiếng nói tiếng Việt, phải tiếp tục thực việc nghiên cứu để tổng hợp phụ âm ¾ Khảo sát thay đổi giọng điệu từ câu Từ tìm giải thuật để tổng hợp câu nói hoàn chỉnh cách tự nhiên ¾ Hoàn thiện chương trình để có chức giống phần mềm tổng hợp tiếng nói thực có thị trường thương mại ¾ Khi khảo sát ảnh hưởng âm lân cận, việc tổng hợp tiếng nói tiếng Việt phát triển tới cấp mới: chương trình phân tích âm tiết tổng hợp âm tiết dựa sở liệu âm tiết có sẵn ¾ Để thực thành công vấn đề tổng hợp tiếng nói, phải có hợp tác với chuyên gia ngôn ngữ, vấn đề ngữ âm tiếng Việt giải cách triệt để Đây vấn đề thiếu muốn nghiên cứu tiếng Việt Thiếu sót tác giả chưa thực điều thời gian ngắn không sớm nhận tính phức tạp ngữ âm CHƯƠNG 6: KẾT QUẢ, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 104 HVTH: KS LÊ NGỌC PHÚ TÀI LIỆU THAM KHAÛO [1] F J Owens, “Signal processing of speech” Macmillan, 1993 ISBN 0-33351921 [2] Michel Misiti, Yves Misiti, Georges Oppenheim, Jean-Michel Poggi, “Wavelets toolbox” The Mathworks Inc, 1997 [3] John R Deller, John G Proakis, John H N Hansen, “Discrete-time processing speech signals” Macmillan, 1993 ISBN 0-02-328301-7 [4] Tu Trong DO, Timio TAKARA, “Precise tone generation for Vietnamese text-to-speech system” 0-7803-7663-3/03/$17.00©2003IEEE [5] Daniel Jurafsky, James H Martin, “Speech and Language Processing – An introduction to natural language processing, Computational linguistics and speech recognition” ISBN 0-13-095069-6, Prentice Hall 2000 [6] Kurt Edward Dusterhoff, “Synthesizing fundamental frequency using models automatically trained from data’, Doctor of Philosophy, University of Edinburgh 2000 [7] Edmilson S.Morais, Paul Taylor, Fabil Violaro, ‘Concatenative Text-ToSpeech synthesis based on prototype waveform interpolation (a time frequency approach’ http://www.cstr.ed.ac.uk/pjojects/festival.html [8] Alan W Black, Kevin Lenzo, Vincent Pagel, ‘Issues in building general letter to sound rules’ http://www.cstr.ed.ac.uk/pjojects/festival.html [9] Alan W black, Nick campell, ‘Optimising selection of units from speech databases for concatenative synthesis’ http://www.cstr.ed.ac.uk/pjojects/festival.html [10] Thuong Le-Tien, “A study on the continuous wavelets transform for the Vietnamese speech processing” The 4th International Conference On Information Processing, November 1997, New Zealand [11] Samuel Steams, Rush A David, “Signal processing algorithms in Matlab” Prentice Hall, 1996 ISBN 0-13-045154-1 [12] Ann Syrdal, Yannis Stylianou, Laurie Garrison+, Alistair Conkie, Juergen Schroeter - Td-psola versus harmonic plus noisemodel in diphone based speech synthesis – IBM Research, Tokyo Research Laboratory http://www.cstr.ed.ac.uk/pjojects/festival.html [13] John G Proakis, Dimitris G Mandatis, “Introduction to digital signal processing” Macmillan, 1998 ISBN 0-02-396810-9 [14] Oktay Alkin, “Digital signal processing” Prentice Hall, 1994 ISBN 0-13079-542-9 [15] John R Deller, John G Proakis, John H L Hansen, “Discrete-Time Processing of Speech Signal” Macmilian 1993 ISBN 0-02-328301-7 [16] Robert A J Clark, Using prosodic structure to improve pitch range variation in text to speech synthesis – Centre for speech technology research, University of Edinburgh, Scotland - http://www.cstr.ed.ac.uk [17] Wolfgang Hess, “Pitch determination of speech signals, Algorithms and devices” Springer – Verlag Berlin Heidelberg 1983 ISBN 3-540-11933-7 [18] Cao Xuân Hạo, “Tiếng Việt vấn đề ngữ âm ngữ nghóa ngữ pháp” NXB Giáo dục, 1998 [19] Hữu Đạt, Trần Trí Dõi, Đào Thanh Lan, “Cơ sở tiếng Việt” NXB Giáo dục, 1998 [20] Nguyễn Thị Quy, Đoàn Dình Thạnh, Hoàng Diệu Minh, Hoàng Xuân Tân,”Giáo trình tiếng Việt dùng cho sinh viên ngành đào tạo giáo viên tiểu học” Trường Cao đẳng Sư phạm thành phố Hồ Chí Minh [21] Âm tiết tiếng Việt – website: http://vietlex.com [22] History of speech synthesis - http://www.ling.su.se/staff/kemplne.htm ... việc tổng hợp tiếng nói gọi việc chuyển chữ viết sang tiếng nói – TTS (Text – To – Speech) {tôi học} HỆ THỐNG TỔNG HP TIẾNG NÓI học Hình Hệ thống tổng hợp tiếng nói tiếng Việt Tổng hợp tiếng nói. .. trưng tiếng nói Các đặc trưng lưu lại để thực việc tổng hợp nhận dạng tiếng nói Chương 4: Hệ thống tổng hợp tiếng nói tiếng Việt PHẦN 1: GIỚI THIỆU HVTH: KS LÊ NGỌC PHÚ TỔNG HP TIẾNG NÓI TIẾNG... hiệu tiếng nói Cùng âm vị biểu diễn nhiều tiếng nói khác Hơn nữa, người nói khác phát âm chuỗi tiếng nói CHƯƠNG 2: TIẾNG NÓI – NGỮ ÂM TIẾNG VIỆT 25 HVTH: KS LÊ NGỌC PHÚ TỔNG HP TIẾNG NÓI TIẾNG

Định dạng
Số trang	118
Dung lượng	1,85 MB