BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - LUẬN VĂN THẠC SĨ KHOA HỌC XÂY DỰNG CÔNG CỤ KHẢO SÁT ẢNH HƯỞNG CỦA CÁC THAM SỐ CƠ BẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA NGÀNH: XỬ LÝ THÔNG TIN & TRUYỀN THÔNG MÃ SỐ: LÊ TRUNG DŨNG Người hướng dẫn khoa học: TS TRỊNH VĂN LOAN HÀ NỘI 2006 LUẬN VĂN THẠC SỸ MỤC LỤC LỜI NÓI ĐẦU CHƯƠNG 1: LÝ THUYẾT VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI 1.1 MỞ ĐẦU 1.2 BỘ MÁY PHÁT ÂM 1.2.1 Bộ máy phát âm .8 1.2.2 Cơ chế phát âm .9 1.3 BIỂU DIỄN TÍN HIỆU TIẾNG NĨI 1.3.1 Xác định tần số lấy mẫu 12 1.3.2 Lượng tử hoá 12 1.3.3 Nén tín hiệu tiếng nói 12 1.3.4 Mã hố tín hiệu tiếng nói 13 1.3.4.1 Mã hố trực tiếp tín hiệu 13 1.3.4.2 Mã hố tham số tín hiệu 14 1.4 ĐẶC TÍNH ÂM HỌC CỦA TIẾNG NÓI 15 1.4.1 Âm hữu âm vô 15 1.4.1.1 Âm hữu 15 1.4.1.2 Âm vô 15 1.4.2 Âm vị 16 1.4.2.1 Nguyên âm 16 1.4.2.2 Phụ âm 16 1.4.3 Các đặc tính khác 16 1.4.3.1 Tỷ suất thời gian 16 1.4.3.2 Hàm lượng thời gian ngắn 16 1.4.3.3 Tần số 17 1.4.3.4 Formant 17 1.5 MƠ HÌNH TẠO TIẾNG NĨI 18 1.6 XỬ LÝ TIẾNG NÓI 22 1.6.1 Tổng hợp tiếng nói 23 1.6.1.1 Tổng hợp tiếng nói theo cách phát âm 23 1.6.1.2 Tổng hợp đầu cuối tự nhiên 23 1.6.2 Nhận dạng tiếng nói 24 1.6.2.1 Nhận dạng ngữ nghĩa 24 1.6.2.2 Nhân dạng người nói 24 CHƯƠNG 2: TỔNG HỢP TIẾNG NÓI 25 2.1 CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI 25 LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 LUẬN VĂN THẠC SỸ 2.1.1 Phương pháp mô hệ thống phát âm 25 2.1.2 Phương pháp tổng hợp Formant 25 2.1.2.1 Bộ tổng hợp formant nối tiếp 25 2.1.2.2 Bộ tổng hợp formant song song 26 2.1.3 Phương pháp ghép nối 26 2.1.3.1 Phương pháp tổng hợp PSOLA 27 2.1.3.2 Các phiên PSOLA 27 2.2 MƠ HÌNH TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN 29 2.2.1 Tổng hợp mức cao 29 2.2.1.1 Xử lý văn 29 2.2.1.2 Phân tích cách phát âm 30 2.2.1.3 Ngôn điệu 30 2.2.2 Tổng hợp mức thấp 31 2.3 SO SÁNH CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI 31 CHƯƠNG 3: GIẢI THUẬT TD-PSOLA 33 3.1 GIẢI THUẬT PSOLA 33 3.1.1 Phân tích PSOLA 33 3.1.1.1 Bước 1: Tìm cực đại địa phương hàm lượng 34 3.1.1.2 Bước 2: Tối ưu tính tuần hồn lượng cực đại 34 3.1.2 Tổng hợp PSOLA 35 3.2 THAY ĐỔI TẦN SỐ CỦA TÍN HIỆU 36 3.3 TD-PSOLA VÀ TÍN HIỆU TIẾNG NĨI 38 3.4 CÁC VẤN ĐỀ LIÊN QUAN 39 3.4.1 Xác định tần số 40 3.4.1.1 Dùng hàm tự tương quan 40 3.4.1.2 Dùng hàm vi sai biên độ trung bình 42 3.4.2 Làm trơn tín hiệu ghép nối 43 3.4.2.1 Phương pháp Microphonemic 43 3.4.2.2 Mơ hình hình sine 43 3.4.3 Cân lượng 46 CHƯƠNG 4: THIẾT KẾ XÂY DỰNG ỨNG DỤNG TỔNG HỢP TIẾNG VIỆT 48 4.1 PHÂN TÍCH GIẢI THUẬT 48 4.2 DIPHONE TRONG TIẾNG VIỆT 50 4.3 XÂY DỰNG CƠ SỞ DỮ LIỆU 53 4.3.1 Thu âm 53 4.3.1.1 Quá trình thu âm 53 4.3.1.2 Xử lý sau thu 53 4.3.2 Tách diphone 53 4.3.3 Lưu trữ liệu 55 LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 LUẬN VĂN THẠC SỸ 4.4 XỬ LÝ VÀ PHÂN TÍCH VĂN BẢN 55 4.4.1 Phân tích văn tiếng Việt thành từ 55 4.4.1.1 Xác định câu văn 56 4.4.1.2 Phân tích câu thành từ 57 4.4.2 Xác định dấu (thanh điệu) từ tách từ thành diphone 58 4.4.2.1 Xác định dấu (thanh điệu) từ 58 4.4.2.2 Tách từ thành hai diphone 59 4.5 GHÉP NỐI CÁC DIPHONE VÀ THAY ĐỔI TẦN SỐ CƠ BẢN 60 4.5.1.Ghép nối diphone tạo thành từ không dấu 61 4.5.1.1 Đặt vấn đề 61 4.5.1.2 Phân tích vấn đề 61 4.5.1.3 Giải pháp bước thực 61 4.5.2.Ghép nối diphone tạo thành từ có dấu 64 4.5.2.1 Từ tạo thành từ diphone thông thường 64 4.5.2.2 Từ tạo thành từ diphone đặc biệt 68 4.6 ỨNG DỤNG TỔNG HỢP TIẾNG VIỆT 69 4.6.1 Giao diện 69 4.6.2 Minh hoạ số chức chương trình 71 TÀI LIỆU THAM KHẢO 76 LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 LUẬN VĂN THẠC SỸ DANH MỤC CÁC HÌNH VẼ Hình 1.1: Bộ máy phát âm người Hình 1.2: Biểu diễn tín hiệu tiếng nói 10 Hình 1.3: Thơng lượng cho phương pháp biểu diễn tiếng nói 11 Hình 1.4: Mơ Hình hố nguồn âm âm hữu 18 Hình 1.5: Chuỗi đoạn ống âm học lý tưởng 19 Hình 1.6: Cách biểu diễn lý học toán học 20 Hình 1.7: Mơ hình số hệ thống phát âm 21 Hình 1.8: Một vài ứng dụng xử lý tiếng nói 22 Hình 2.1: Cấu trúc tổng hợp formant nối tiếp 26 Hình 2.2: Cấu trúc tổng hợp formant song song 26 Hình 2.3: Mơ hình tổng hợp tiếng nói 29 Hình 2.4: Sự phụ thuộc ngôn điệu vào yếu tố 30 Hình 3.1: Xác định cực đại địa phương hàm lượng 34 Hình 3.2: Cộng xếp chồng đoạn tín hiệu 36 Hình 3.3: Q trình làm thay đổi tần số tín hiệu 37 Hình 3.4: Sự thay đổi tần số thời gian với TD-PSOLA 38 Hình 3.5: Hàm tự tương quan âm hữu (a) (b); vô (c) dùng sổ Hamming với N=401 41 Hình 3.6: Mơ tả hàm vi sai biên độ trung bình 42 Hình 3.7: Ảnh phổ qua xử lý làm trơn tuyến tính miền thời gian 44 Hình 3.8: Xử lý làm trơn tuyến tính miền thời gian 45 Hình 3.9: Sơ đồ giải thuật cân lượng 46 Hình 3.10: Tín hiệu diphone -cha chưa cân lượng 47 Hình 3.11: Tín hiệu diphone -cha sau cân lượng 47 Hình 3.12: Tín hiệu từ chao trước cân lượng 47 Hình 3.13: Tín hiệu từ chao sau cân lượng 47 Hình 4.1: Sơ đồ tổng hợp tiếng Việt từ văn 50 Hình 4.2: Tách diphone “-xi” từ từ mẫu “xi” 54 Hình 4.3: Điểm cắt bên phải diphone “-xi” 54 Hình 4.4: Các loại dấu câu 56 Hình 4.5: Lưu đồ thuật toán xác định câu văn 57 Hình 4.6: Lưu đồ thuật toán xác định từ câu 58 Hình 4.7: Lưu đồ thuật tốn xác định dấu từ 59 Hình 4.8: Lưu đồ thuật tốn tách từ thành diphone 60 Hình 4.9: Cộng xếp chồng tín hiệu thành phần 62 LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 LUẬN VĂN THẠC SỸ Hình 4.10: Lưu đồ ghép nối diphone để tạo thành từ 63 Hình 4.11: Ghép nối hai diphone 63 Hình 4.12: Vị trí lấy cửa sổ 64 Hình 4.13: Biểu diễn tần số từ theo thời gian 64 Hình 4.14: Tín hiệu âm a đường biểu diễn Fo 65 Hình 4.15: Tín hiệu âm đường biểu diễn Fo huyền 65 Hình 4.16: Tín hiệu âm đường biểu diễn Fo sắc 66 Hình 4.17: Tín hiệu âm ả đường biểu diễn Fo hỏi 66 Hình 4.18: Tín hiệu âm đường biểu diễn Fo nặng 66 Hình 4.19: Tín hiệu âm ã đường biểu diễn Fo ngã 67 Hình 4.20: Tính chu kỳ F0 điểm i 68 Hình 4.21: Sơ đồ khối tổng hợp diphone đặc biệt 68 Hình 4.22: Giao diện chương trình 70 Hình 4.23: Tạo hai từ xin chao 71 Hình 4.24: Biểu diễn tín hiệu từ xin chao 72 Hình 4.25: Thay đổi tần số Fo để tạo huyền 72 Hình 4.26: Xử dụng công cụ biến đổi cân lượng 73 Hình 4.27: Sau cân lượng 73 Hình 4.28: Cơ sở liệu diphone 74 Hình 4.29: Chức đọc văn 75 LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 LUẬN VĂN THẠC SỸ LỜI NĨI ĐẦU Máy tính đóng vai trị quan trọng thiếu sống đại Ngày nay, hầu hết lĩnh vực như: khí, điện tử, giao thơng liên lạc có tham gia máy tính Máy tính trở thành công cụ hữu hiệu người xử lý thông tin Sự phát triển xã hội khiến cho khối lượng công việc cần xử lý tăng theo, nhu cầu tính tốn, trao đổi thơng tin nằm tăng trưởng Việc cải tiến, nâng cao tốc độ tính tốn, nhớ cho máy tính diễn mạnh mẽ hoàn toàn đáp ứng với nhu cầu cần thiết Cùng với phát triển nhanh chóng máy tính, hình thức trao đổi thơng tin người máy tính trở nên đa dạng Hiện việc trao đổi thông tin phổ biến người máy thơng qua bàn phím, chuột, cảm biến, hình, máy in Tuy nhiên phương pháp trao đổi thông tin đánh giá cao gần gũi người sử dụng giọng nói Để đạt phương pháp đòi hỏi kết hợp nhiều ngành nghiên cứu trí tuệ nhân tạo, ngơn ngữ học, xử lý tiếng nói Vấn đề tổng hợp tiếng nói xử lý tiếng nói vấn đề cần nghiên cứu trình bày luận văn Tổng hợp tiếng nói biết đến nghiên cứu rộng rãi giới Kết thu khả quan làm tiền đề quan trọng cho giao tiếp người máy Có nhiều ngôn ngữ tổng hợp thành công với chất lượng tốt tiếng Anh, tiếng Pháp Ở Việt Nam xử lý tiếng nói trọng nghiên cứu thời gian gần thu số kết đáng khích lệ Với mục đích góp phần vào phát triển tổng hợp tiếng Việt, đề tài nghiên cứu phương pháp tổng hợp tiếng Việt dựa việc ghép nối âm tiết sử dụng giải thuật TD-PSOLA Đề tài xây dựng ứng dụng hoàn chỉnh tổng hợp tiếng việt dựa nghiên cứu Ứng dụng cho phép theo dõi cách trực quan q trình ghép nối tín hiệu, q tình thay đổi tần số tín hiệu, q trình cân lượng, cuối tiếng nói phát với chất lượng chấp nhận Báo cáo chia làm chương: LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 LUẬN VĂN THẠC SỸ • Chương I: Lý thuyết tiếng nói xử lý tiếng nói Chương đề cập tới vấn đề đặc trưng tín hiệu tiếng nói lĩnh vực xử lý tiếng nói • Chương II: Tổng hợp tiếng nói trình bày phương pháp khác tổng hợp tiếng nói đồng thời đưa đánh giá hiệu phương pháp • Chương III: Giải thuật TD-PSOLA Chương trình bày chi tiết giải thuật PSOLA phiên miền thời gian TD-PSOLA, đồng thời đề cập tới vấn đề liên quan vấn đề lọc nhiễu, cân lượng • Chương IV: Thiết kế xây dựng ứng dụng tổng hợp tiếng Việt Dựa nghiên cứu lý thuyết chương trước, chương trình bày cách áp dụng thuật tốn TD-PSOLA để xây dựng chương trình tổng hợp tiếng Việt từ văn đánh giá kết thu Trong trình viết luận văn chắn khơng thể tránh khỏi thiếu sót, mong hội đồng châm trước Cuối xin gửi lời cảm ơn tới toàn thể hội đồng, thầy cô giáo khoa Công nghệ thông tin, thầy giáo mơn Kỹ thuật máy tính Cảm ơn thầy giáo Trịnh Văn Loan tận tình giúp đỡ, hướng dẫn tơi hồn thành luận văn Học viên Lê Trung Dũng LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 LUẬN VĂN THẠC SỸ CHƯƠNG 1: LÝ THUYẾT VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NĨI 1.1 MỞ ĐẦU Tiếng nói phương tiện trao đổi thơng tin người Tiếng nói tạo từ trình tư người: trung khu thần kinh điều khiển hệ thống phát âm làm việc tạo âm Tiếng nói phân biệt với âm khác đặc tính âm học có nguồn gốc từ chế tạo tiếng nói Về chất, tiếng nói dao động khơng khí có mang theo thơng tin Các dao động tạo thành áp lực đến tai tai phát hiện, phân tích chuyển kết đến trung khu thần kinh Lúc trung khu thần kinh, thông tin tái tạo lại dạng tư logic mà người hiểu Tín hiệu tiếng nói tạo thành chuỗi âm vị liên tiếp Sự xếp âm vị chi phối quy tắc ngôn ngữ Việc nghiên cứu cách chi tiết quy tắc khía cạnh khác bên tiếng nói thuộc chun ngành ngơn ngữ Việc phân loại âm vị tiếng nói thuộc chuyên ngành ngữ âm học Khi nghiên cứu mơ hình tốn học chế tạo tiếng nói, việc nghiên cứu âm vị cần thiết 1.2 BỘ MÁY PHÁT ÂM 1.2.1 Bộ máy phát âm Bộ máy phát âm bao gồm thành phần riêng rẽ phổi, khí quản, quản, đường dẫn miệng, mũi Trong đó: • Thanh quản chứa hai dây dao động tạo cộng hưởng cần thiết để tạo âm • Tuyến âm ống không môi, kết thúc dây thanh quản • Khoang mũi ống không môi, kết thúc vịm miệng, có độ dài cố định khoảng 12cm người lớn • Vịm miệng nếp chuyển động LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 LUẬN VĂN THẠC SỸ 10 11 12 13 14 Hốc mũi Vòm miệng Ổ Vòm miệng mềm Đầu lưỡi Thân lưỡi Lưỡi gà Cơ miệng Yết hầu Nắp đóng quản Dây giả Dây Thanh quản Thực quản Hình 1.1: Bộ máy phát âm người 1.2.2 Cơ chế phát âm Trong q trình tạo âm khơng phải âm mũi, vịm miệng mở, khoang mũi đóng lại, dịng khí qua khoang mũi Khi phát âm mũi, vịm miệng hạ thấp dịng khí qua khoang mũi Tuyến âm kích thích nguồn lượng mơn Tiếng nói tạo tín hiệu nguồn từ mơn phát ra, đẩy khơng khí có phổi lên tạo thành dịng khí, va chạm vào hai dây tuyến âm Hai dây dao động tạo cộng hưởng, dao động âm lan truyền theo tuyến âm (tính từ tuyến âm đến khoang miệng) sau qua khoang mũi môi, tạo tiếng nói 1.3 BIỂU DIỄN TÍN HIỆU TIẾNG NĨI Tín hiệu tiếng nói tín hiệu tương tự Do biểu diễn tín hiệu tiếng nói mơi trường tính tốn tín hiệu số, việc biểu diễn lưu trữ cho không bị mát thông tin vấn đề quan trọng hệ thống thơng tin có sử dụng tín hiệu tiếng nói Việc xem xét vấn đề xử lý tín hiệu tiếng nói hệ thống dựa ba vấn đề chính: • Biểu diễn tín hiệu tiếng nói dạng số • Cài đặt kỹ thuật xử lý • Các lớp ứng dụng dựa kỹ thuật xử lý tín hiệu số LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 ... XỬ LÝ TIẾNG NÓI 22 1.6.1 Tổng hợp tiếng nói 23 1.6.1.1 Tổng hợp tiếng nói theo cách phát âm 23 1.6.1.2 Tổng hợp đầu cuối tự nhiên 23 1.6.2 Nhận dạng tiếng nói ... tín hiệu tiếng nói lĩnh vực xử lý tiếng nói • Chương II: Tổng hợp tiếng nói trình bày phương pháp khác tổng hợp tiếng nói đồng thời đưa đánh giá hiệu phương pháp • Chương III: Giải thuật TD-PSOLA. .. văn Tổng hợp tiếng nói biết đến nghiên cứu rộng rãi giới Kết thu khả quan làm tiền đề quan trọng cho giao tiếp người máy Có nhiều ngôn ngữ tổng hợp thành công với chất lượng tốt tiếng Anh, tiếng