Xây dựng công cụ khảo sát ảnh hưởng của các tham số cơ bản đến chất lượng tiếng nói bộ tổng hợp tiếng việt dùng TDPSOLA

78 12 0
Xây dựng công cụ khảo sát ảnh hưởng của các tham số cơ bản đến chất lượng tiếng nói bộ tổng hợp tiếng việt dùng TDPSOLA

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - LUẬN VĂN THẠC SĨ KHOA HỌC XÂY DỰNG CÔNG CỤ KHẢO SÁT ẢNH HƯỞNG CỦA CÁC THAM SỐ CƠ BẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA NGÀNH: XỬ LÝ THÔNG TIN & TRUYỀN THÔNG Mà SỐ: LÊ TRUNG DŨNG Người hướng dẫn khoa học: TS TRỊNH VĂN LOAN HÀ NỘI 2006 LUẬN VĂN THẠC SỸ MỤC LỤC LỜI NÓI ĐẦU CHƯƠNG 1: LÝ THUYẾT VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI 1.1 MỞ ĐẦU 1.2 BỘ MÁY PHÁT ÂM 1.2.1 Bộ máy phát âm .8 1.2.2 Cơ chế phát âm .9 1.3 BIỂU DIỄN TÍN HIỆU TIẾNG NĨI 1.3.1 Xác định tần số lấy mẫu 12 1.3.2 Lượng tử hoá 12 1.3.3 Nén tín hiệu tiếng nói 12 1.3.4 Mã hoá tín hiệu tiếng nói 13 1.3.4.1 Mã hố trực tiếp tín hiệu 13 1.3.4.2 Mã hố tham số tín hiệu 14 1.4 ĐẶC TÍNH ÂM HỌC CỦA TIẾNG NÓI 15 1.4.1 Âm hữu âm vô 15 1.4.1.1 Âm hữu 15 1.4.1.2 Âm vô 15 1.4.2 Âm vị 16 1.4.2.1 Nguyên âm 16 1.4.2.2 Phụ âm 16 1.4.3 Các đặc tính khác 16 1.4.3.1 Tỷ suất thời gian 16 1.4.3.2 Hàm lượng thời gian ngắn 16 1.4.3.3 Tần số 17 1.4.3.4 Formant 17 1.5 MƠ HÌNH TẠO TIẾNG NĨI 18 1.6 XỬ LÝ TIẾNG NÓI 22 1.6.1 Tổng hợp tiếng nói 23 1.6.1.1 Tổng hợp tiếng nói theo cách phát âm 23 1.6.1.2 Tổng hợp đầu cuối tự nhiên 23 1.6.2 Nhận dạng tiếng nói 24 1.6.2.1 Nhận dạng ngữ nghĩa 24 1.6.2.2 Nhân dạng người nói 24 CHƯƠNG 2: TỔNG HỢP TIẾNG NÓI 25 2.1 CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI 25 LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 LUẬN VĂN THẠC SỸ 2.1.1 Phương pháp mô hệ thống phát âm 25 2.1.2 Phương pháp tổng hợp Formant 25 2.1.2.1 Bộ tổng hợp formant nối tiếp 25 2.1.2.2 Bộ tổng hợp formant song song 26 2.1.3 Phương pháp ghép nối 26 2.1.3.1 Phương pháp tổng hợp PSOLA 27 2.1.3.2 Các phiên PSOLA 27 2.2 MƠ HÌNH TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN 29 2.2.1 Tổng hợp mức cao 29 2.2.1.1 Xử lý văn 29 2.2.1.2 Phân tích cách phát âm 30 2.2.1.3 Ngôn điệu 30 2.2.2 Tổng hợp mức thấp 31 2.3 SO SÁNH CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI 31 CHƯƠNG 3: GIẢI THUẬT TD-PSOLA 33 3.1 GIẢI THUẬT PSOLA 33 3.1.1 Phân tích PSOLA 33 3.1.1.1 Bước 1: Tìm cực đại địa phương hàm lượng 34 3.1.1.2 Bước 2: Tối ưu tính tuần hồn lượng cực đại 34 3.1.2 Tổng hợp PSOLA 35 3.2 THAY ĐỔI TẦN SỐ CỦA TÍN HIỆU 36 3.3 TD-PSOLA VÀ TÍN HIỆU TIẾNG NĨI 38 3.4 CÁC VẤN ĐỀ LIÊN QUAN 39 3.4.1 Xác định tần số 40 3.4.1.1 Dùng hàm tự tương quan 40 3.4.1.2 Dùng hàm vi sai biên độ trung bình 42 3.4.2 Làm trơn tín hiệu ghép nối 43 3.4.2.1 Phương pháp Microphonemic 43 3.4.2.2 Mơ hình hình sine 43 3.4.3 Cân lượng 46 CHƯƠNG 4: THIẾT KẾ XÂY DỰNG ỨNG DỤNG TỔNG HỢP TIẾNG VIỆT 48 4.1 PHÂN TÍCH GIẢI THUẬT 48 4.2 DIPHONE TRONG TIẾNG VIỆT 50 4.3 XÂY DỰNG CƠ SỞ DỮ LIỆU 53 4.3.1 Thu âm 53 4.3.1.1 Quá trình thu âm 53 4.3.1.2 Xử lý sau thu 53 4.3.2 Tách diphone 53 4.3.3 Lưu trữ liệu 55 LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 LUẬN VĂN THẠC SỸ 4.4 XỬ LÝ VÀ PHÂN TÍCH VĂN BẢN 55 4.4.1 Phân tích văn tiếng Việt thành từ 55 4.4.1.1 Xác định câu văn 56 4.4.1.2 Phân tích câu thành từ 57 4.4.2 Xác định dấu (thanh điệu) từ tách từ thành diphone 58 4.4.2.1 Xác định dấu (thanh điệu) từ 58 4.4.2.2 Tách từ thành hai diphone 59 4.5 GHÉP NỐI CÁC DIPHONE VÀ THAY ĐỔI TẦN SỐ CƠ BẢN 60 4.5.1.Ghép nối diphone tạo thành từ không dấu 61 4.5.1.1 Đặt vấn đề 61 4.5.1.2 Phân tích vấn đề 61 4.5.1.3 Giải pháp bước thực 61 4.5.2.Ghép nối diphone tạo thành từ có dấu 64 4.5.2.1 Từ tạo thành từ diphone thông thường 64 4.5.2.2 Từ tạo thành từ diphone đặc biệt 68 4.6 ỨNG DỤNG TỔNG HỢP TIẾNG VIỆT 69 4.6.1 Giao diện 69 4.6.2 Minh hoạ số chức chương trình 71 TÀI LIỆU THAM KHẢO 76 LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 LUẬN VĂN THẠC SỸ DANH MỤC CÁC HÌNH VẼ Hình 1.1: Bộ máy phát âm người Hình 1.2: Biểu diễn tín hiệu tiếng nói 10 Hình 1.3: Thơng lượng cho phương pháp biểu diễn tiếng nói 11 Hình 1.4: Mơ Hình hố nguồn âm âm hữu 18 Hình 1.5: Chuỗi đoạn ống âm học lý tưởng 19 Hình 1.6: Cách biểu diễn lý học toán học 20 Hình 1.7: Mơ hình số hệ thống phát âm 21 Hình 1.8: Một vài ứng dụng xử lý tiếng nói 22 Hình 2.1: Cấu trúc tổng hợp formant nối tiếp 26 Hình 2.2: Cấu trúc tổng hợp formant song song 26 Hình 2.3: Mơ hình tổng hợp tiếng nói 29 Hình 2.4: Sự phụ thuộc ngôn điệu vào yếu tố 30 Hình 3.1: Xác định cực đại địa phương hàm lượng 34 Hình 3.2: Cộng xếp chồng đoạn tín hiệu 36 Hình 3.3: Q trình làm thay đổi tần số tín hiệu 37 Hình 3.4: Sự thay đổi tần số thời gian với TD-PSOLA 38 Hình 3.5: Hàm tự tương quan âm hữu (a) (b); vô (c) dùng sổ Hamming với N=401 41 Hình 3.6: Mơ tả hàm vi sai biên độ trung bình 42 Hình 3.7: Ảnh phổ qua xử lý làm trơn tuyến tính miền thời gian 44 Hình 3.8: Xử lý làm trơn tuyến tính miền thời gian 45 Hình 3.9: Sơ đồ giải thuật cân lượng 46 Hình 3.10: Tín hiệu diphone -cha chưa cân lượng 47 Hình 3.11: Tín hiệu diphone -cha sau cân lượng 47 Hình 3.12: Tín hiệu từ chao trước cân lượng 47 Hình 3.13: Tín hiệu từ chao sau cân lượng 47 Hình 4.1: Sơ đồ tổng hợp tiếng Việt từ văn 50 Hình 4.2: Tách diphone “-xi” từ từ mẫu “xi” 54 Hình 4.3: Điểm cắt bên phải diphone “-xi” 54 Hình 4.4: Các loại dấu câu 56 Hình 4.5: Lưu đồ thuật toán xác định câu văn 57 Hình 4.6: Lưu đồ thuật toán xác định từ câu 58 Hình 4.7: Lưu đồ thuật tốn xác định dấu từ 59 Hình 4.8: Lưu đồ thuật tốn tách từ thành diphone 60 Hình 4.9: Cộng xếp chồng tín hiệu thành phần 62 LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 LUẬN VĂN THẠC SỸ Hình 4.10: Lưu đồ ghép nối diphone để tạo thành từ 63 Hình 4.11: Ghép nối hai diphone 63 Hình 4.12: Vị trí lấy cửa sổ 64 Hình 4.13: Biểu diễn tần số từ theo thời gian 64 Hình 4.14: Tín hiệu âm a đường biểu diễn Fo 65 Hình 4.15: Tín hiệu âm đường biểu diễn Fo huyền 65 Hình 4.16: Tín hiệu âm đường biểu diễn Fo sắc 66 Hình 4.17: Tín hiệu âm ả đường biểu diễn Fo hỏi 66 Hình 4.18: Tín hiệu âm đường biểu diễn Fo nặng 66 Hình 4.19: Tín hiệu âm ã đường biểu diễn Fo ngã 67 Hình 4.20: Tính chu kỳ F0 điểm i 68 Hình 4.21: Sơ đồ khối tổng hợp diphone đặc biệt 68 Hình 4.22: Giao diện chương trình 70 Hình 4.23: Tạo hai từ xin chao 71 Hình 4.24: Biểu diễn tín hiệu từ xin chao 72 Hình 4.25: Thay đổi tần số Fo để tạo huyền 72 Hình 4.26: Xử dụng cơng cụ biến đổi cân lượng 73 Hình 4.27: Sau cân lượng 73 Hình 4.28: Cơ sở liệu diphone 74 Hình 4.29: Chức đọc văn 75 LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 LUẬN VĂN THẠC SỸ LỜI NĨI ĐẦU Máy tính đóng vai trị quan trọng khơng thể thiếu sống đại Ngày nay, hầu hết lĩnh vực như: khí, điện tử, giao thơng liên lạc có tham gia máy tính Máy tính trở thành công cụ hữu hiệu người xử lý thông tin Sự phát triển xã hội khiến cho khối lượng công việc cần xử lý tăng theo, nhu cầu tính tốn, trao đổi thơng tin nằm tăng trưởng Việc cải tiến, nâng cao tốc độ tính tốn, nhớ cho máy tính diễn mạnh mẽ hồn tồn đáp ứng với nhu cầu cần thiết Cùng với phát triển nhanh chóng máy tính, hình thức trao đổi thơng tin người máy tính trở nên đa dạng Hiện việc trao đổi thông tin phổ biến người máy thông qua bàn phím, chuột, cảm biến, hình, máy in Tuy nhiên phương pháp trao đổi thông tin đánh giá cao gần gũi người sử dụng giọng nói Để đạt phương pháp đòi hỏi kết hợp nhiều ngành nghiên cứu trí tuệ nhân tạo, ngơn ngữ học, xử lý tiếng nói Vấn đề tổng hợp tiếng nói xử lý tiếng nói vấn đề cần nghiên cứu trình bày luận văn Tổng hợp tiếng nói biết đến nghiên cứu rộng rãi giới Kết thu khả quan làm tiền đề quan trọng cho giao tiếp người máy Có nhiều ngơn ngữ tổng hợp thành cơng với chất lượng tốt tiếng Anh, tiếng Pháp Ở Việt Nam xử lý tiếng nói trọng nghiên cứu thời gian gần thu số kết đáng khích lệ Với mục đích góp phần vào phát triển tổng hợp tiếng Việt, đề tài nghiên cứu phương pháp tổng hợp tiếng Việt dựa việc ghép nối âm tiết sử dụng giải thuật TD-PSOLA Đề tài xây dựng ứng dụng hoàn chỉnh tổng hợp tiếng việt dựa nghiên cứu Ứng dụng cho phép theo dõi cách trực quan q trình ghép nối tín hiệu, q tình thay đổi tần số tín hiệu, q trình cân lượng, cuối tiếng nói phát với chất lượng chấp nhận Báo cáo chia làm chương: LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 LUẬN VĂN THẠC SỸ • Chương I: Lý thuyết tiếng nói xử lý tiếng nói Chương đề cập tới vấn đề đặc trưng tín hiệu tiếng nói lĩnh vực xử lý tiếng nói • Chương II: Tổng hợp tiếng nói trình bày phương pháp khác tổng hợp tiếng nói đồng thời đưa đánh giá hiệu phương pháp • Chương III: Giải thuật TD-PSOLA Chương trình bày chi tiết giải thuật PSOLA phiên miền thời gian TD-PSOLA, đồng thời đề cập tới vấn đề liên quan vấn đề lọc nhiễu, cân lượng • Chương IV: Thiết kế xây dựng ứng dụng tổng hợp tiếng Việt Dựa nghiên cứu lý thuyết chương trước, chương trình bày cách áp dụng thuật tốn TD-PSOLA để xây dựng chương trình tổng hợp tiếng Việt từ văn đánh giá kết thu Trong trình viết luận văn chắn khơng thể tránh khỏi thiếu sót, mong hội đồng châm trước Cuối xin gửi lời cảm ơn tới toàn thể hội đồng, thầy cô giáo khoa Công nghệ thông tin, thầy cô giáo môn Kỹ thuật máy tính Cảm ơn thầy giáo Trịnh Văn Loan tận tình giúp đỡ, hướng dẫn tơi hồn thành luận văn Học viên Lê Trung Dũng LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 LUẬN VĂN THẠC SỸ CHƯƠNG 1: LÝ THUYẾT VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NĨI 1.1 MỞ ĐẦU Tiếng nói phương tiện trao đổi thơng tin người Tiếng nói tạo từ trình tư người: trung khu thần kinh điều khiển hệ thống phát âm làm việc tạo âm Tiếng nói phân biệt với âm khác đặc tính âm học có nguồn gốc từ chế tạo tiếng nói Về chất, tiếng nói dao động khơng khí có mang theo thơng tin Các dao động tạo thành áp lực đến tai tai phát hiện, phân tích chuyển kết đến trung khu thần kinh Lúc trung khu thần kinh, thông tin tái tạo lại dạng tư logic mà người hiểu Tín hiệu tiếng nói tạo thành chuỗi âm vị liên tiếp Sự xếp âm vị chi phối quy tắc ngôn ngữ Việc nghiên cứu cách chi tiết quy tắc khía cạnh khác bên tiếng nói thuộc chun ngành ngơn ngữ Việc phân loại âm vị tiếng nói thuộc chuyên ngành ngữ âm học Khi nghiên cứu mơ hình tốn học chế tạo tiếng nói, việc nghiên cứu âm vị cần thiết 1.2 BỘ MÁY PHÁT ÂM 1.2.1 Bộ máy phát âm Bộ máy phát âm bao gồm thành phần riêng rẽ phổi, khí quản, quản, đường dẫn miệng, mũi Trong đó: • Thanh quản chứa hai dây dao động tạo cộng hưởng cần thiết để tạo âm • Tuyến âm ống không mơi, kết thúc dây thanh quản • Khoang mũi ống không môi, kết thúc vịm miệng, có độ dài cố định khoảng 12cm người lớn • Vịm miệng nếp chuyển động LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 LUẬN VĂN THẠC SỸ 10 11 12 13 14 Hốc mũi Vòm miệng Ổ Vòm miệng mềm Đầu lưỡi Thân lưỡi Lưỡi gà Cơ miệng Yết hầu Nắp đóng quản Dây giả Dây Thanh quản Thực quản Hình 1.1: Bộ máy phát âm người 1.2.2 Cơ chế phát âm Trong q trình tạo âm khơng phải âm mũi, vịm miệng mở, khoang mũi đóng lại, dịng khí qua khoang mũi Khi phát âm mũi, vịm miệng hạ thấp dịng khí qua khoang mũi Tuyến âm kích thích nguồn lượng mơn Tiếng nói tạo tín hiệu nguồn từ mơn phát ra, đẩy khơng khí có phổi lên tạo thành dịng khí, va chạm vào hai dây tuyến âm Hai dây dao động tạo cộng hưởng, dao động âm lan truyền theo tuyến âm (tính từ tuyến âm đến khoang miệng) sau qua khoang mũi môi, tạo tiếng nói 1.3 BIỂU DIỄN TÍN HIỆU TIẾNG NĨI Tín hiệu tiếng nói tín hiệu tương tự Do biểu diễn tín hiệu tiếng nói mơi trường tính tốn tín hiệu số, việc biểu diễn lưu trữ cho không bị mát thông tin vấn đề quan trọng hệ thống thơng tin có sử dụng tín hiệu tiếng nói Việc xem xét vấn đề xử lý tín hiệu tiếng nói hệ thống dựa ba vấn đề chính: • Biểu diễn tín hiệu tiếng nói dạng số • Cài đặt kỹ thuật xử lý • Các lớp ứng dụng dựa kỹ thuật xử lý tín hiệu số LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 LUẬN VĂN THẠC SỸ Bắt đầu Đọc thông tin diphone Xác định tín hiệu thành phần từ diphone Xác định điểm mốc tín hiệu cần tạo Định vị tín hiệu thành phần vào điểm mốc Cộng xếp chồng để tạo thành tín hiệu cần tổng hợp Kết thúc Hình 4.10: Lưu đồ ghép nối diphone để tạo thành từ Hình 4.11: Ghép nối hai diphone LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 63 LUẬN VĂN THẠC SỸ Hình 4.12: Vị trí lấy cửa sổ 4.5.2.Ghép nối diphone tạo thành từ có dấu Việc ghép nối diphone để tạo thành từ có dấu chia làm trường hợp: • Ghép nối thay đổi tần số với diphone thông thường để tạo nên từ có dấu • Ghép nối diphone đặc biệt để tạo nên từ có dấu 4.5.2.1 Từ tạo thành từ diphone thơng thường Những từ có dấu khác với từ không dấu trình phát âm từ tần số Fo từ có thay đổi Sự thay đổi tạo nên từ có dấu (thanh điệu) khác Tóm lại từ có dấu hiểu đơn giản từ không dấu biến đổi tần số cách thích hợp Một số từ không tuân theo quy luật ta xét mục sau Để biến đổi tần số tín hiệu ta cần biết: • Độ dài từ cần tổng hợp • Q trình biến đổi tần số Tần số F2 F1 t1 t2 t3 Thời gian Hình 4.13: Biểu diễn tần số từ theo thời gian Trên biểu đồ biểu diễn tần số theo thời gian ta thấy: LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 64 LUẬN VĂN THẠC SỸ ƒ Từ đến t1 tần số biến đổi từ đến F1 ƒ Từ t1 đến t2 tần số biến đổi từ F1 đến F2 ƒ Từ t2 đến t3 tần số biến đổi từ F2 đến F3 Trong trình xây dựng ứng dụng khảo sát thay đổi tần số Fo để tạo nên điệu tương ứng tiếng Việt Quy luật biến đổi tần số Fo ứng với điệu mơ tả hình vẽ sau: (trên hình vẽ bao gồm phần, phần dạng tín hiệu miền thời gian, phần đường biểu diễn tần số cớ Fo tương ứng tín hiệu) - Thanh bằng: Tần số khơng đổi Hình 4.14: Tín hiệu âm a đường biểu diễn Fo - Dấu huyền: Tần số giảm dần Hình 4.15: Tín hiệu âm đường biểu diễn Fo huyền - Dấu sắc: Tần số tăng dần LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 65 LUẬN VĂN THẠC SỸ Hình 4.16: Tín hiệu âm đường biểu diễn Fo sắc - Dấu hỏi: Hình 4.17: Tín hiệu âm ả đường biểu diễn Fo hỏi - Dấu nặng: Hình 4.18: Tín hiệu âm đường biểu diễn Fo nặng LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 66 LUẬN VĂN THẠC SỸ - Dấu ngã: Hình 4.19: Tín hiệu âm ã đường biểu diễn Fo ngã Trên hình vẽ mơ tả dạng thay đổi tần số F0 ta coi việc tăng giảm tần số đoạn thời gian tuyến tính có nghĩa tăng giảm Như để tổng hợp từ có dấu đầu vào ngồi thơng tin diphone độ dài từ cịn có đoạn thời gian ti đến ti+1 tần số tương ứng F0i, F0i+1 biết đổi đoạn Giải thuật tổng hợp từ có dấu khác giải thuật tổng hợp từ không dấu bước tức bước xác định điểm mốc tín hiệu tổng hợp Lúc điểm mốc không cách với tần số F0 mà có khoảng cách tương ứng với tần số đầu vào Khi đó: Ti = TSLM /F0i Với F0i xác định sau: • Dựa i biết điểm cần tính tần số thuộc đoạn thời gian nào, giả sử thuộc đoận từ tj đến tj+1 • Với tần số điểm tj F0j tj+1 F0j+1 ta tính F0i LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 67 LUẬN VĂN THẠC SỸ Tần số F0j+1 F0i F0j tj i tj+1 Thời gian Hình 4.20: Tính chu kỳ F0 điểm i 4.5.2.2 Từ tạo thành từ diphone đặc biệt Như ta biết số từ có dấu đặc biệt tiếng việt tổng hợp cách thay đổi tần số từ khơng dấu tương ứng Hay nói theo cách khác diphone có dấu mà chúng khơng có diphone khơng dấu tương ứng Các diphone thống kê bảng diphone đặc biệt trình bầy Giải pháp đưa để tổng hợp từ loại trình bày sơ đồ khối sau: Bắt đầu Đọc thông tin diphone Diphone đặc biệt Đ Nối diphone để tạo thành từ Kết thúc Hình 4.21: Sơ đồ khối tổng hợp diphone đặc biệt Với phương pháp nối trực tiếp hai đoạn tín hiệu này, ưu điểm âm phát chất lượng tốt trung thực tín hiệu tín hiệu thu âm trực tiếp từ người thu chưa qua xử lý Nhược điểm khơng thể thay đổi độ dài từ LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 68 LUẬN VĂN THẠC SỸ 4.6 ỨNG DỤNG TỔNG HỢP TIẾNG VIỆT Ứng dụng xây dựng luận văn nhằm mục đích minh hoạ sở lý thuyết trình bày phần Đây xem cơng cụ thí nghiệm giúp người xử dụng thấy cách trực quan trình xây dựng tổng hợp tiếng nói Đây cơng cụ cho phép khảo sát tham số ảnh hưởng đến chất lượng tiếng nói tổng hợp theo phương pháp TD-PSOLA Các tham số mà ứng dụng cho phép khảo sát bao gồm: • Tần số Fo tín hiệu: Ứng dụng cho phép thay đổi tần số Fo đoạn tín hiệu tín hiệu Dạng tín hiệu sau thay đổi tần số hiển thị hình phát loa • Độ dài tín hiệu: Ứng dụng cho phép điều chỉnh độ dài từ tổng hợp • Năng lượng: Ứng dụng cho phép tăng giảm lượng đoạn tín hiệu tín hiệu Cho phép thay đổi đường bao tín hiệu thành dạng Cho phép so sánh tín hiệu ban đầu với tín hiệu thay đổi lượng Ngồi chức khảo sát, thí nghiệm cịn cơng cụ hồn chỉnh cho phép tổng hợp tiếng nói với chức sau: • Cho phép xây dựng quản lý sở liệu diphone từ file âm *.WAV Xác định điểm mốc, điểm phân cách vô hữu cho diphone • Cho phép đọc đoạn văn loa Sau số mô tả chức chương trình 4.6.1 Giao diện Cửa sổ chương trình gồm thành phần sau: • Thanh Menu Toolbar: Với chức Tạo mới, Mở, Ghi file tổng hợp từ Các chức khác Zoom in, Zoom out tín hiệu, chức Play tín hiệu chưa cân Play tín hiệu cân • Khung 1: Hiển thị tín hiệu tiếng nói tổng hợp chưa qua xử lý cân lượng miền thời gian • Khung 2: Hiển thị tín hiệu tiếng nói tổng hợp qua xử lý cân lượng miền thời gian LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 69 LUẬN VĂN THẠC SỸ • Khung 3: Hiển thị đường biểu diễn tần số Fo tín hiệu Chương trình cho phép dịch chuyển đường biểu diễn để thay đổi tần số Fo tín hiệu • Khung bên phải: Là cơng cụ cho phép thay đổi đường bao tín hiệu, công cụ cho phép thay đổi cân lượng cho tín hiệu • Tab Test: Cho phép tổng hợp từ việc lựa chọn cặp diphone tương ứng Sau tổng hợp tab này, dạng tín hiệu hiển thị khung • Tab Database: Tab cho phép tạo quản lý sở liệu diphone Cho phép chỉnh sửa, chọn điển đánh dấu ứng với diphone • Tab Reading: Đây cơng cụ hồn chỉnh cho phép đọc đoạn văn loa Thanh Menu Thanh Toolbar Tín hiệu chưa cân Cơng cụ thay đổi, cân lượng Tín hiệu sau cân Công cụ thay đổi tần số Fo Tab Test Tab Database Tab Reading Hình 4.22: Giao diện chương trình LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 70 LUẬN VĂN THẠC SỸ 4.6.2 Minh hoạ số chức chương trình Ví dụ 1: Tổng hợp từ xin chào • Bước 1: Trên Tab1 sử dụng chức New Word để tạo từ Ở từ thứ chọn First Diphone -xi, Second Diphone in- Ở từ thứ hai chọn First Diphone -cha, Second Diphone ao- Hình 4.23: Tạo hai từ xin chao • Bước 2: Ấn Refresh Toolbar để hiển thị tín hiệu tổng hợp lên khung Lúc tín hiệu khung giống chưa qua xử lý cân lượng Ở khung đường biểu diễn tần số Fo tín hiệu, có đường biểu diễn Fo tương ứng với từ xin chao, đường nằm ngang có nghĩa từ mang Ta dùng chức Play Play để nghe tín hiệu tổng hợp LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 71 LUẬN VĂN THẠC SỸ Hình 4.24: Biểu diễn tín hiệu từ xin chao • Bước 3: từ xin không mang điệu đường Fo giữ ngun, cịn từ chào mang huyền ta phải thay đổi đường Fo Hình 4.25: Thay đổi tần số Fo để tạo huyền LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 72 LUẬN VĂN THẠC SỸ • Bước 4: Xử lý cân lượng tín hiệu trên khung Ta dùng công cụ khung bên phải để thay đổi đường bao tín hiệu Hình 4.26: Xử dụng công cụ biến đổi cân lượng Hình 4.27: Sau cân lượng LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 73 LUẬN VĂN THẠC SỸ Ví dụ 2: Tạo diphone sở liệu Để tạo diphone sở liệu trước tiên ta phải có file âm wav chứa diphone Trong tab Database ta chọn New Dip đặt tên cho diphone Tiếp theo chọn Open Wave để mở file wave chứa diphone Sau dùng cơng cụ bơi đen, cắt dán để giữ lại phần tín hiệu diphone Tiếp theo xác định điểm đánh dấu diphone chọn Detect chương trình tự động tìm điểm đánh dấu cịn lại Hình 4.28: Cơ sở liệu diphone Ví dụ 3: Đọc đoạn văn Chọn tab Reading gõ đoạn văn vào Textbox chọn Read, chương trình đọc văn loa LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 74 LUẬN VĂN THẠC SỸ Hình 4.29: Chức đọc văn LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 75 LUẬN VĂN THẠC SỸ TÀI LIỆU THAM KHẢO Dư Thanh Bình "Dị tìm tần số xử lý tiếng nói" Đại hoc Bách Khoa Hà Nội, 2001 Nguyễn Quốc Trung "Xử lý tín hiệu lọc số" Nhà xuất khoa học kỹ thuật, 2001 Trịnh Văn Loan "Các giảng xử lý tiếng nói" Đại hoc Bách Khoa Hà Nội, 1998 Quách Tuấn Ngọc "Xử lý tín hiệu số" Nhà xuất giáo dục, 1997 Văn Ngọc An "Luận văn tổng hơp tiếng Việt giải thuật TDPSOLA" Đại học Bách khoa Hà Nội, 2002 http://www.codeproject.com Thierry Dutoit "An Introduction to Text-to-Speech Synthesis" 1997 Thierry Dutoit "High quality Text-to-Speech synthesis of the France language" 1993 LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 76 LUẬN VĂN THẠC SỸ TĨM TẮT Với đề tài: Xây dựng cơng cụ khảo sát ảnh hưởng tham số đến chất lượng tiếng nói tổng hợp tiếng Việt dùng TD-PSOLA, luận văn bao gồm nội dung sau: • Chương 1: Nghiên cứu lý thuyết tiếng nói xử lý tiếng nói bao gồm: máy phát âm, mơ hình biểu diễn tiếng nói, đặc tính âm học tiếng nói, mơ hình tạo xử lý tiếng nói • Chương 2: Tổng hợp tiếng nói trình bầy phương pháp tổng hợp tiếng nói, mơ hình phương pháp tổng hợp tiếng nói từ văn so sánh phương pháp tổng hợp • Chương 3: Trình bầy giải thuật TD-PSOLA, phân tích tổng hợp TDPSOLA, q trình thay đổi tần số tín hiệu nhờ giải thuật TDPSOLA, vấn đề liên quan tổng hợp tiếng nói dùng TD-PSOLA làm trơn tín hiệu cân lượng sau áp dụng giải thuật • Chương 4: Thiết kế xây dựng ứng dụng khảo sát tổng hợp tiếng Việt Chương tiến hành phân tích giải thuật TD-PSOLA, thống kê diphone tiếng Việt, xây dựng sở liệu diphone, phương án xử lý phân tích văn bản, đưa TD-PSOLA vào ứng dụng Dùng công cụ tiến hành khảo sát trình thay đổi tham số tần số bản, lượng đánh giá chất lượng tiếng nói tổng hợp thu LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 77 ... tiếng nói xử lý tiếng nói 1.6.1 Tổng hợp tiếng nói Tổng hợp tiếng nói q trình tạo tín hiệu âm cách điều khiển mơ hình mẫu với tập tham số Nếu mơ hình mẫu tham số xây dựng cách hồn hảo tiếng nói. .. hệ số cepstre tham số khác LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 24 LUẬN VĂN THẠC SỸ CHƯƠNG 2: TỔNG HỢP TIẾNG NÓI 2.1 CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NĨI Tổng hợp tiếng nói phát sinh tiếng nói. .. hợp mức thấp Văn (Text) Tiếng nói Tổng hợp mức cao Tổng hợp mức thấp Hình 2.3: Mơ hình tổng hợp tiếng nói 2.2.1 Tổng hợp mức cao Tổng hợp mức cao giai đoạn đầu trình tổng hợp, giai đoạn chuyển

Ngày đăng: 28/02/2021, 00:24

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan