Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 23 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
23
Dung lượng
303,21 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hồng Tiểu Bình ÁP DỤNG PHƯƠNG PHÁP PSOLA TRONG TỔNG HỢP TIẾNG NĨI TIẾNG VIỆT Ngành: Cơng nghệ thơng tin Mã số: 1.01.1 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2006 Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt Lời nói đầu Từ thời tiền sử đến nay, truyền thơng tiếng nói phương thức trội xã hội loài người việc trao đổi thông tin Các từ ngữ ngày mở rộng thông qua phương tiện mang tính cơng nghệ điện thoại, phim ảnh, truyền thanh, truyền hình Internet Ngày tiếng nói, hỗ trợ phương thức tự nhiên khác phương tiện để giao tiếp với máy tính Một hệ thống tiếng nói cần phải có khả nhận dạng tổng hợp câu chữ Một mục tiêu quan trọng tổng hợp tiếng nói tiếng nói tổng hợp phải đạt đến độ tự nhiên tối đa, đồng thời để áp dụng vào nhiều lĩnh vực sống, phải có khả linh hoạt, tuỳ biến theo nhiều tham số khác Hiện giới có nhiều thuật tốn áp dụng nhằm thoả mãn yêu cầu này, số phương pháp PSOLA Trong luận văn này, sử dụng phương pháp để áp dụng cho tiếng Việt dựa đặc thù riêng mặt ngữ âm Qua thực nghiệm kết thu khả quan Cấu trúc luận văn bao gồm chương trình bày cụ thể sau: Chương 1: Tổng quan tiếng nói Chương 2: Số hố tiếng nói Chương 3: Các phương pháp tổng hợp tiếng nói Chương 4: Ngữ âm tiếng Việt Chương 5: Xây dựng sở liệu âm Chương 6: Áp dụng phương pháp PSOLA việc tổng hợp tiếng nói Chương 7: Cài đặt chương trình Đại học Cơng nghệ - Đại học Quốc gia Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt CHƯƠNG 1: TỔNG QUAN VỀ TIẾNG NÓI 1.1 Lịch sử phát triển Năm 1797 Christian Kratzenstein trường đại học St Petersburg xây dựng mơ hình có dạng vòm họng người tạo nguyên âm (a, e, i, o u) Sau nó Wolfgang von Kempelen Vienna, Austria phát triển thêm gọi Máy tạo tiếng nói dựa chế âm học Hệ thống tổng hợp tiếng nói dựa máy tính xây dựng vào năm 50 kỷ trước hệ thống text-to-speech hoàn thành vào năm 1968 Tổng hợp tiếng nói vấn đề khoa học nhận dạng liên quan đến nhiều lĩnh vực khoa học khác ngơn ngữ học, tâm lý học, tốn học, xử lý tín hiệu số khoa học máy tính Hiện Việt Nam, có nhiều quan, viện nghiên cứu, trường đại học có nghiên cứu bước đầu đem lại số kết khả quan vấn đề tổng hợp tiếng Việt 1.2 Âm chế phát âm Âm sóng áp lực theo chiều dọc hình thành việc nén giãn phần tử khơng khí theo hướng song song với nguồn lượng phát Đại học Công nghệ - Đại học Quốc gia Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt Cường độ âm lượng sóng âm truyền đơn vị thời gian qua đơn vị diện tích đặt vng góc với phương truyền âm Mức cường độ âm (Sound Pressure Level) giá trị tuyệt đối cường độ âm theo dB đo bằng: SPL(dB) = 20log10(P/P0) Một đặc trưng tín hiệu tiếng nói độ dư thừa lớn, điều kiện cần thiết để tiếng nói truyền mơi trường có nhiều tác động vào độ dư thừa cho phép não hiểu câu nói dễ dàng 1.3 Các đặc trưng sinh học âm Tiếng nói tạo sóng áp lực khơng khí xuất phát từ mồm mũi người nói Người ta chia âm vị thành hai lớp: + phụ âm: tạo thành luồng khơng khí từ phổi bị cản trở điểm + nguyên âm: ngược lại với phụ âm, nguyên âm thường tạo thành luồng khơng khí cách tự 1.4 Các tham số âm Độ cao: Âm phát độ cao định Mức độ cao thấp âm phụ thuộc vào chấn động nhanh hay chậm phần tử khơng khí thời gian định Độ mạnh: Độ mạnh hay cường độ âm biên độ giao động định Biên độ dao động lớn âm phát mạnh Độ dài: Độ dài hay trường độ âm phụ thuộc vào chấn động lâu hay chóng phần tử khơng khí Âm sắc: Âm sắc sắc, sắc thái riêng biệt âm Cùng nốt nhạc âm loại đàn khác có sắc thái khác Đại học Công nghệ - Đại học Quốc gia Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt Tiếng động tiếng thanh: Các phân tử không khí dao động có chu kỳ tạo tiếng thanh, ngược lại dao động khơng điều hồ tạo tiếng động 1.5 Một số khái niệm ngữ âm Âm tố: (sound element) âm tố đơn vị nhỏ âm lời nói, dùng để cấu tạo nên đơn vị ngôn ngữ khác Âm vị: (phoneme) đơn vị tối thiểu hệ thống ngữ âm ngôn ngữ dùng để cấu tạo phân biệt vỏ âm đơn vị có nghĩa ngơn ngữ Biến thể âm vị: âm tố thể âm vị Các biến thể phân chia làm hai loại: biến thể kết hợp biến thể tự Âm tiết: (syllabable) khúc đoạn âm từ chuỗi lời nói người Ngữ điệu: (intonation) chuyển động giọng nói, nâng cao hạ thấp giọng nói câu Trọng âm: (accent) nên bật âm tiết từ phương tiện ngữ điệu định, thực cách tăng cường trường độ nguyên âm Thanh điệu: (tone) nâng cao hay hạ thấp giọng nói âm tiết có tác dụng cấu tạo khu biệt vỏ âm từ hình vị (tiếng) CHƯƠNG XỬ LÝ TÍN HIỆU SỐ 2.1 Số hố tín hiệu Để xử lý tín hiệu tiếng nói, người ta biểu diễn chúng hàm liên tục theo thời gian, xét hàm xa(t) hàm liên tục theo thời gian, lấy mẫu tín hiệu x với chu kỳ lấy Đại học Công nghệ - Đại học Quốc gia Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt mẫu T (ví dụ t = n.T), ta có tín hiệu rời rạc theo thời gian x[n] = xa(nT), ta gọi tín hiệu số Để biểu diễn tín hiệu số, người ta dùng cơng thức dạng sóng hay gọi tín hiệu hình sin: x0[n] = A0cos(ϖ0n + φ0) Với A0 biên độ sóng, ϖ0 tần số góc φ0 pha Độ đo góc hàm lượng giác tính radian, tần số góc ϖ0 tương ứng với tần số chuẩn f0 ϖ0 = 2πf0 (0 ≤ f0 ≤ 1) Tín hiệu tuần hoàn với chu kỳ T0 = 1/f0 Hình 2.1 Tín hiệu tương tự tín hiệu số 2.2 Xác định tần số lấy mẫu tín hiệu tiếng nói Định lý Shannon: Một tín hiệu tương tự x(t) có dải phổ hữu hạn với giới hạn Fmax(Hz) (tức phổ f nằm ngồi dải [-Fmax,Fmax]) Ta khơi phục lại xa(t) cách xác từ mẫu x(n.Ts) như: Fs > 2Fmax hay Ts < 1/2Fmax 2.3 Biểu diễn tín hiệu số Vấn đề trọng tâm việc phân tách tín hiệu tiếng nói thơng qua lọc biến đổi tuyến tính theo thời gian Bộ lọc tạo từ mơ hình tạo tiếng nói dựa lý thuyết ngữ âm học, tạo nguồn khơng khí thơng qua dây âm, lọc biểu diễn âm quan phát âm Đại học Công nghệ - Đại học Quốc gia Hà Nội Áp dụng PSOLA tổng hợp tiếng nói tiếng Việt e[n] x[n] h[n] Hình 2.3 Mơ hình lọc nguồn Việc phân loại âm vị (bằng tay hay máy) phụ thuộc vào đặc trưng lọc Thông thường người ta bỏ qua nguồn tập trung vào đánh giá lọc 2.4 Biến đổi Fourier rời rạc (DFT) Biến đổi Fourier rời rạc tín hiệu tuần hoàn xN [n] với chu kỳ N định nghĩa sau: N −1 X N [k ] = ∑ xN [n]e − j 2πnk / N 0≤k