1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề xuất mô hình cao độ của câu hỏi trong tổng hợp tiếng nói

81 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ──────── * ──────── ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN ĐỀ XUẤT MƠ HÌNH CAO ĐỘ CỦA CÂU HỎI TRONG TỔNG HỢP TIẾNG NÓI Sinh viên thực : Lê Anh Tú Lớp: Công nghệ phần mềm B – K51 Giáo viên hướng dẫn: TS Trần Thị Thanh Hải ThS Nguyễn Thị Thu Trang HÀ NỘI 05-2011 PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Thông tin sinh viên Họ tên sinh viên: Lê Anh Tú Điện thoại liên lạc: 0915898484 Email: hover.88@live.com Lớp: Công nghệ phần mềm B K51 Hệ đào tạo: Đại học quy Đồ án tốt nghiệp thực tại: Trung tâm nghiên cứu Mica – Trường Đại học Bách Khoa Hà Nội Thời gian làm ĐATN: Từ ngày 21/02/2011 đến 28/05/2011 Mục đích nội dung ĐATN Đề xuất mơ hình cao độ câu hỏi tổng hợp tiếng nói Các nhiệm vụ cụ thể ĐATN - Tìm hiểu vấn đề mơ hình hóa ngữ điệu hệ thống tổng hợp tiếng nói xác định vấn đề tập trung giải Thực thí nghiệm xác định vai trò số yếu tố ngữ điệu câu hỏi Đề xuất mơ hình ngữ điệu cho câu hỏi, thực cài đặt đánh giá Lời cam đoan sinh viên: Tôi – Lê Anh Tú - cam kết ĐATN cơng trình nghiên cứu thân hướng dẫn TS Trần Thị Thanh Hải ThS Nguyễn Thị Thu Trang Các kết nêu ĐATN trung thực, khơng phải chép tồn văn cơng trình khác Hà Nội, ngày 20 tháng 05 năm 2011 Tác giả ĐATN Lê Anh Tú Xác nhận giáo viên hướng dẫn mức độ hoàn thành ĐATN cho phép bảo vệ: Hà Nội, ngày 20 tháng 05 năm 2011 Giáo viên hướng dẫn TS Trần Thị Thanh Hải ThS Nguyễn Thị Thu Trang i Lời cảm ơn Trước hết, em xin chân gửi lời cảm ơn chân thành sâu sắc tới thầy cô giáo trường Đại học Bách Khoa Hà Nội nói chung thầy Viện Cơng nghệ Thơng tin Truyền thơng nói riêng tận tình giảng dạy, truyền đạt cho em kiến thức kinh nghiệm quý báu năm học tập rèn luyện trường Đại học Bách Khoa Hà Nội Em xin gửi lời cảm ơn đến TS Trần Thị Thanh Hải TS Trần Đỗ Đạt - Cán nghiên cứu, Trung tâm nghiên cứu Mica, ThS Nguyễn Thị Thu Trang Giảng viên môn Công nghệ phần mềm, Viện Công nghệ thông tin truyền thông, trường Đại học Bách Khoa Hà Nội hết lòng giúp đỡ, hướng dẫn dạy tận tình trình em làm đồ án tốt nghiệp Em xin gửi lời cảm ơn đến trung tâm nghiên cứu MICA tạo điều kiện sở vật chất, bạn anh chị trung tâm MICA tham gia thực thí nghiệm thực nghiệm để giúp em thực đồ án Cuối cùng, em xin gửi lời cảm ơn chân thành tới gia đình, bạn bè quan tâm, động viên, đóng góp ý kiến giúp đỡ q trình học tập, nghiên cứu hồn thành đồ án tốt nghiệp Hà Nội, ngày 24 tháng 05 năm 2011 Lê Anh Tú Lớp CNPM – K51 Viện CNTT & TT – ĐH Bách Khoa HN i Tóm tắt nội dung đồ án tốt nghiệp Hệ thống tổng hợp tiếng nói văn (Text-To-Speech) hệ thống cho phép sinh lời nói từ văn đầu vào Ngày nay, hệ thống tổng hợp tiếng nói đóng vai trị quan trọng giao tiếp người hệ thống Trong hệ thống tổng hợp tiếng nói, mức độ tự nhiên câu nói sinh phụ thuộc lớn vào biến đổi ngữ điệu lời nói (bao gồm tham số âm học độ cao, độ dài lượng) Một hệ thống tổng hợp tiếng nói với khả quản lí ngơn điệu tốt giả lập giọng nói người tương ứng với hồn cảnh nói Với ngơn ngữ có điệu tiếng Việt, ngữ điệu bao gồm hai thành phần, ngữ điệu cục tương ứng với âm tiết câu nói, ngữ điệu tồn cục tương ứng với câu nói Mỗi loại câu nói khác có dạng ngữ điệu đặc trưng khác Mục tiêu đồ án đưa mơ hình hóa cao độ cho câu hỏi tiếng Việt, thơng qua phân tích ngữ điệu toàn cục câu hỏi ngữ điệu cục âm tiết cuối câu hỏi Đồ án bước đầu đề xuất mơ hình hóa cao độ cho câu hỏi dựa đặc điểm ngữ điệu Để tìm tham số cho mơ hình, thí nghiệm tiến hành theo đặc tính ngữ điệu câu hỏi Cuối mơ hình đề xuât cài đặt thử nghiêm thông qua đánh giá độ cảm thụ Đề tài nghiên cứu đưa mơ hình cao độ bước đầu, tập trung vào câu hỏi đơn với cấu trúc đơn giản Trong tương lai, người viết mong đợi tiếp tục nghiên cứu sâu nhằm đưa tham số chuẩn xác cho mơ hình Từ khóa: F0 Model, Intonation, Prosody, Question, Tone ii Mục lục Lời cảm ơn .i Tóm tắt nội dung đồ án tốt nghiệp ii Mục lục iii Danh mục hình v Danh mục bảng .vii Mở đầu viii Chương Tổng quan toán 1.1 Giới thiệu hệ tổng hợp tiếng nói 1.1.1 Khái niệm tổng hợp tiếng nói: 1.1.2 Mơ hình tổng hợp tiếng nói: .1 1.2 Ngơn điệu tiếng nói 1.2.1 Khái niệm ngôn điệu 1.2.2 Các thành phần ngơn điệu 1.2.3 Vai trò ngôn điệu 1.3 Mơ hình hóa ngơn điệu tổng hợp tiếng nói .4 1.3.1 Phân loại mơ hình cao độ (F0) .5 1.3.2 Một số mơ hình cao độ giới .6 1.3.3 Mô hình hóa ngữ điệu tổng hợp tiếng nói Tiếng Việt 1.4 Phạm vi toán .8 1.5 Kết luận chương .8 Chương Tiếng Việt ngôn điệu tiếng Việt 10 2.1 Tiếng Việt 10 2.1.1 Đặc điểm ngữ âm tiếng Việt .10 2.1.2 Cấu trúc âm tiết Tiếng Việt 10 2.2 Ngôn điệu tiếng Việt 11 2.2.1 Các ngữ điệu cục tiếng Việt 12 2.2.2 Các loại câu ngữ điệu toàn cục tiếng Việt 18 2.3 Kết luận chương .19 Chương Phát triển mơ hình ngữ điệu cho câu hỏi tiếng Việt .20 3.1 Đề xuất mơ hình ngữ điệu 20 3.1.1 Mơ hình ngữ điệu đề xuất 20 3.1.2 Bộ liệu ban đầu 20 3.2 Ảnh hưởng F0 toàn câu đến ngữ điệu câu hỏi 21 3.2.1 Mục tiêu .21 3.2.2 Phương pháp triển khai 21 3.2.3 Phân tích kết 24 iii 3.3 Ảnh hưởng F0 cuối câu đến ngữ điệu câu hỏi 27 3.3.1 Mục tiêu thí nghiệm 27 3.3.2 Phương pháp triển khai 28 3.3.3 Phân tích kết 29 3.4 Kết hợp ảnh hưởng hai yếu tố 33 3.4.1 Mục tiêu thí nghiệm 33 3.4.2 Phương pháp triền khai 33 3.4.3 Phân tích kết 34 3.5 Kết luận thí nghiệm 38 3.6 Kết luận chương .39 Chương Cài đặt đánh giá mơ hình đề xuất 42 4.1 Cài đặt mơ hình 42 4.1.1 Các module chương trình 43 4.1.2 Cài đặt mơ hình 43 4.1.3 Giao diện hoạt động hệ thống 50 4.2 Thực nghiệm đánh giá mơ hình 51 4.2.1 Mục tiêu .51 4.2.2 Phương pháp triển khai 52 4.2.3 Kết thực nghiệm 54 4.3 Kết luận chương .57 Chương Kết luận hướng phát triển 58 Tài liệu tham khảo 60 Phụ lục 1: Danh sách câu thí nghiệm cao độ câu hỏi: 62 Phụ lục 2: Sử dụng phần mềm Praat thí nghiệm 63 Phụ lục 3: Các phần mềm phụ phục vụ cho việc thực thí nghiệm 65 Phụ lục 4: Cấu trúc tập tin XML đầu vào 66 Danh mục hìn iv Hình 1-1: Mơ hình hệ thống TTS Hình 1-2: Mơ hình ngữ điệu Fujisaki [4] Hình 1-3: Mơ hình ngữ điệu Fujisaki áp dụng cho tiếng Trung Quốc phổ thông [5] Hình 1-4: (a) Đường quãng âm âm tiết (nét gạch) mẫu áp dụng (b) Đường F0 sinh mơ hình đường F0 thực tế [14] Hình 2-1: Cấu trúc âm tiết tiếng Việt [8] .11 Hình 2-2: Đường ngữ điệu âm tiết /ba/ với ngang [9] 13 Hình 2-3: Đường ngữ điệu âm tiết /ba/ với huyền [9] 13 Hình 2-4: Đường ngữ điệu âm tiết /ba/ với ngã [9] 14 Hình 2-5: Đường ngữ điệu âm tiết /ba/ với hỏi [9] 14 Hình 2-6: Đường ngữ điệu âm tiết /ba/ với 5a [9] 14 Hình 2-7: Đường ngữ điệu âm tiết /bak/ với 5b [9] 15 Hình 2-8: Đường ngữ điệu âm tiết /ba/ với 6a [9] 15 Hình 2-9: Đường ngữ điệu âm tiết /bak/ với 6b [9] 15 Hình 2-10: Ví dụ ngữ điệu sáu thanh, [9] 16 Hình 2-11: Đường F0 trung bình liệu [14] .16 Hình 2-12: 250 thể đường F0 [14] 17 Hình 2-13: Ba biến thể tương ứng với trường độ âm tiết [14] 18 Hình 2-14: Hai câu khẳng định nghi vấn với số lượng âm tiết [13] 19 Hình 3-1: Hướng biến đổi F0 câu thí nghiệm 22 Hình 3-2: Biến đổi F0 câu thí nghiệm 22 Hình 3-3: Giao diện chương trình thí nghiệm 23 Hình 3-4: Thống kê kết thí nghiệm 10 nam .24 Hình 3-5: Thống kê kết thí nghiệm 10 nữ 24 Hình 3-6: Thống kê kết thí nghiệm 27 Hình 3-7: Hướng biến đổi F0 câu thí nghiệm 28 Hình 3-8: Biến đổi F0 câu thí nghiệm 29 Hình 3-9: Thống kê kết thí nghiệm 10 nam .30 Hình 3-10: Thống kê kết thí nghiệm 10 nữ 30 Hình 3-11: Thống kê kết thí nghiệm 33 Hình 3-12: Hướng biến đổi F0 câu thí nghiệm 34 Hình 3-13: Biến đổi F0 câu thí nghiệm 35 Hình 3-14: Thống kê kết thí nghiệm nam 36 Hình 3-15: Thống kê kết thí nghiệm 10 nữ 36 v Hình 3-16: Thống kê kết thí nghiệm 38 Hình 4-1: Mơ hình ngữ điệu cho câu hỏi .42 Hình 4-2: Giao diện chương trình 50 Hình 4-3: Ví dụ kết thực thi chương trình 51 Hình 4-4: F0 loại câu thực nghiệm 53 Hình 4-5: Kết thực nghiệm nam 55 Hình 4-6: Kết thực nghiệm nữ 55 Hình 4-7: Kết thực nghiệm đánh giá mơ hình đề xuất .57 Danh mục vi Bảng 1-1: Các chức ngôn điệu [3] Bảng 1-2: Phân loại mơ hình cao độ [3] Bảng 2-1: Các tiếng Việt 12 Bảng 2-2: Độ lệch chuẩn tương đối vị trí [14] 17 Bảng 2-3: Số lượng phần trăm dáng điệu F0 nửa sau âm tiết cuối [13] 19 Bảng 3-1: Danh sách câu thí nghiệm 21 Bảng 3-2: Tỉ lệ chọn câu hỏi trung bình 10 nam độ lệch chuẩn tỉ lệ chọn thí nghiệm 25 Bảng 3-3: Tỉ lệ chọn câu hỏi trung bình 10 nữ độ lệch chuẩn tỉ lệ chọn thí nghiệm 25 Bảng 3-4: Thống kê kết câu thí nghiệm 26 Bảng 3-5: Thống kê kết theo âm tiết cuối câu thí nghiệm 27 Bảng 3-6: Danh sách câu thí nghiệm 28 Bảng 3-7: Tỉ lệ chọn trung bình 10 nam thí nghiệm độ lệch chuẩn tỉ lệ chọn 30 Bảng 3-8: Tỉ lệ chọn trung bình 10 nữ thí nghiệm độ lệch chuẩn tỉ lệ chọn 30 Bảng 3-9: Thống kê kết câu thí nghiệm 31 Bảng 3-10: Thống kê kết theo âm tiết cuối câu thí nghiệm 32 Bảng 3-11: Danh sách câu thí nghiệm 34 Bảng 3-12: Tỉ lệ chọn trung bình nam thí nghiệm độ lệch chuẩn tỉ lệ chọn 36 Bảng 3-13: Tỉ lệ chọn trung bình 10 nữ thí nghiệm độ lệch chuẩn tỉ lệ chọn 37 Bảng 3-14: Thống kê kết câu thí nghiệm .40 Bảng 4-1: Các lớp gói xử lí .43 Bảng 4-2: Danh sách thuộc tính lớp Syllable 44 Bảng 4-3: Danh sách thuộc tính lớp F0ModelParameter 44 Bảng 4-4: Các phương thức lớp F0Generator 46 Bảng 4-5: Các thành phần gói Reader 46 Bảng 4-6: Ví dụ tập tin đầu vào theo định dạng TextGrid 47 Bảng 4-7: Các phương thức giao diện InputReader 48 Bảng 4-8: Các kí hiệu tập tin TextGrid 49 Bảng 4-9: Các thành phần gói Writer 49 vii Bảng 4-10: Kết thực nghiệm thống kê theo câu 56 Mở đầu Tiếng nói vốn phương tiện giao tiếp người với người Hiện cịn áp dụng vào việc giao tiếp người với máy, hướng tới thay cho phương pháp giao tiếp truyền thống bàn phím, chuột, hình, Trong phương pháp giao tiếp tiếng nói, tổng hợp tiếng nói đóng vai trò quan trọng Các nghiên cứu tổng hợp tiếng nói có từ vài thập niên Tuy nhiên nay, mức độ tự nhiên câu nói vấn đề lớn tổng hợp tiếng nói Hầu hết phương tiện nghiên cứu gần hướng tới nâng cao độ tự nhiên tín hiệu âm tổng hợp, nhằm đạt tới độ tự nhiên giọng nói người Hiện nay, Việt Nam có số tổng hợp tiếng nói hệ tổng hợp “VnVoice” Viện Cơng nghệ Thông Tin, “Sao Mai” trung tâm Sao Mai, “Hoa Súng” trung tâm nghiên cứu MICA – Đại học Bách Khoa Hà Nội, “Tiếng nói Phương Nam” Đại học Quốc gia Thành phố Hồ Chí Minh Những nghiên cứu có kết đáng khích lệ, nhiên để đem vào sử dụng, họ cần phải cải thiện kết tổng hợp, đặc biệt độ tự nhiên câu tổng hợp, vốn quan trọng tổng hợp tiếng Việt Đồ án người viết thực trung tâm nghiên cứu MICA trường Đại học Bách Khoa Hà Nội, trung tâm tập trung nghiên cứu hai vấn đề xử lí tiếng nói xử lí ảnh Trong đồ án này, người viết tập trung nghiên cứu khác biệt ngữ điệu câu hỏi câu khẳng định, sau đưa mơ hình hóa ngữ điệu bước đầu cho câu khẳng định Nhiệm vụ xây dựng liệu để thực thí nghiệm đánh giá vai trò hai yếu tố khác biệt ngữ điệu câu hỏi câu khẳng định Sau đánh giá vai trò yếu tố, người viết đề xuất mơ hình ngữ điệu câu hỏi dựa mơ hình ngữ điệu câu khẳng định Bằng cách áp dụng đường ngữ điệu vào tín hiệu tiếng nói hai phương pháp xử lí tín hiệu âm tổng hợp tiếng nói, người viết có liệu nhằm thực thực nghiệm đánh giá chất lượng mơ hình đề Đồ án trình bày theo bố cục sau: Chương giới thiệu tổng hợp tiếng nói, ngữ điệu mơ hình hóa ngữ điệu tổng hợp tiếng nói số mơ hình hóa ngữ điệu sử dụng cho ngơn ngữ giới tiếng Việt - viii

Ngày đăng: 24/06/2023, 10:37

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w