ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN: LỰA CHỌN ĐƠN VỊ ÂM KHÔNG ĐỒNG NHẤT TRONG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT. GVHD: TS Trần Đỗ Đạt

69 2 0
ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN: LỰA CHỌN ĐƠN VỊ ÂM KHÔNG ĐỒNG NHẤT TRONG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT. GVHD: TS Trần Đỗ Đạt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ──────── * ──────── ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN LỰA CHỌN ĐƠN VỊ ÂM KHÔNG ĐỒNG NHẤT TRONG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT Sinh viên thực : Đỗ Văn Thảo Lớp: CNPM – K51 Giáo viên hướng dẫn: TS Trần Đỗ Đạt HÀ NỘI 05-2011 PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Thông tin sinh viên Họ tên sinh viên: Đỗ Văn Thảo Điện thoại liên lạc: 01226397323 Email: thaodv.bkit@gmail.com Lớp: Hệ đào tạo: Đại học quy Cơng nghệ phần mềm K51 Đồ án tốt nghiệp thực tại: Trung tâm nghiên cứu Mica – Trường Đại học Bách Khoa Hà Nội Thời gian làm ĐATN: Từ ngày 21/02/2011 đến 28/05/2011 Mục đích nội dung ĐATN Tìm hiểu phương pháp tối ưu hóa lựa chọn đơn vị tổng hợp tiếng nói tiếng Việt cài đặt thử nghiệm Các nhiệm vụ cụ thể ĐATN  Tìm hiểu vấn đề tổng hợp mức thấp hệ thống tổng hợp tiếng nói xác định vấn đề tập trung giải  Đề xuất phương pháp chọn lựa đơn vị âm tối ưu thực thi, đánh giá phương pháp  Tổ chức sở liệu cho tìm kiếm đơn vị âm Lời cam đoan sinh viên: Tôi – Đỗ Văn Thảo - cam kết ĐATN cơng trình nghiên cứu thân hướng dẫn TS Trần Đỗ Đạt Các kết nêu ĐATN trung thực, khơng phải chép tồn văn cơng trình khác Hà Nội, ngày 20 tháng 05 năm 2011 Tác giả ĐATN Đỗ Văn Thảo Xác nhận giáo viên hướng dẫn mức độ hoàn thành ĐATN cho phép bảo vệ: Hà Nội, ngày 28 tháng 05 năm 2011 Giáo viên hướng dẫn TS Trần Đỗ Đạt TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Trong năm gần đây, phương thức giao tiếp người máy trọng nghiên cứu phát triển Các phương thức giao tiếp qua cử chỉ, ánh mắt, tiếng nói hay suy nghĩ người hứa hẹn giúp người nâng cao thuận tiện giao tiếp với máy Tổng hợp tiếng nói tốn áp dụng lĩnh vực Trong đó, người nghe máy đọc đoạn văn mong muốn Với mong muốn tìm hiểu phát triển tổng hợp tiếng nói cho tiếng Việt, đồ án chọn lĩnh vực tổng hợp tiếng nói làm hướng nghiên cứu Đồ án tập trung vào phần tổng hợp mức thấp tổng hợp tiếng nói, cụ thể q trình tìm kiếm lựa chọn đơn vị âm Với mong muốn cải thiện chất lượng tiếng nói tổng hợp, thuật tốn lựa chọn đơn vị không đồng sử dụng với mục đích chọn đơn vị âm dài nhất, giảm thiểu số điểm ghép nối Trong đồ án này, tác giả tập trung tìm hiểu tốn tổng hợp tiếng nói nói chung áp dụng cho tiếng Việt nói riêng Sau đó, đồ án tập trung vào vấn đề tìm kiếm lựa chọn đơn vị âm tổng hợp ghép nối Phương pháp lựa chọn đơn vị âm không đồng đề xuất áp dụng cho tiếng Việt Tác giả tiến hành cài đặt đánh giá hiệu phương pháp Từ đưa hướng phát triển cho đồ án LỜI CẢM ƠN Trước hết, em xin gửi lời cảm ơn chân thành tới thầy cô giáo trường Đại học Bách Khoa Hà Nội thầy cô Viện Công nghệ thông tin truyền thông truyền dạy cho em kiến thức kinh nghiệm quý giá suốt trình học tập tu dưỡng suốt năm qua Em xin gửi lời cảm ơn tới TS Trần Đỗ Đạt – Cán nghiên cứu, Trung tâm nghiên cứu Mica ThS Nguyễn Thị Thu Trang - Giảng viên môn Công nghệ phần mềm, Viện Công nghệ thông tin truyền thông, trường Đại học Bách Khoa Hà Nội hết lòng giúp đỡ, hướng dẫn dạy tận tình trình em làm đồ án tốt nghiệp Em bày tỏ lòng biết ơn tới trung tâm nghiên cứu Mica tạo điều kiện sở vật chất cho em trình học tập nghiên cứu Em muốn gửi lời cảm ơn tới tập thể lớp Công nghệ phần mềm K51 tạo môi trường thi đua học tập lành mạnh, tạo điều kiện cho phát triển thành viên lớp Cuối cùng, em xin gửi lời cảm ơn chân thành tới gia đình, bạn bè quan tâm, động viên, đóng góp ý kiến giúp đỡ q trình học tập, nghiên cứu hồn thành đồ án tốt nghiệp Hà Nội, ngày 27 tháng 05 năm 2011 Đỗ Văn Thảo Lớp CNPM – K51 Viện CNTT & TT – ĐH Bách Khoa HN MỤC LỤC TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC TỪ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH VẼ vii ĐẶT VẤN ĐỀ viii Chương Tổng hợp tiếng nói 1.1 Tổng quan tốn tổng hợp tiếng nói 1.2 Các vấn đề tổng hợp tiếng nói phương pháp ghép nối 1.2.1 Lựa chọn loại đơn vị âm 1.2.2 Xây dựng kho đơn vị âm 1.2.3 Tìm kiếm đơn vị âm tối ưu 1.2.4 Phương pháp ghép nối đơn vị âm 1.3 Kết luận Chương 2.1 Lựa chọn tìm kiếm đơn vị âm tổng hợp ghép nối Lựa chọn loại đơn vị âm 2.1.1 Âm vị 2.1.2 Âm vị kép 10 2.1.3 Bán âm tiết 10 2.1.4 Âm đầu vần 10 2.1.5 Âm tiết 10 2.1.6 Cụm từ 11 2.1.7 Nhận xét 11 2.2 Tìm kiếm đơn vị âm tối ưu 12 2.2.1 Tiền lựa chọn 13 2.2.2 Chọn lựa cuối 15 2.3 Kết luận 16 Chương Đề xuất cách áp dụng phương pháp lựa chọn đơn vị âm khơng đồng cho tổng hợp tiếng nói tiếng Việt 18 3.1 Tìm kiếm đơn vị âm khơng đồng 18 3.1.1 Tổng kết nghiên cứu liên quan 18 3.1.2 Mơ hình thuật toán 20 3.2 Mơ hình tổng thể hệ thống 24 3.3 Kết luận 25 Chương Phát triển hệ thống tổng hợp tiếng nói tiếng Việt theo phương pháp lựa chọn đơn vị âm không đồng 26 4.1 Giới thiệu chương trình tổng hợp Hoa Súng 26 4.2 Tổ chức sở liệu 30 4.2.1 Cơ sở liệu âm 30 4.2.2 Cơ sở liệu văn 30 4.2.3 Cơ sở liệu bán âm tiết 33 4.3 Thiết kế lớp 35 4.3.1 Biểu đồ lớp 35 4.3.2 Thiết kế chi tiết lớp 36 4.4 Kết đánh giá 47 4.4.1 Bài đánh giá cảm thụ 48 4.5 Kết luận chương 53 Kết luận hướng phát triển 54 Tài liệu tham khảo 56 Phụ lục 57 DANH MỤC TỪ VIẾT TẮT THTN Tổng hợp tiếng nói PSOLA FFT IFFT CSDL XML JNI HT Pitch Synchronous Overlap and Add Fast Fourier Transform Inverse Fast Fourier Transform Cơ sở liệu eXtensible Markup Language Java Native Interface Hệ Thống DANH MỤC CÁC BẢNG Bảng 1.1 Số lượng loại đơn vị âm tiếng Việt Bảng 2.1 Các loại đơn vị âm sử dụng 11 Bảng 2.2 Hướng độ phức tạp điệu [9] 14 Bảng 4.1 Kết độ rõ ràng 51 Bảng 4.2 Bảng kết độ tự nhiên 52 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Mơ hình hệ thống THTN [9] Hình 2.1 Các loại đơn vị âm Hình 2.2 Hàm chi phí đơn vị âm 12 Hình 2.3 Chi phí đích 13 Hình 2.4 So sánh khác ngữ cảnh 15 Hình 2.5 So sánh khác phổ 16 Hình 3.1 Mơ hình lựa chọn đơn vị âm khơng đồng 20 Hình 3.2 Quá trình tìm kiếm đơn vị 21 Hình 3.3 Cây phân cấp để tìm kiếm 23 Hình 3.4 Mơ hình tổng thể hệ thống 25 Hình 4.1 Sơ đồ hoạt động tổng quát chương trình 26 Hình 4.2 Biểu đồ lớp chương trình THTN Hoa Súng 27 Hình 4.3 Cấu trúc CSDL XML 31 Hình 4.4 Cấu trúc CSDL bán âm tiết 34 Hình 4.5 Thơng tin đơn vị âm CSDL 35 Hình 4.6 Biểu đồ lớp chương trình 36 Hình 4.7 Giao diện chương trình đánh giá 50 Hình 4.8 Biến đổi cao độ tín hiệu TD-PSOLA 57 Hình 4.9 Biến đổi trường độ với TD-PSOLA 57 Tên lớp: TextInputReader Chức năng: đọc văn đầu vào, lưu vào nhớ class Classes TextInputReader Phương thức TextInputReader() void - sentence: Sentence lp: LevelPhrase level: ArrayList + + + + + TextInputReader(String) : void setLevelOfPhrase() : void addSubLevel() : void addSilToSen(String) : void addSilsToSen(String) : void Ghi Tham số Bắt đầu q trình đọc file văn đầu vào có String [in] str tên tham số truyền vào Public setLevelOfPhrase() void Tổ chức cụm từ thành cấu trúc phân cấp, gán số Public addSilToSen() void Thêm khoảng lặng dấu phảy vào câu String [in] str Thêm khoảng lặng dấu chấm vào câu String [in] sils Public addSilsToSen() void Public Tên lớp: UnitConcatJNI class Classes Chức năng: kết nối code C với phần code Java, gọi tới module tổng hợp mức thấp UnitConcatJNI + Phương thức UnitConcatenative() void Ghi UnitConcatenative() : void Tham số Gọi tới module tổng hợp mức thấp viết C++ String [in] filelocation Phương thức Ghi Tham số Public Tên lớp: UnitSearching Chức năng: Tìm kiếm cụm từ CSDL class Classes UnitSearching Phương thức UnitSearching() - textDBReader: TextDBReader textInputReader: TextInputReader allSenInTextDB: ArrayList allSenInTextInput: ArrayList indexesOfPhraseToSearch: ArrayList + + + + + + + + UnitSearching() searchTextInput() : void searchSentenceByLp(Sentence) : void searchLevelPhrase(LevelPhrase) : void addIndexesOfLPtoStack(ArrayList) : void getAllSenInTextDB() : ArrayList getFoundLPhrs() : ArrayList setPosInSenOfPhrs() : void Ghi Tham số Hàm khởi tạo Đọc CSDL văn văn đầu vào vào nhớ bắt đầu tìm kiếm Public searchTextInput() void Tìm kiếm văn đầu vào cách duyệt qua câu tìm kiếm câu Public searchSentenceByLp() void Tìm kiếm câu s theo cụm từ Sentence [in] s Public searchLevelPhrase() void Tìm kiếm cụm từ CSDL LevelPhrase [in] lp Public addIndexesOfLPtoStack( Thêm số cụm từ cụm từ ArrayList [in] indexes ) void tìm kiếm vào stack để tìm kiếm cụm từ Public getAllSenInTextDB() ArrayList Lấy mảng tất câu CSDL văn Phương thức Ghi Tham số Public getFoundLPhrs() ArrayList Trả cụm từ tìm thấy CSDL Public setPosInSenOfPhrs() void Thiết lập vị trí cụm từ tìm thấy câu chứa Public Tên lớp: UnitSelection class Classes Chức năng: lựa chọn đơn vị tối ưu CSDL UnitSelection - allSenInT extDB: ArrayList us: UnitSearching foundLPhrs: ArrayList + + + selectLPByCost() : void calculateCostForCandidateUnits() : void calculateCostFor2LP(LevelPhrase, LevelPhrase) : void calculateCostFor2CandidateUnits(int, LevelPhrase, int, LevelPhrase) : void selectBestUnits() : void selectBestNextUnitOfaCandUnit(LevelPhrase, LevelPhrase) : void bestUnitsSelection() : boolean Method Notes selectLPByCost() void Lựa chọn chuỗi đơn vị âm tối ưu theo tối thiểu hóa hàm chi phí Bắt đầu q trình tìm kiếm đơn vị âm tối ưu Public Parameters calculateCostForCandida Tính tốn hàm chi phí tất đơn vị ứng viên teUnits() void Private calculateCostFor2LP() void Tính tốn hàm chi phí cho đơn vị ứng viên LevelPhrase [in] rightLP hai đơn vị âm đích Đơn vị âm đích bên phải Public LevelPhrase [in] leftLP Đơn vị âm đích bên trái calculateCostFor2Candid ateUnits() void int [in] indexOfCandOfRightLP Tính tốn hàm chi phí hai đơn vị ứng viên LevelPhrase [in] rightLP Private Method Notes Parameters int [in] indexOfCandOfLeftLP LevelPhrase [in] leftLP selectBestUnits() void Private chọn lựa chuỗi đơn vị âm tối ưu selectBestNextUnitOfaCa Thiết lập số đơn vị ứng viên tốt LevelPhrase [in] nextUnit liền sau đơn vị ứng viên đơn vị âm đích ndUnit() void LevelPhrase [in] currentUnit xét Private bestUnitsSelection() boolean Lựa chọn đơn vị ứng viên tối ưu Trả true tìm thấy Public Tên lớp: XML_Reader class Classes Chức năng: Đọc file XML, superclass cho class TextInputReader TextDBReader XML_Reader - allSentences: ArrayList fileName: String fis: FileInputStream xif: XMLInputFactory xsr: XMLStreamReader + + + + + + + + + + XML_Reader(File) XML_Reader(String) setxMLStreamReader() : void getxMLStreamReader() : XMLStreamReader ReadDetails() : void getAllSentence() : ArrayList getSentenceAt(int) : Sentence StrToInt(String) : int readPhraseDetails() : void readSentenceDetails() : void Phương thức Ghi Tham số XML_Reader() Hàm khởi tạo, bắt đầu đọc file XML với đầu File [in] inputFile vào File Public XML_Reader() Public Hàm khởi tạo, bắt đầu đọc file XML với đầu String [in] nameFile vào tên file Phương thức Ghi setxMLStreamReader() void Thiết lập XMLStreamReader Tham số Public getxMLStreamReader() XMLStreamReader Trả XMLStreamReader Public ReadDetails() abstract void Hàm abstract, đọc thông tin chi tiết, cài đặt lớp Public getAllSentence() ArrayList Trả mảng câu đọc Public getSentenceAt() Sentence Trả câu có số truyền vào int [in] indexOfSentence mảng câu Public StrToInt() int Chuyển đổi số lưu dạng String dạng String [in] str int Public readPhraseDetails() void Hàm abstract, đọc thông tin cụm từ, abstract cài đặt lớp Public readSentenceDetails() void abstract Hàm abstract, đọc thông tin chi tiết câu, cài đặt lớp Public 4.4 Kết đánh giá Chương trình cài đặt hai ngơn ngữ Java C++ Tính tới thời điểm viết đồ án này, tác giả thực tổng hợp thành công mức âm tiết cụm từ Nhằm đánh giá chất lượng tiếng nói tổng hợp, tác giả chuẩn bị liệu để làm đánh giá cảm thụ người nghe tiếng nói 4.4.1 Bài đánh giá cảm thụ 4.4.1.1 Mục tiêu Đánh giá chất lượng tiếng nói tổng hợp chương trình tác giả dựa hai tiêu chí độ rõ ràng phát âm độ tự nhiên tiếng nói tổng hợp Các tiêu chí đánh giá theo thang điểm từ tới theo bảng sau: Tiêu chí đánh giá Độ rõ ràng phát âm Độ tự nhiên tiếng nói Thang điểm giải thích Khơng thể phân biệt Không phân biệt rõ Hơi rõ Đủ rõ để phân biệt Rất rõ Không tự nhiên Không tự nhiên Có tự nhiên Tự nhiên Rất tự nhiên Nhiệm vụ người tiến hành đánh giá nghe câu tổng hợp cho điểm đánh giá câu theo hai tiêu chí 4.4.1.2 Phương pháp thực Dữ liệu đánh giá Dữ liệu dùng để đánh giá câu đoạn văn ngắn tiếng Việt lấy ngẫu nhiên từ web Các đoạn đưa vào hai hệ thống tổng hợp để so sánh đánh giá Hệ thống thứ tổng hợp tiếng nói Hoa Súng, hệ thống thứ hai hệ thống tác giả phát triển đồ án Đoạn Các đoạn văn câu tổng hợp dùng để làm đánh giá Hôm muốn gửi tâm , mong bạn cho Đoạn Đoạn Đoạn Đoạn Đoạn Đoạn lời khuyên bổ ích Các nhà khoa học vừa nghiên cứu loại túi thông minh Túi thông minh giải vấn đề đau đầu Khi túi thông minh phát thực phẩm hạn sử dụng , túi biến sắc , , túi cịn có chức bảo đảm tươi thực phẩm Cuộc sống đồng bào dân tộc vùng cao đề tài hấp dẫn cho sáng tác ảnh , đặc biệt sáng tác ảnh nghệ thuật Những sách khơng đến với dân , thường cách làm hay cách nói khác Đó quan tâm nửa mùa người sách Ơng tham dự nhiều hội thảo , đọc báo cáo kinh nghiệm nhiều nơi , mời đến giảng số trường đại học Quả thuốc phiện khơ có trọng lượng từ sáu trăm ki lơ gam đến nghìn năm trăm ki lơ gam Quả thuốc phiện tươi có trọng lượng từ trăm năm mươi ki lô gam đến bốn trăm năm mươi ki lơ gam Nhà nước có nhiều sách quan tâm đến hoạt động sinh viên nước ngồi Bài thí nghiệm tiến hành phòng thu âm trung tâm MICA với số lượng tám người, người vùng miền phía Bắc nói giọng phía Bắc chuẩn Để tiến hành đánh giá, tác giả sử dụng chương trình viết Java có giao diện Hình 4.7 Hai mẫu câu xếp liền kề người thực nghe với thứ tự ngẫu nhiên Hình 4.7 Giao diện chương trình đánh giá 4.4.1.3 Phân tích kết Kết đánh giá người tham gia lưu trữ file XML Sau xử lý, tác giả thu bảng kết Bảng 4.1 Bảng 4.2 Theo kết thống kê, HT cho kết tốt HT hai tiêu chí đánh giá Điều lý giải HT dùng âm tiết cụm từ để ghép nối nên khơng có nhiều điểm ghép nối HT Phần lớn câu tổng hợp HT đánh giá cao hơn, đoạn 5, tổng hợp HT cho kết thấp theo tiêu chí Điều đoạn 5, âm tiết “nhiều” không tổng hợp tốt nên khơng nghe rõ Ngồi ra, âm tiết “sáng” đoạn 3, âm tiết “của” đoạn không nghe rõ Đối với HT 2, điểm cho độ rõ ràng 4.00, mức đánh giá cao thang điểm 5; điểm cho độ tự nhiên thấp hơn, 3.64 Việc giải thích HT chưa sử dụng phương pháp điều khiển tham số ngữ điệu, ngữ điệu câu ngữ điệu âm tiết câu khác nhau, nên ghép lại, ngữ điệu câu tổng hợp không khớp với ngữ cảnh câu Tập liệu dùng để đánh giá câu trần thuật, ngữ điệu câu tổng hợp HT giống tự nhiên Tuy nhiên, dùng câu khác câu hỏi, câu cầu khiên, câu cảm thán, ngữ điệu câu tổng hợp HT không giống chưa áp dụng mơ hình ngữ điệu kĩ thuật điều khiển tham số ngữ điệu Bảng 4.1 Kết độ rõ ràng Người đánh giá Người HT HT HT HT HT HT HT HT HT HT HT HT HT HT 5 4 Người 5 4 Người 4 4 4 3 4 Người 3 3 3 Người 2 3 3 2 Người 5 5 5 5 Người 4 4 Người 3 4 4 3.25 3.88 3.25 4.50 2.63 3.50 2.75 3.88 2.88 3.63 2.75 4.38 3.00 4.25 Điểm trung bình Câu Câu Câu HT 1: hệ thống tổng hợp tiếng nói Hoa Súng HT 2: hệ thống đồ án phát triển Điểm trung bình HT1: 2.93 Điểm trung bình HT2: 4.00 Câu Câu Câu Câu Bảng 4.2 Bảng kết độ tự nhiên Người đánh giá Câu Câu Câu Câu Câu Câu Câu HT HT HT HT HT HT HT HT HT HT HT HT HT HT Người 4 3 3 2 3 Người 4 3 3 4 Người 3 4 4 4 4 4 Người 3 4 3 3 3 Người 2 2 3 2 3 Người 5 5 5 4 Người 3 4 4 3 Người 2 3 4 3.13 3.38 2.88 3.88 2.88 3.88 2.63 3.63 3.38 3.25 2.75 3.88 3.25 3.63 Điểm trung bình Điểm trung bình HT1: 2.98 Điểm trung bình HT2: 3.64 4.5 Kết luận chương Trong chương này, tác giả trình bày thiết kế sở liệu thiết kế lớp để phát triển chương trình tác giả Sau thực đánh giá, kết cho thấy chương trình phát triển đạt kết ban đầu khả quan Tuy nhiên, hạn chế lớn chương trình chưa tổng hợp mức bán âm tiết sử dụng phương pháp điều khiển tham số ngữ điệu hệ thống 4.1 Đây nhiệm vụ thời gian tới để chương trình hồn thiện Kết luận hướng phát triển Mục tiêu đồ án đặt đề xuất phương pháp chọn lựa đơn vị âm tối ưu cho tổng hợp tiếng nói tiếng Việt thực thi phương pháp Phương pháp tác giả đề xuất áp dụng đồ án “Lựa chọn đơn vị không đồng nhất” Tác giả phát triển chương trình thực thi phương pháp với việc sử dụng CSDL tổng hợp mức bán âm tiết Trung tâm nghiên cứu Mica Điều cho thấy đắn hướng cách áp dụng phương pháp đề xuất tác giả Mặc dù đánh giá kết bước đầu tương đối khả quan chương trình làm phần việc nhỏ tổng hợp tiếng nói Phần sau tổng kết làm đồ án, điểm hạn chế hướng tương lai đề tài:  Những điểm đạt được: o Tìm hiểu lý thuyết tổng hợp tiếng nói tổng hợp mức thấp o Đề xuất cách áp dụng phương pháp lựa chọn đơn vị khơng đồng cho tổng hợp tiếng nói tiếng Việt o Tổ chức CSDL văn âm thuận lợi cho việc tìm kiếm mở rộng sau o Cài đặt chương trình ngơn ngữ Java C++, kết nối hai phần với qua JNI  Những điểm hạn chế o Chưa thực phần ghép nối bán âm tiết điều khiển tham số ngữ điệu C++; o Việc lựa chọn đơn vị âm tối ưu chưa thực bán âm tiết o Số lượng người tham gia thực nghiệm cịn o Chưa dùng tham số ngữ điệu tính tốn hàm khoảng cách để tối ưu hóa, dùng tham số ngữ âm o Chưa áp dụng mơ hình ngữ điệu trường độ cao độ Hướng tương lai o Xây dựng liệu lớn hơn, đảm bảo độ phủ cao âm tiết tiếng Việt o Nghiên cứu kĩ việc ảnh hưởng tham số hàm khoảng cách mức âm tiết cụm từ o Áp dụng mơ hình ngữ điệu cho loại câu khác tiếng Việt  o o o Chỉnh sửa thiết kế để chương trình có khả thích nghi với sở liệu Giảm bớt phụ thuộc việc lựa chọn đơn vị âm vào kết phân tích cú pháp, cho kết phân tích cú pháp cho kết sai Xem xét cách áp dụng mơ hình ngơn ngữ thống kê để lựa chọn cụm từ Tài liệu tham khảo [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] Lại Hoàng Nam, Quách Đại Quang, “Xây dựng chương trình tổng hợp tiếng nói DSP”, đồ án tốt nghiệp K49, ĐH Bách Khoa Hà Nội, 2009 Lukas Latacz, Yuk On Kong, Werner Verhelst, “Unit Selection Synthesis Using Long Non-Uniform Units and Phonemic Identity Matching”, Department of Electronics and Informatics (ETRO), Vrije Universiteit Brussel, 2007 Marcello Balestri, Alberto Pacchiotti, Silvia Quazza, Pier Luigi Salza, Stefano Sandri, “Choose the best to modigy the least: a new generation concatenative synthesis system”, CSELT - Centro Studi e Laboratori Telecomunicazioni S.p.A., Torino, Italy Mark Tatham, Katherine Morton, “Development in Speech Synthesis”, Wiley, 2005 Min Chu,Hu Peng, Hong-yun Yang, Eric Chang, “Selecting non-uniform units from a very large corpus for cancatenative speech synthesizer”, Microsoft Research China, Beijing Minghui Dong, Kim-Teng Lua, Haizhou Li, “A Unit Selection-based Speech Synthesis Approach for Mandarin Chinese”, Institute for Infocomm Research Paul Taylor, “Text-to-SpeechSynthesis”, University of Cambridge, Cambridge University Press, 2006 Tian-Swee Tan and Sh-Hussain, “Implementation of Phonetic Context Variable Length Unit Selection Module for Malay Text to Speech”, Faculty of Biomedical Engineering and Health Science, University Teknologi Malaysia,, Malaysia, 2008 Trần Đỗ Đạt, “Synthèse de la parole a partir du texte en langue Vietnamienne”, Ph.D Thesis, Thèse en cotutelle international MICA, Hanoi, 2007 Vũ Hải Quân, Cao Xuân Nam, “Tổng hợp tiếng nói tiếng Việt, theo phương pháp ghép nối cụm từ” Tập V-1, Số 1, tháng 04/2009 Xuedong Huang, Alejandro Acero, Hsiao-Wuen Hon, “Spoken language processing”, Prentice Hall, 2001 Phụ lục Hình 4.8 Biến đổi cao độ tín hiệu TD-PSOLA Hình 4.9 Biến đổi trường độ với TD-PSOLA

Ngày đăng: 12/09/2022, 20:39

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan