Tổng hợp tiếng Việt chất lượng tốt Tổng hợp tiếng Việt chất lượng tốt Tổng hợp tiếng Việt chất lượng tốt luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
ĐINH ĐỒNG LƯỠNG BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - LUẬN VĂN THẠC SĨ KHOA HỌC XỬ LÝ THÔNG TIN & TRUYỀN THÔNG 2007 - 2009 Hà Nội 2009 NGÀNH: XỬ LÝ THÔNG TIN & TRUYỀN THÔNG TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT ĐINH ĐỒNG LƯỠNG HÀ NỘI 2009 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - LUẬN VĂN THẠC SĨ KHOA HỌC TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT NGÀNH: XỬ LÝ THÔNG TIN & TRUYỀN THÔNG MÃ SỐ: ĐINH ĐỒNG LƯỠNG Người hướng dẫn khoa học: TS TRỊNH VĂN LOAN HÀ NỘI 2009 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Mục lục Trang LỜI NÓI ĐẦU .1 CHƯƠNG 1: KHÁI QUÁT VỀ CÁC NGHIÊN CỨU TỔNG HỢP TIẾNG VIỆT 1.1 Tổng quan xử lý ngôn ngữ tiếng Việt 1.2 Các nghiên cứu tổng hợp tiếng Việt CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VỀ XỬ LÝ TIẾNG NĨI 2.1 Q trình phát âm 2.2 Đặc tính âm học tiếng nói 2.2.1 Âm hữu âm vô 2.2.1.1 Âm hữu 2.2.1.2 Âm vô 2.2.2 Âm vị 2.2.3 Nguyên âm 2.2.4 Phụ âm 2.2.5 Các đặc tính khác .7 2.2.5.1.Tỷ suất thời gian .7 2.2.5.2 Hàm lượng thời gian ngắn 2.2.5.3 Tần số 2.2.5.4 Formant 2.3 Biểu diễn tín hiệu tiếng nói .9 2.3.1 Tín hiệu tiếng nói miền thời gian 10 2.3.2 Tín hiệu tiếng nói miền tần số 10 2.3.3 Tín hiệu tiếng nói miền thời gian tần số kết hợp 11 2.4 Mơ hình tạo tiếng nói 11 2.5 Xử lý tín hiệu tiếng nói 17 2.5.1 Tổng hợp tiếng nói 18 2.5.1.1 Tổng hợp trực tiếp .18 2.5.1.2 Tổng hợp dựa mơ hình 18 2.5.2 Nhận dạng tiếng nói 18 2.5.2.1 Nhận dạng ngữ nghĩa 18 2.5.2.2 Nhận dạng người nói 19 2.6 Một số dặc điểm ngữ âm tiếng Việt 20 2.7 Cấu trúc âm tiết tiếng Việt .20 2.7.1 Hệ thống âm đầu .21 2.7.2 Hệ thống âm đệm 21 2.7.3 Hệ thống âm 21 2.7.4 Hệ thống âm cuối điệu 22 Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT CHƯƠNG 3: CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI 3.1 Dẫn nhập 23 3.2 Các phương pháp tổng hợp tiếng nói .23 3.2.1 Phương pháp mô hệ thống phát âm 23 3.2.2 Phương pháp tổng hợp Formant 24 3.2.3 Phương pháp LPC 25 3.2.4 Phương pháp ghép nối 26 3.3 Mơ hình tổng hợp tiếng nói từ văn 28 3.3.1 Tổng hợp mức cao 29 3.3.2 Tổng hợp mức thấp 31 3.4 So sánh phương pháp tổng hợp tiếng nói 32 3.5 Thuật giải PSOLA tổng hợp tiếng nói 33 3.5.1 Phân tích PSOLA 34 3.5.2 Tổng hợp PSOLA .36 3.5.3 Giải thuật PSOLA .37 CHƯƠNG 4: ĐỀ XUẤT VÀ XÂY DỰNG BỘ TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT 4.1 Đề xuất phương án xây dựng tổng hợp tiếng Việt chất lượng tốt 39 4.2 Xây dựng sở liệu 40 4.2.1 Xây dựng danh sách âm tiết cần thu 40 4.2.2 Xây dựng kịch thu 41 4.2.3 Thu âm .42 4.2.4 Tách lấy âm tiết 43 4.2.5 Tách lấy đơn vị âm 45 4.2.6 Xử lý điểm cắt lưu trữ liệu .47 4.3 Xử lý phân tích văn 49 4.3.1 Phân tích văn tiếng Việt thành âm tiết .49 4.3.2 Xác định câu văn .49 4.3.3 Phân tích câu thành âm tiết 50 4.3.4 Tách âm tiết thành đơn vị âm 51 4.4 Tổng hợp tiếng Việt chất lượng tốt .51 4.4.1 Tổng hợp tiếng Việt phương pháp ghép nối 51 4.4.2 Một số đề xuất nhằm nâng cao chất lượng tổng hợp .53 4.4.2.1.Cân biên độ 54 4.4.2.2 Cân tần số F0 55 4.4.2.3 Làm trơn phổ 57 4.5 Đánh giá chất lượng tiếng nói tổng hợp 61 4.5.1 Xây dựng kịch đánh giá .61 4.5.2 Kết đánh giá chất lượng tiếng Việt tổng hợp .62 Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT CHƯƠNG 5: ĐÁNH GIÁ KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết đạt luận văn 65 5.2 Hạn chế hướng phát triển 66 TÀI LIỆU THAM KHẢO .67 PHỤ LỤC A – DANH SÁCH ĐƠN VỊ ÂM CẦN THU 68 PHỤ LỤC B – BÀI BÁO “XÂY DỰNG CƠ SỞ DỮ LIỆU CHO TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT” 71 PHỤ LỤC B – BÀI BÁO “TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT” .77 Tóm tắt luận văn 90 Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang LỜI NĨI ĐẦU Máy tính đóng vai trị quan trọng thiếu sống đại Ngày nay, hầu hết lĩnh vực như: khí, kinh tế, điện tử, giao thông liên lạc, có tham gia máy tính Máy tính trở thành công cụ hữu hiệu người xử lý thông tin Cùng với phát triển nhanh chóng máy tính, hình thức trao đổi, giao tiếp thơng tin người máy tính trở nên đa dạng Hiện việc trao đổi thông tin phổ biến người máy thông qua giao tiếp bàn phím, chuột, cảm biến, hình, máy in, Tuy nhiên, phương pháp trao đổi thông tin đánh giá cao gần gũi người giao tiếp người máy tiếng nói Để đạt yêu cầu đòi hỏi kết hợp nhiều ngành nghiên cứu ngơn ngữ học, xử lý tiếng nói ngành liên quan, vấn đề tổng hợp tiếng nói vấn đề cần nghiên cứu đề cập luận văn Tổng hợp tiếng nói biết đến nghiên cứu rộng rãi giới Những kết thu khả quan, điều làm tiền đề quan trọng cho phát triển ứng dụng trình giao tiếp người máy Trên giới có nhiều ngơn ngữ tổng hợp thành công với chất lượng tốt tiếng Anh, tiếng Pháp,… Ở Việt Nam, vấn đề xử lý tiếng nói trọng nghiên cứu thời gian gần đây, thu số kết đáng khích lệ Với mục đích góp phần vào phát triển tổng hợp tiếng Việt, kế thừa phát huy nghiên cứu trước đó, tơi chọn đề tài ”Tổng hợp tiếng Việt chất lượng tốt” Với mong muốn tổng hợp từ tiếng Việt với chất lượng gần tiếng nói tự nhiên nhất, đề tài đề xuất phương án thực tổng hợp tiếng Việt chất lượng tốt bao gồm việc xây dựng sở liệu tiếng Việt cho đảm bảo chất lượng tổng hợp tốt Nội dung báo cáo chia làm chương: Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang • Chương I: Tổng quan Nội dung chương nhằm phân tích, đánh giá cơng trình nghiên cứu có tác giả nước liên quan đến đề tài, vấn đề tồn nội dung, vấn đề mà đề tài tập trung nghiên cứu giải • Chương II: Lý thuyết xử lý tiếng nói Những vấn đề lĩnh vực xử lý tiếng nói, đặc trưng tín hiệu tiếng nói cấu trúc ngữ âm tiếng Việt trình bày chương • Chương III: Tổng hợp tiếng nói Trình bày tổng quan tổng hợp tiếng nói, phương pháp khác tổng hợp tiếng nói, đồng thời đưa đánh giá hiệu phương pháp • Chương IV: Đề xuất xây dựng tổng hợp tiếng Việt chất lượng tốt Dựa nghiên cứu lý thuyết chương trước, chương tập trung nội dung đề tài bao gồm: xây dựng sở liệu, số đề xuất áp dụng tổng hợp tiếng Việt nhằm nâng cao chất lượng tổng hợp • Chương V: Đánh giá kết hướng phát triển Mặc dù cố gắng song luận văn khơng thể tránh khỏi có thiếu sót Vì vậy, mong hội đồng quý Thầy, Cơ góp ý Cuối tơi xin gửi lời cảm ơn chân thành tới toàn thể hội đồng bảo vệ, lớp KTMT-K50 Thầy, Cô giáo khoa Công nghệ thông tin, đặc biệt Thầy môn Kỹ thuật máy tính tạo điều tốt cho thời gian học tập nghiên cứu môn Tôi xin gởi lời cảm ơn đặc biệt tới TS Trịnh Văn Loan người tận tình giúp đỡ, hướng dẫn tơi hồn thành luận văn Nhân đây, xin gởi lời cảm ơn tới nhà trường, Khoa Công nghệ Thông tin Đại học Nha Trang người vợ thân yêu tạo điều kiện thuận lợi cho tơi suốt khóa học Hà Nội, ngày 02 tháng 10 năm 2009 Thực đề tài Đinh Đồng Lưỡng Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang CHƯƠNG 1: KHÁI QUÁT VỀ CÁC NGHIÊN CỨU TỔNG HỢP TIẾNG VIỆT 1.1 Tổng quan xử lý ngôn ngữ tiếng Việt Gần đây, vấn đề xử lý ngôn ngữ xử lý tiếng Việt nhà khoa học hàng đầu lĩnh vực công nghệ thông tin nước quan tâm Các sản phẩm tiêu biểu xử lý tiếng Việt như: gõ tiếng việt Vietkey, từ điển AnhViệt, Việt-Anh, hay phần mềm dịch song ngữ EVTRAN, phần mềm nhận dạng chữ Việt vnDOC,… sản phẩm người sử dụng biết đến Tuy nhiên, công cụ hỗ trợ lĩnh vực giao tiếp người máy nhận dạng tổng hợp tiếng Việt với kết hạn chế Có nhiều lý do, lý có q nghiên cứu sở, tảng có thường nghiên cứu ngắn hạn, đơn lẻ dạng đề tài tốt nghiệp, thạc sĩ trường đại học, thiếu kế thừa thiếu trang thiết bị Kết quả, chưa có sở liệu chuẩn đầy đủ cho vấn đề liên quan đến xử lý ngôn ngữ tiếng Việt, mà vấn đề nước phát triển từ lâu cộng đồng quốc tế xác định thiếu xử lý ngôn ngữ Hiện tại, số sản phẩm thực dừng lại mức mơ hình, thử nghiệm tiến hành tập ngữ liệu nhỏ, chưa đầy đủ Hơn nữa, nỗ lực chưa liên kết với nhau, thiếu tính chia sẻ kế thừa, hợp tác theo lộ trình có kế hoạch Nếu hình dung cơng đoạn vấn đề xử lý ngôn ngữ đánh số từ A đến Z, hầu hết sản phẩm làm cho người dùng cuối khoảng từ R, S,… trở đi, mà muốn có kết tốt giai đoạn thiết phải cần tới kết tất bước từ A đến P, Q Như vậy, muốn có sản phẩm phải làm tất công đoạn từ A đến P, Q đến Z khơng khẳng định chắn sản phẩm R, S,…, Z làm đủ tốt Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 1.2 Các nghiên cứu tổng hợp tiếng Việt Ở nước, kể đến tập thể có kết nghiên cứu tổng hợp tiếng Việt Viện Công nghệ Thông tin, Khoa Công nghệ Thông tin Trung tâm nghiên cứu quốc tế Thông tin đa phương tiện, truyền thông ứng dụng (MICA) - Đại học Bách khoa Hà Nội kết số trường Đại học đề tài tốt nghiệp, thạc sĩ hay tiến sĩ mang tính chất nghiên cứu tìm hiểu Nghiên cứu xử lý ngơn ngữ theo đuổi từ lâu số tập thể Đại học Bách khoa Hà Nội, Đại học Khoa học Tự nhiên thành phố Hồ Chí Minh, Đại học Bách khoa Đà Nẵng, Trường Đại học Công nghệ, Viện Ứng dụng Công nghệ, Viện Công nghệ Thông tin, Công ty Lạc Việt,… Đề tài cấp Nhà nước “Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt” giai đoạn 2001-2004 chương trình quốc gia KC-01 Ở nước ngồi, kể tới nhóm nghiên cứu Canada tiến sĩ Lê Tang Hồ với phần mềm tổng hợp tiếng Việt có tên Vietvoice, số nghiên cứu cán nghiên cứu sinh Việt Nam Viện Khoa học Công nghệ Tiên tiến Nhật (JAIST) Xử lý ngơn ngữ tiếng Việt nói chung tổng hợp tiếng nói tiếng Việt nói riêng vấn đề làm tốt người Việt Hiện nay, có số sản phẩm tổng hợp tiếng Việt VietVoice, vnVoice, VieTTS hay VnSpeech người Việt số người Việt Nam nước ngồi làm có kết bước đầu Tuy nhiên, vấn đề nâng cao chất lượng tổng hợp sản phẩm cho người dùng đích cuối mà ta cần hướng tới Qua nhiều năm nghiên cứu, tìm hiểu tổng hợp, đồng thời mong muốn góp phần xây dựng hệ tổng hợp tiếng Việt, muốn hướng tới hệ tổng hợp tiếng Việt chất lượng tốt vấn đề chất lượng điệu đưa lên hàng đầu Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VỀ XỬ LÝ TIẾNG NĨI 2.1 Q trình phát âm Tiếng nói phương tiện trao đổi thông tin người Tiếng nói tạo từ q trình tư người trung khu thần kinh điều khiển hệ thống phát âm làm việc tạo âm Tiếng nói phân biệt với âm khác đặc tính âm học có nguồn gốc từ chế tạo tiếng nói Về chất, tiếng nói dao động sóng âm có mang theo thơng tin Các dao động tạo thành áp lực đến hệ thống thích giác, hệ thống thích giác phát hiện, phân tích chuyển kết đến trung khu thần kinh Lúc trung khu thần kinh, thông tin tái tạo lại dạng tư logic mà người hiểu Tín hiệu tiếng nói tạo thành chuỗi âm vị liên tiếp Sự xếp âm vị chi phối quy tắc ngôn ngữ Việc nghiên cứu cách chi tiết quy tắc khía cạnh khác bên tiếng nói thuộc chun ngành ngơn ngữ Việc phân loại âm vị tiếng nói thuộc chuyên ngành ngữ âm học Khi nghiên cứu mơ hình tốn học chế tạo tiếng nói, việc nghiên cứu âm vị cần thiết 10 11 12 13 14 15 Hốc mũi Vòm miệng Ổ Vòm miệng mềm Đầu lưỡi Thân lưỡi Lưỡi gà Cơ miệng Yết hầu Nắp đóng quản Dây giả Dây Thanh quản Thực quản Khí quản Hình 2.1 – Cơ quan phát âm Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 76 Kết luận Trên đây, chúng tơi trình bày phương pháp xây dựng sở liệu phục vụ cho tổng hợp tiếng Việt chất lượng tốt Các kết tổng hợp bước đầu cho thấy chất lượng tiếng nói tổng hợp khả quan Có thể thấy rằng, việc xây dựng sở liệu theo phương pháp tạo điều kiện thuận lợi để thực tổng hợp tiếng Việt giọng địa phương Ngoài ra, sở liệu chúng tơi xây dựng sử dụng tốt cho ứng dụng tổng hợp khác, đặc biệt tổng hợp tiếng Việt phương pháp ghép nối Tài liệu tham khảo [1] Trần Đỗ Đạt, Eric Castelli, Trịnh Văn Loan, Lê Việt Bắc Building a large Vietnamese Speech Database Tạp chí Khoa học Cơng nghệ (ISBN 08683980) Vol 46/47, February 2004, pp 13-17 [2] Trần Đỗ Đạt, Eric Castelli, Serignat Jean-Francois, Lê Xuân Hùng, Trịnh Văn Loan Influence of F0 on Vietnamese syllable perception Proc of Interspeech 2005, Lisbon, pp 1697-1700, 2006 [3] Trần Đỗ Đạt, Eric Castelli, Serignat Jean-Francois, Trịnh Văn Loan, Lê Xuân Hùng Linear F0 Contour Model for Vietnamese Tones and Vietnamese Syllable Synthesis with TD-PSOLA Proc TAL 2006, La Rochelle, April 2006 [4] Lã Thế Vinh, TRịnh Văn Loan, “Vietnamese Recognition and Synthesis with T-engine Embedded System”, Proceeding of the 2nd Asia Pacific International Conference on Information Science and Technology, Hanoi, December 2007 pp133-137 [5] Nguyen Thanh Kien, Nguyen Duc Thang, Le Thai Hoa, Trinh Van Loan,”DSP-based Embedded System for Text to Speech Synthesis of Vietnamese”, Proceeding of the 2nd Asia Pacific International Conference on Information Science and Technology, Hanoi, December 2007 pp 215-219 [6] Hansjörg Mixdorff, Nguyen Hung Bach, Hiroya Fujisaki , Mai Chi Luong, “Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese”, EuroSpeech 2003 – GENEVA [7] Nguyễn Hữu Quỳnh, Ngữ Pháp Tiếng Việt; Nhà xuất từ điển Bách Khoa, tr.11-86, HN, 2001 Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 77 PHỤ LỤC C – Bài báo “TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT” Tác giả: Ts Trịnh Văn Loan, Đinh Đồng Lưỡng Bài báo dự kiến gửi đăng tạp chí “Cơng nghệ thơng tin truyền thơng” Tóm tắt Tiếng Việt ngôn ngữ đơn âm tiết có điệu Dựa vào đặc trưng này, chúng tơi đề xuất cách tiếp cận tổng hợp tiếng Việt, yếu tố chất lượng tổng hợp điệu đưa lên hàng đầu trình xây dựng sở liệu tổng hợp Hơn nữa, để nâng cao chất lượng tổng hợp phương pháp ghép nối, đề xuất cách làm trơn tham số tín hiệu tiếng nói tổng hợp vị trí ghép nối Trong đó, phương pháp làm trơn phổ vị trí ghép nối đề xuất tiếng Việt Từ khóa: chất lượng tốt, trơn phổ, cân biên độ, cần F0, sở liệu tiếng Việt, tổng hợp ghép nối,… Astract Vietnamese is a monosyllabic and tonal language Based on these characteristics, we propose a new approach to synthesize Vietnamese in which quality of tone synthesis is mainly interest in building Vietnamese database and synthesis Furthermore, in order to enhance quality of synthesized Vietnamese using concatenation method, we present algorithms to reduce discontinuities of parameters at concatenation point One of them, the algorithm proposed by our to smooth spectrum is new method for Vietnamese Keyword: good quality synthesis of Vietnamese, smoothing spectrum, balancing energy, balancing pitch, Vietnamese databases, concatenation synthesis,… Giới thiệu Gần đây, xử lý ngơn ngữ tiếng Việt nói chung tổng hợp tiếng Việt nói riêng nhà khoa học hàng đầu lĩnh vực công nghệ thông tin nước quan tâm Hiện nay, có số sản phẩm tổng hợp tiếng Việt vnVoice, VietVoice, VieTTS hay VnSpeech kết nghiên cứu Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 78 người Việt số người Việt Nam nước ngồi Song nhiều lý mà sản phẩm chưa sử dụng phổ biến, lý có q nghiên cứu sở, tảng tiếng Việt có thường nghiên cứu ngắn hạn, đơn lẻ dạng đề tài, thiếu kế thừa thiếu trang thiết bị Chính thế, vấn đề nâng cao chất lượng tổng hợp tiếng Việt mục tiêu mà ta cần hướng tới Theo chúng tôi, để tổng hợp tiếng Việt chất lượng tốt thiết phải tổng hợp điệu cho gần với tiếng nói tự nhiên tốt Nói cách khác, tham số tín hiệu tiếng nói tổng hợp xấp xỉ với tham số tín hiệu tiếng nói tự nhiên Từ ý tưởng này, xây dựng sở liệu phương pháp tổng hợp đảm bảo mục đích đề tổng hợp tiếng Việt chất lượng tốt Xây dựng sở liệu Xây dựng sở liệu bước quan trọng trình xây dựng tổng hợp tiếng Việt chất lượng tốt Để xây dựng sở liệu tốt, hai vấn đề lớn chúng tơi quan tâm Đó sở liệu xây dựng cho phép tổng hợp điệu giống với tiếng nói tự nhiên chất lượng tín hiệu tiếng nói ghi âm sở liệu phải tốt Ngoài ra, cần giải vấn đề xây dựng ngữ liệu đầy đủ thỏa mãn theo yêu cầu đề ra, chọn giọng để thu tổ chức kịch thu Theo kết [1] có 1015 đơn vị âm cần thu Trong đó, đơn vị âm thu âm tiết lưu thành tập tin riêng có định dạng *.wav Sau thu âm, cần tách đơn vị âm âm tiết ghi âm tương ứng Việc có ảnh hưởng trực tiếp đến chất lượng tiếng nói tổng hợp Chính vậy, từ thu âm, chúng tơi phải tính đến vấn đề xây dựng kịch chi tiết cho dễ dàng thực việc tách đơn vị âm cách dễ dàng Thí dụ, đơn vị âm đầu, chọn âm tiết bắt đầu ”t” “n” thu Sỡ dĩ chọn âm t thời gian phát âm t âm tiết Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 79 ngắn, nên tách ta dễ dàng ước lượng phần tín hiệu âm âm tiết cần thu Còn phụ âm “n” ta dễ nhận phần tín hiệu âm “n” nên việc tách trở lên dễ dàng đảm bảo tính xác cao Hơn nữa, sở liệu xây dựng nhằm mục đích cho nghiên cứu, nên thơng tin điểm cắt đơn vị âm âm tiết ghi âm xác định lưu tập tin khác định dạng sẵn (* pim), tập tin ghi âm tương ứng ban đầu bảo tồn ngun vẹn Chính điều mà thơng tin điểm cắt sau xác định điều chỉnh lại cần nhằm nâng cao chất lượng tiếng nói tổng hợp Cơ sở liệu xây dựng gồm đơn vị âm đầu đơn vị âm cuối với tổng 1015 đơn vị âm, tương ứng với 1015 tập tin ghi âm (*.wav) 1015 tập tin liệu(*.pim) chứa thông tin điểm cắt, thông tin F0, số điểm cực trị, … Xây dựng tổng hợp tiếng Việt chất lượng tốt Các phương pháp tổng hợp tiếng nói chia thành hai hướng: tổng hợp tiếng nói trực tiếp tổng hợp tiếng nói dựa mơ hình Chúng tơi chọn phương pháp tổng hợp dựa đơn vị âm ghi âm trực tiếp từ tiếng nói, âm tiết tổng hợp ghép hai đơn vị âm mà đặt tên đơn vị âm đầu đơn vị âm cuối Đây phương pháp cho chất lượng tiếng nói tổng hợp tự nhiên 3.1 Tổng hợp phương pháp ghép nối Quá trình tổng hợp ghép nối thực theo hình Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 80 Bắt đầu Xác định đơn vị âm để tổng hợp Đọc tín hiệu đơn vị âm từ sở liệu Xác định điểm ghép đơn vị âm đầu với đơn vị âm cuối Ghép đơn vị âm đầu đơn vị âm cuối tạo thành âm tiết Kết thúc Hình – Lưu đồ thuật giải tổng hợp phương pháp ghép nối 3.2 Các đề xuất cân tham số vị trí ghép nối Tổng hợp tiếng nói phương pháp ghép nối từ đơn vị âm không đồng (non-uniform unit) vấn đề thực từ sớm Song tồn vấn đề mang tính thời thu hút quan tâm, việc xử lý tín hiệu điểm ghép nối Bằng nghiên cứu đánh giá ảnh hưởng tham số đến chất lượng tiếng Việt tổng hợp phương pháp ghép nối, chúng tơi số tham số có ảnh hưởng như: biên độ, tần số F0 phổ (hay formant) Các tham số dễ dàng nhận ta quan sát tín hiệu miền thời gian tần số hình hình Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Hình 2: Tín hiệu tiếng nói tự nhiên từ ‘tải’ (A) Biểu diễn miền thời gian (D) Biểu diễn formant (E) Biểu diễn F0 Trang 81 Hình 3: Tín hiệu tiếng nói từ ‘tải’ sau ghép đơn vị âm đầu đơn vị âm cuối (B) Đoạn tín hiệu đơn vị âm đầu (B) Đoạn tín hiệu đơn vị âm cuối Hình cho thấy gián đoạn khơng liên tục tham số biên độ, phổ tần số F0 so với tín hiệu gốc hình Hiện nay, có nhiều cơng trình nghiên cứu vấn đề giới, nhiên với ngơn ngữ lại có đặc trưng riêng, nên chúng cần có cách giải khác Vì vậy, phần này, chúng tơi xin trình bày đề xuất cân biên độ, tần số phổ tiếng Việt a Cân biên độ Để cân biên độ có nhiều cách để thực hiện, nhiên việc cân phải đảm bảo đoạn tín hiệu tiếng nói sau cân có thay đổi so với tín hiệu gốc ban đầu Dựa sở đó, ý tưởng chúng tơi cân biên độ đơn vị âm đầu theo đơn vị âm cuối Sở dĩ chọn đơn vị âm đầu đoạn tín hiệu âm đầu thường ngắn so với đơn vị âm cuối, nên cân chúng bị ảnh hưởng Các bước thực sau: Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 82 Bước 1: Tìm giá trị biên độ lớn đơn vị âm đầu đơn vị âm cuối Bước 2: Tính hệ số tương ứng cách lấy giá trị lớn đơn vị âm cuối chia giá trị lớn đơn vị âm đầu Bước 3: Tính lại giá trị mẫu đơn vị âm đầu cách nhân với hệ số tính bước Hình tín hiệu tổng hợp từ “tải” Hình 4a tín hiệu biểu diễn miền thời gian từ tổng hợp chưa cân biên độ, biên độ đơn vị âm đầu lớn so với đơn vị âm cuối Tuy nhiên, sau cân biên độ đơn vị âm đầu theo đơn vị âm cuối chệnh lệnh khơng đáng kể, hình 4b (a) (b) Hình 4– Tín hiệu tiếng nói tổng hợp từ ‘tải’ (a) Chưa cân biên độ (b) Đã cân biên độ b Cân tần số F0 Đối với tiếng Việt, thay đổi tần số F0 làm thay đổi điệu, ngữ điệu nhiều thơng tin quan trọng khác tiếng nói tổng hợp Chính vậy, việc cân tham số F0 điều quan quan trọng nhằm nâng cao chất lượng tiếng Việt tổng hợp Nhiều giải pháp đưa để cân tần số F0 vị trí ghép nối thuật giải “shift only”, “residual resampling”, “multiplex window processing” báo [2],[5] Tuy nhiên, ý tưởng làm thay đổi giá trị F0 đoạn nguyên âm bên đơn vị âm đầu theo giá trị F0 bên đơn vị âm cuối Phương pháp thực thuật giải PSOLA Giải pháp bước thực sau: Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 83 Bước 1: Xác định tần số đoạn nguyên âm đơn vị âm đầu đơn vị âm cuối ta gọi tương ứng F01 F02 Bước 2: Thay đổi tần số F01 đoạn tín hiệu nguyên âm bên đơn vị âm đầu theo tần số F02 bên đơn vị âm cuối thuật giải PSOLA Hình kết cân tần số F0 từ ‘tải’ Đường (a) F0 từ tổng hợp chưa thực cân F0 Đường (b) F0 từ ‘tải’ sau áp dụng thuật giải để cân F0 Hình – Tần số F0 từ ‘tải’ tổng hợp (a) Chưa cân F0 (b) Đã cân F0 b Làm trơn phổ Quá trình làm trơn phổ vị trí ghép nối thực cho, cân phổ đoạn tín hiệu nguyên âm bên đơn vị âm đầu theo phổ phần nguyên âm bên đơn vị âm cuối phương pháp LPC Mục đích tạo tín hiệu mang phần thơng tin đoạn tín hiệu ban đầu, song thông tin phổ điều khiển để gần giống với phổ đoạn tín hiệu thuộc nguyên âm đơn vị âm cuối Quá trình tiến hành theo bước sau: Tìm hệ số LPC(sử dụng thuật giải Levinson-Durbin) đoạn tín hiệu hữu thuộc đơn vị âm đầu (ở ký hiệu ai1) hệ số LPC đoạn tín hiệu nguyên âm thuộc đơn vị âm cuối (ở ký hiệu ai2) Sau đó, tham số ai1 sử dụng để tính tín hiệu kích thích cho tuyến âm Cịn hệ số ai2 sử dụng làm tham số tuyến âm tổng hợp Chi tiết xem hình Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 84 + (a) (b) Tính hệ số tiên đốn LPC: ai1 i=1 P (P=8 14) Tính tính hiệu kích thích: p e(n ) = y (n ) − ~ y (n ) = y (n ) + ∑ a1 (k ) y (n − k ) k Tính hệ số tiên đốn LPC: ai2 i=1 P (P=8 14) Tổng hợp tín hiệu: y1 p y1 (n) = e(n) − ∑ a (k ) y1 (n − k ) ( c) Hình – Qui trình làm cân phổ vị trí ghép nối (a) Đoạn tín hiệu nguyên âm thuộc đơn vị âm đầu (b) Đoạn tín hiệu nguyên âm thuộc đơn vị âm cuối (c ) Đoạn tín hiệu tổng hợp phương pháp LPC Hình kết làm trơn phổ (formants) lại vùng ghép nối từ “của” Hình 7(A) phổ từ trước thực làm trơn phổ Hình 7(B) phổ từ sau thực cân phổ Hình – Kết cân phổ từ ‘cần’ (A) trước (B) sau cân Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 85 Hình – Đường bao phổ đoạn tín hiệu từ “tải” (a) Đường bao phổ đoạn tín hiệu thuộc đơn vị âm cuối từ (b) Đường bao phổ đoạn tín hiệu trước cân phổ từ (c) Đường bao phổ đoạn tín hiệu sau cân phổ từ Hình cho thấy chênh lệnh đường bao phổ đoạn tín hiệu gốc thuộc đơn vị âm đầu ứng với đường (a) so với đường bao phổ đoạn tín hiệu thuộc đơn vị âm cuối ứng với đường (b) lớn, đặc biệt vùng I, vùng II vùng III Tuy nhiên, sau sử dụng thuật tốn làm trơn phổ, chênh lệnh giảm đáng kể Đường bao phổ đoạn tín hiệu sau sử dụng thuật giải làm trơn phổ ứng với đường (c) Đánh giá kết chất lượng tiếng Việt tổng hợp Chúng đề nghị 30 người nghe đánh giá chất lượng tiếng Việt tổng hơp Trong 20 từ đưa ra, việc đánh giá chất lượng tổng hợp tốt tỏ vượt trội phía từ cải thiện Đặc biệt từ “tải” 100% người nghe chọn từ sau cải tiến có chất lượng tốt hơn, ngồi có số từ khác có kết tương tự cao từ “đến”, “cần”, “cuộc”, “đại”, “đối”,… Có số từ “tử”, “với” số người đánh giá cho từ chưa cải thiện có chất lượng tốt cao, song số so với số người Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 86 đánh giá cho từ cải thiện tốt Nguyên nhân người nghe khơng tập trung, chưa có phân tích tinh tế nghe, chí bị ảnh hưởng thứ tự phát âm nghe(thường từ phát sau đánh giá nhỉnh chất lượng chúng khơng khác nhiều) Chính lý mà số từ có khác không nhiều chọn cho từ chưa cải tiến chọn đáp án chất lượng giống Hình – Kết đánh giá chất lượng 20 từ trước sau cải thiện Bảng kết đánh giá chất lượng 20 từ tổng hợp theo phương pháp MOS Kết từ tính điểm trung bình cộng 30 người nghe Kết cho thấy, giá trị trung bình 30 người nghe 20 từ có giá trị lớn Bảng – Kết đánh giá chất lượng 20 từ tiếng nói tổng hợp Từ Điểm TB cộng (30 người nghe) Tải 4.467 Đến Hội 2B Từ Điểm TB cộng (30 người nghe) Đóng 4.1 4.433 Cuộc 4.566 4.267 Đại 3B Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 4.5 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang Cần 4.7 Tể 4.467 Giới 4.467 Tử 4.466 Tiến 4.667 Tăng 4.267 Giầy 4.4 Với 4.6 Bao 4.3 Của 4.633 Dưới 4.567 Phòng Tính 4.533 Đối 87 4.633 Trong q trình thử nghiệm kết tổng hợp, từ chọn để đánh giá theo bảng từ theo cảm nhận chủ quan chúng tôi, nên ưu tiên đánh giá chất lượng Điều có nghĩa là, có từ mà chất lượng trước sau cải thiện tốt nhau, trước cải thiện chất lượng tốt vậy, không thiết phải ưu tiên đưa vào danh sách từ cần đánh giá Những từ đưa vào đánh giá từ có chênh lệnh mặt tham số tương đối lớn vị trí ghép nối trước cải thiện chất lượng Chính vậy, kết bước đầu cho thấy, đề xuất sử dụng nhằm cân tham số tín hiệu tiếng nói vị trí ghép nối tốt, chất lượng tiếng Việt từ tổng hợp giống với tiếng nói tự nhiên Kết luận Chúng đề xuất phương pháp xây dựng tổng hợp tiếng Việt chất lượng tốt phương pháp ghép nối Trong có đề xuất nhằm nâng cao chất lượng tiếng Việt tổng hợp cách làm trơn tham số biên độ, tần số F0 phổ tín hiệu tiếng nói tổng hợp ví trị ghép nối Những kết đánh giá bước đầu cho thấy, đề xuất sử dụng nhằm cân tham số tín hiệu tiếng nói vị trí ghép nối tốt, đồng thời kết cho thấy chất lượng từ tổng hợp đạt mức tự nhiên cao Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 88 Tài liệu tham khảo [1] Trịnh Văn Loan, Đinh Đồng Lưỡng, Phạm Thị Kim Ngoan, “Xây dựng sở liệu cho tổng hợp tiếng Việt chất lượng tốt”, Hội nghị: Một số vấn đề chọn lọc Công nghệ thông tin Truyền thông , Biên Hòa 2009 [2] Baris Bozkurt, Thierry Dutoit, Romain Prudon, Christophe D’Alessandro, Vincent , “Improving quality of mbrola synthesis for non-uniform units synthesis “, Park, B-7000 Mons, Belgium [3] Trần Đỗ Đạt, Eric Castelli, Serignat Jean-Francois, Lê Xuân Hùng, Trịnh Văn Loan “Influence of F0 on Vietnamese syllable perception” Proc of Interspeech 2005, Lisbon, pp 1697-1700, 2006 [4] Trần Đỗ Đạt, Eric Castelli, Serignat Jean-Francois, Trịnh Văn Loan, Lê Xuân Hùng “Linear F0 Contour Model for Vietnamese Tones and Vietnamese Syllable Synthesis with TD-PSOLA” Proc TAL 2006, La Rochelle, April 2006 [5] M Edgington and A Lowry,”Residual-Based Speech Modification Algorithms for Text-to-Speech Synthesis”, BT Laboratories, Martlesham Heath, IPSWICH, IP5 7RE, U.K [6] Hansjörg Mixdorff, Nguyen Hung Bach, Hiroya Fujisaki, Mai Chi Luong, “Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese”, EuroSpeech 2003 – GENEVA [7] Nguyen Thanh Kien, Nguyen Duc Thang, Le Thai Hoa, Trinh Van Loan,”DSP-based Embedded System for Text to Speech Synthesis of Vietnamese”, Proceeding of the 2nd Asia Pacific International Conference on Information Science and Technology, Hanoi, December 2007 pp 215-219 [8] Trần Đỗ Đạt, Eric Castelli, Trịnh Văn Loan, Lê Việt Bắc, “Building a large Vietnamese Speech Database” Tạp chí Khoa học Cơng nghệ (ISBN 08683980) Vol 46/47, February 2004, pp 13-17 Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 89 [9] Lê Trung Dũng, “Xây dựng công cụ khảo sát ảnh hưởng tham số đến chất lượng tiếng nói tổng hợp tiếng Việt dùng TD-PSOLA” , Luận văn Cao học, Đại học Bách khoa, năm 2007 [10] Lã Thế Vinh “Tổng hợp nhận dạng tiếng Việt hệ nhúng T-Engine SH7760” Luận văn cao học, Đại học Bách khoa, năm 2007 [11] Lã Thế Vinh, Trịnh Văn Loan, “Vietnamese Recognition and Synthesis with T-engine Embedded System”, Proceeding of the 2nd Asia Pacific International Conference on Information Science and Technology, Hanoi, December 2007 pp133-137 [12] Thierry Dutoit "An Introduction to Text-to-Speech Synthesis" 1997 [13] Xuedong Huang, Alejandro Acero, Hsiao-Wuen Hon,” PH Spoken Language Processing - A Guide to Theory, Algorithm and System Developmen” October 2000 [14] Phần mềm: Praat, WaveSufer, WASP, Adobe Audition 1.5 [15] URL: http://ngonngu.net Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 90 Tóm tắt luận văn Đề tài “Tổng hợp tiếng Việt chất lượng tốt” thực học viên Đinh Đồng Lưỡng hướng dẫn TS.Trịnh Văn Loan, đặt nhiệm vụ nhằm xây dựng tổng hợp tiếng Việt chất lượng tốt với cách tiếp cận tổng hợp tiếng Việt, yếu tố chất lượng tổng hợp điệu đưa lên hàng đầu Nội dung luận văn bao gồm phần chính: Xây dựng sở liệu cho tổng hợp tiếng Việt chất lượng tốt: - Xây dựng danh sách đơn vị âm đầu đơn vị âm cuối - Xây dựng kịch thu - Chọn giọng thu âm Xây dựng tổng hợp tiếng Việt chất lượng tốt - Xây dựng tổng hợp tiếng Việt phương pháp ghép nối - Xây dựng số giải thuật đề xuất nhằm nâng cao chất lượng tiếng Việt tống hợp vị trí ghép nối + Cân tần số F0 + Cân biên độ + Cân phổ Kết thực đề tài cho thấy chất lượng tiếng Việt tổng hợp tự nhiên Từ khoá: sở liệu tiếng Việt, chất lượng tốt, điệu, ghép nối Đinh Đồng Lưỡng – Lớp Cao học XLTT&TT 2007 ... XLTT&TT 2007 TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT Trang 39 CHƯƠNG 4: ĐỀ XUẤT VÀ XÂY DỰNG BỘ TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT 4.1 Đề xuất phương án xây dựng tổng hợp tiếng Việt chất lượng tốt Như phân... xây dựng tổng hợp tiếng Việt chất lượng tốt cần thực công việc sau: Xây dựng sở liệu đảm bảo tổng hợp tiếng Việt chất lượng tốt Xử lý phân tích văn tiếng Việt Thực tổng hợp tiếng Việt phương... phát triển tổng hợp tiếng Việt, kế thừa phát huy nghiên cứu trước đó, tơi chọn đề tài ? ?Tổng hợp tiếng Việt chất lượng tốt? ?? Với mong muốn tổng hợp từ tiếng Việt với chất lượng gần tiếng nói tự