ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP BỘ NGHIÊN CỨU CẢI THIỆN CHẤT LƯỢNG TIẾNG NÓI TIẾNG VIỆT DỰA TRÊN MÔ HÌNH XÁC SUẤT

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG BÁO CÁO TĨM TẮT ĐỀ TÀI KHOA HỌC VÀ CƠNG NGHỆ CẤP BỘ NGHIÊN CỨU CẢI THIỆN CHẤT LƯỢNG TIẾNG NĨI TIẾNG VIỆT DỰA TRÊN MƠ HÌNH XÁC SUẤT Mã số: B2016-DNA-38-TT Chủ nhiệm đề tài: TS Ninh Khánh Duy Đà Nẵng, 05/2020 DANH SÁCH NHỮNG THÀNH VIÊN THAM GIA NHỮNG THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI TS Ninh Khánh Duy - Khoa Công nghệ Thông tin, Trường Đại học Bách Khoa, ĐH Đà Nẵng TS Huỳnh Hữu Hưng - Khoa Công nghệ Thông tin, Trường Đại học Bách Khoa, ĐH Đà Nẵng CN Nguyễn Văn Quý - Học viên cao học ngành Khoa học máy tính Khóa 30, Đại học Đà Nẵng ĐƠN VỊ PHỐI HỢP CHÍNH Khơng MỤC LỤC DANH SÁCH NHỮNG THÀNH VIÊN THAM GIA THÔNG TIN KẾT QUẢ NGHIÊN CỨU INFORMATION ON RESEARCH RESULTS MỞ ĐẦU 10 Chương TỔNG HỢP TIẾNG NĨI DÙNG MƠ HÌNH MARKOV ẨN 12 1.1 Tổng quan tổng hợp tiếng nói từ văn 12 1.1.1 Giới thiệu 12 1.1.2 Mô-đun xử lý ngôn ngữ tự nhiên (front-end) 12 1.1.3 Mơ-đun sinh tín hiệu tiếng nói (back-end) 12 1.2 Tổng hợp tiếng nói dựa mơ hình Markov ẩn 12 1.2.1 Giới thiệu 12 1.2.2 Mơ hình tham số để phân tích/tổng hợp tín hiệu tiếng nói 13 1.2.3 Giai đoạn huấn luyện mơ hình 13 1.2.4 Giai đoạn tổng hợp tín hiệu 13 1.3 Kết chương 13 Chương PHÁT TRIỂN MÔ-ĐUN XỬ LÝ NGÔN NGỮ TỰ NHIÊN 14 2.1 Chuẩn hóa văn 14 2.1.1 Giới thiệu 14 2.1.2 Phân lớp ký hiệu dùng quy tắc 14 2.1.3 Khử nhập nhằng khai triển chữ viết tắt dùng học máy 15 2.1.4 Việt hóa cách phát âm từ vựng tiếng Anh 16 2.2 Phân tích ngữ âm tiếng Việt 18 2.3 Tạo nhãn âm vị phụ thuộc ngữ cảnh 18 2.4 Kết chương 18 Chương XÂY DỰNG HỆ THỐNG TỔNG HỢP TIẾNG NÓI THEO PHƯƠNG PHÁP THÍCH NGHI NGƯỜI NĨI 19 3.1 Khảo sát trạng 19 3.2 Hệ thống tổng hợp tiếng nói theo tiếp cận thích nghi người nói 19 3.3 Xây dựng mơ hình thích nghi người nói cho tiếng Việt 20 3.3.1 Thu thập liệu tiếng nói 20 3.3.2 Gán nhãn âm vị phụ thuộc ngữ cảnh 20 3.3.3 Trích xuất tham số tiếng nói 20 3.3.4 Huấn luyện mơ hình giọng trung bình 20 3.3.5 Xây dựng mơ hình thích nghi giọng nói đích 20 3.3.6 Sinh tín hiệu tiếng nói 20 3.3.7 Đánh giá khách quan giọng tổng hợp 20 3.4 Thực nghiệm đánh giá cảm nhận chủ quan 21 3.4.1 Điều kiện thực nghiệm 21 3.4.2 Kết thực nghiệm 21 3.5 Phần mềm tổng hợp tiếng Việt 22 3.6 Kết chương 22 KẾT LUẬN 23 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG THƠNG TIN KẾT QUẢ NGHIÊN CỨU Thơng tin chung: - Tên đề tài: Nghiên cứu cải thiện chất lượng tiếng nói tiếng Việt dựa mơ hình xác suất - Mã số: B2016-DNA-38-TT - Chủ nhiệm đề tài: TS Ninh Khánh Duy - Tổ chức chủ trì: Đại học Đà Nẵng - Thời gian thực hiện: Từ tháng 12 năm 2016 đến tháng 11 năm 2019 Mục tiêu: - Làm rõ ảnh hưởng lên tần số (F0) tượng yết hầu hóa - Xây dựng phần mềm tổng hợp tiếng nói tiếng Việt dựa mơ hình xác suất nhằm xác điệu bị yết hầu hóa Tính sáng tạo: - Đề xuất thuật toán xử lý ngôn ngữ tự nhiên áp dụng cho hệ thống tổng hợp tiếng nói tiếng Việt - Xây dựng hệ tổng hợp tiếng nói tiếng Việt dựa mơ hình xác suất phương pháp thích nghi người nói - Đánh giá hiệu thuật toán đề xuất hệ tổng hợp tiếng nói tiếng Việt phát triển Kết nghiên cứu: - Xây dựng sở liệu tiếng nói người Việt (giọng Hà Nội, gồm nam nữ) - Tích hợp thuật tốn tính F0 tín hiệu bị ảnh hưởng tượng yết hầu hóa vào hệ tổng hợp tiếng nói tiếng Việt dựa mơ hình xác suất phương pháp thích nghi người nói - Đánh giá hiệu thuật toán đề xuất hệ tổng hợp tiếng nói tiếng Việt phát triển - Đề xuất thuật tốn xử lý ngơn ngữ tự nhiên cho hệ thống chuyển văn thành tiếng nói Sản phẩm: a Bài báo đăng kỷ yếu hội thảo quốc tế IEEE (01 báo): - Duy Khanh Ninh, “A speaker-adaptive HMM-based Vietnamese text-tospeech system”, The 11th IEEE International Conference on Knowledge and Systems Engineering (KSE), pp 342-346, 2019 b Bài báo đăng tạp chí khoa học chuyên ngành nước (02 báo): - Ninh Khánh Duy, Nguyễn Văn Quý, “Biểu diễn ngữ cảnh khai triển chữ viết tắt dùng tiếp cận học máy”, Tạp chí khoa học cơng nghệ Đại học Đà Nẵng, số 05(114).2017, trang 31-35, 2017 - Duy Khanh Ninh, “Evaluation of speaker-dependent and average-voice Vietnamese statistical speech synthesis systems”, Tạp chí khoa học cơng nghệ Đại học Đà Nẵng, Vol 17, No 12.1, trang 11-16, 2019 c Bài báo đăng kỷ yếu hội nghị nước (02 báo): - Trieu Thi Ly Ly, Nguyen Van Quy, Ninh Khanh Duy, Huynh Huu Hung, Dang Duy Thang, “Representing context in abbreviation expansion using machine learning approach”, Hội nghị Quốc gia lần thứ X Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), trang 816822, 2017 - Ninh Khánh Chi, Ninh Khánh Duy, “Chuẩn hóa văn tiếng Việt dựa quy tắc”, Hội thảo Khoa học Quốc gia - Công nghệ thông tin Ứng dụng lĩnh vực (CITA), trang 132-138, 2017 d Đào tạo thạc sỹ (04 học viên): INFORMATION ON RESEARCH RESULTS General information: - Project title: A study on improving the quality of Vietnamese speech synthesis system based on statistical model - Code number: B2016-DNA-38-TT - Coordinator: Dr Ninh Khanh Duy - Implementing institution: The University of Danang - Duration: from 12/2016 to 11/2019 Objective(s): - Clarify the impact on fundamental frequency (F0) by glottalization phenomenon - Develop a Vietnamese speech synthesis system based on statistical model to correctly model the glottalized tones Creativeness and innovativeness: - Propose natural language processing algorithms applied to Vietnamese speech synthesis system - Build a statistical model-based Vietnamese speech synthesis system using the speaker-adaptive approach - Assess the effectiveness of the proposed algorithm on the developed Vietnamese speech synthesis system Research results: - Develop a Vietnamese speech database (Hanoi accent, including both male and female voices) - Integrate the F0 estimation algorithm of signals affected by glottalization phenomenon into the statistical model-based Vietnamese speech synthesis system using speaker-adaptive approach - Assess the effectiveness of the proposed algorithm on the developed Vietnamese speech system - Propose natural language processing algorithms for the Vietnamese text- to-speech system Products: a Paper published in proceedings of IEEE’s conference (01 paper): - Duy Khanh Ninh, “A speaker-adaptive HMM-based Vietnamese text-tospeech system”, The 11th IEEE International Conference on Knowledge and Systems Engineering (KSE), pp 342-346, 2019 b Paper published in domestic journals (02 papers): - Ninh Khánh Duy, Nguyễn Văn Quý, “Biểu diễn ngữ cảnh khai triển chữ viết tắt dùng tiếp cận học máy”, Tạp chí khoa học công nghệ Đại học Đà Nẵng, Vol 05(114).2017, pp 31-35, 2017 - Duy Khanh Ninh, “Evaluation of speaker-dependent and average-voice Vietnamese statistical speech synthesis systems”, Tạp chí khoa học công nghệ Đại học Đà Nẵng, Vol 17, No 12.1, pp 11-16, 2019 c Paper published in proceedings of domestic conferences (02 papers): - Trieu Thi Ly Ly, Nguyen Van Quy, Ninh Khanh Duy, Huynh Huu Hung, Dang Duy Thang, “Representing context in abbreviation expansion using machine learning approach”, Hội nghị Quốc gia lần thứ X Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), trang 816822, 2017 - Ninh Khánh Chi, Ninh Khánh Duy, “Chuẩn hóa văn tiếng Việt dựa quy tắc”, Hội thảo Khoa học Quốc gia - Công nghệ thông tin Ứng dụng lĩnh vực (CITA), trang 132-138, 2017 d Master training (04 students graduated): - Nguyễn Văn Quý - Trần Văn Nhuộm - Lê Văn Thức - Trần Văn Tâm e A Vietnamese text-to-speech system based on statistical models (01 software) f A report on the effect of glottalization on fundamental frequency (01 report) Transfer alternatives, application institutions, impacts and benefits of research results: - Research results of the project will be transferred to individuals and organizations interested in text-to-speech technology such as educational institutions for the blind, or training institutions on information and communication technology - We have deployed the Vietnamese text-to-speech system at the DATIC laboratory of the Faculty of Information Technology, University of Science and Technology, The University of Danang - The research results contribute to improving the quality of undergraduate and postgraduate training in the fields of speech processing and natural language processing MỞ ĐẦU Tính cấp thiết đề tài Tổng hợp tiếng nói (THTN) công nghệ cho phép chuyển văn (text) thành tiếng nói cách tự động Cơng nghệ góp phần giúp cho q trình tương tác người máy tính diễn thuận lợi nhờ việc sử dụng giọng nói phương tiện giao tiếp Đặc biệt, hữu ích với người có thị lực hạn chế người tình khơng rảnh tay và/hoặc mắt họ khơng cần phải nhìn vào thao tác hình sử dụng máy tính thiết bị cầm tay Những năm gần đây, THTN dựa mơ hình xác suất, cụ thể mơ hình Markov ẩn (Hidden Markov Model, viết tắt HMM), nghiên cứu ứng dụng rộng rãi chất lượng tiếng nói ổn định dễ dàng chuyển đổi chất giọng với lượng liệu tiếng nói nhỏ Việc áp dụng phương pháp THTN dựa HMM vào tiếng Việt gặp trở ngại lớn, để mơ hình hóa xác điệu bị ảnh hưởng tượng yết hầu hóa q trình phát âm Vì vậy, việc đề xuất phương pháp tính tốn xác tần số (hay F0) tín hiệu bị ảnh hưởng tượng yết hầu hóa cấp thiết để cải thiện chất lượng hệ THTN dựa HMM Mục tiêu đề tài - Làm rõ ảnh hưởng tần số tượng yết hầu hóa - Xây dựng phần mềm tổng hợp tiếng nói tiếng Việt dựa mơ hình xác suất nhằm xác điệu bị yết hầu hóa Đối tượng, phạm vi nghiên cứu Đối tượng nghiên cứu - Cơ sở liệu văn sở liệu tiếng nói gán nhãn để huấn luyện HMM - Hệ thống tự động chuyển văn thành tiếng nói cho tiếng Việt dựa HMM huấn luyện Hệ thống gồm mơ-đun phần mềm chính: phân tích văn tổng hợp tiếng nói - Thuật tốn tính xác tần số (hay F0) đoạn tín hiệu bị ảnh hưởng tượng yết hầu hóa Phạm vi nghiên cứu - Nghiên cứu thiết kế thu thập sở liệu văn tiếng nói áp dụng cho tiếng Việt (giọng Hà Nội chuẩn) - Nghiên cứu thiết kế phát triển hệ thống tự động chuyển văn thành tiếng nói áp dụng cho tiếng Việt - Nghiên cứu đề xuất thuật tốn tính xác tần số (hay F0) đoạn tín hiệu bị ảnh hưởng tượng yết hầu hóa áp dụng cho tiếng Việt ngôn ngữ khác Cách tiếp cận, phương pháp nghiên cứu Cách tiếp cận - Thiết kế sở liệu văn bản, thu âm gán nhãn sở liệu tiếng nói - Xây dựng phần mềm tự động chuyển văn thành tiếng nói cho tiếng Việt - Đề xuất thuật tốn tính xác tần số (hay F0) đoạn tín hiệu bị ảnh hưởng tượng yết hầu hóa - Thử nghiệm, đánh giá hiệu thuật toán đề xuất so với thuật tốn tính F0 điển hình có Phương pháp nghiên cứu - Nghiên cứu phương pháp thiết kế, thu thập, gán nhãn sở liệu văn tiếng nói Từ lựa chọn phương pháp phù hợp để triển khai thực nghiệm 10 - Nghiên cứu lý thuyết học máy thống kê dùng HMM ứng dụng HMM THTN, đồng thời tìm hiểu cơng cụ nguồn mở có sẵn để xây dựng phần mềm THTN cho tiếng Việt - Nghiên cứu thuật tốn tính tần số (hay F0) tín hiệu tiếng nói có, phân tích nhược điểm chúng đề xuất thuật tốn cải tiến độ xác ước lượng F0 - Đánh giá so sánh độ xác thuật tốn đề xuất so với thuật tốn tính F0 điển hình có, khảo sát ảnh hưởng lên chất lượng tiếng nói tổng hợp phép đo khách quan đánh giá chủ quan người dùng thực Nội dung nghiên cứu - Nghiên cứu tổng quan THTN dựa HMM - Thiết kế sở liệu (CSDL) văn tiếng Việt - Thu âm CSDL tiếng nói 02 người Việt (01 nam 01 nữ, giọng Hà Nội) - Gán nhãn CSDL tiếng nói mức âm vị - Viết chương trình huấn luyện HMM sử dụng CSDL tiếng nói gán nhãn - Xây dựng hệ thống THTN tiếng Việt với 02 giọng nam nữ gồm hai mô-đun phần mềm: phân tích văn tổng hợp tiếng nói - Nghiên cứu thuật tốn tính tần số (hay F0) tín hiệu tiếng nói có, phân tích nhược điểm chúng gặp tín hiệu bị yết hầu hóa - Đề xuất cải tiến cài đặt thuật tốn tính F0 tín hiệu bị ảnh hưởng tượng yết hầu hóa - Đánh giá hiệu thuật toán đề xuất hệ THTN tiếng Việt phát triển Cấu trúc báo cáo Báo cáo có bố cục sau Chương trình bày khái quát công nghệ THTN từ văn hai mô-đun cấu thành nên hệ thống THTN cho ngơn ngữ, mơ-đun xử lý ngơn ngữ tự nhiên (front-end) mơđun sinh tín hiệu tiếng nói (back-end) Đồng thời, chương trình bày chi tiết kỹ thuật THTN dựa mơ hình xác suất HMM Một hệ thống THTN dựa HMM điển hình bao gồm hai giai đoạn: huấn luyện mơ hình HMM tổng hợp tín hiệu từ HMM huấn luyện Các lý thuyết liên quan đến hai giai đoạn trình bày chi tiết Chương trình bày thuật tốn đề xuất nhằm phát triển mô-đun xử lý ngôn ngữ tự nhiên (frond-end) cho hệ thống THTN từ văn tiếng Việt Văn đầu vào cần chuẩn hố, sau chuyển thành biểu diễn ngữ âm tương ứng cho câu Biểu diễn ngữ âm chứa thông tin liên quan đến ngữ âm câu nói tổng hợp, ví dụ chuỗi âm vị đặc trưng ngữ điệu câu Cuối cùng, thông tin ngữ âm chuyển thành chuỗi nhãn âm vị phụ thuộc ngữ cảnh câu Do đó, mơ-đun có thiết kế cài đặt phụ thuộc nhiều vào đặc trưng ngữ âm học âm vị học tiếng Việt Các nội dung cụ thể chương gồm: chuẩn hóa văn bản, phân tích ngữ âm, tạo nhãn âm vị phụ thuộc ngữ cảnh áp dụng cho tiếng Việt Chương mô tả nghiên cứu việc phát triển hệ thống chuyển văn thành giọng nói dựa HMM cho tiếng Việt cách sử dụng phương pháp thích nghi người nói (speaker-adaptive) Mặc dù hệ thống phụ thuộc người nói (speaker-dependent) xây dựng rộng rãi, chưa có hệ thống thích nghi người nói phát triển cho tiếng Việt Chi tiết quy trình phát triển hệ thống từ thu thập liệu tiếng nói đến tổng hợp tiếng nói trình bày Bên cạnh đó, ảnh hưởng đặc trưng ngữ cảnh đến chất lượng tiếng nói tổng hợp từ HMM khảo sát Cuối cùng, số thử nghiệm đánh giá cảm nhận chủ quan người nghe thực để so sánh chất lượng phương pháp huấn luyện mơ hình tổng hợp tiếng nói Việc xây dựng chương trình tổng hợp tiếng nói tiếng Việt mơ tả ngắn gọn cuối chương 11 Chương TỔNG HỢP TIẾNG NÓI DÙNG MƠ HÌNH MARKOV ẨN 1.1 Tổng quan tổng hợp tiếng nói từ văn 1.1.1 Giới thiệu Một hệ thống THTN từ văn gồm hai mô-đun: xử lý ngơn ngữ tự nhiên sinh (hay tổng hợp) tín hiệu tiếng nói (Hình 1) Hình Hai mơ-đun hệ thống tổng hợp tiếng nói từ văn Mô-đun xử lý ngôn ngữ tự nhiên (front-end) Mô-đun có nhiệm vụ chuyển văn đầu vào câu thành biểu diễn ngữ âm tương ứng Mô-đun lại thường chia thành thành phần xử lý cách sau (Hình 2): - Chuẩn hố văn bản: chuyển đổi văn thơ chứa từ chưa chuẩn hoá chữ số, chữ viết tắt, từ có nguồn gốc nước ngồi,… thành văn chuẩn hoá chứa từ dạng chữ viết đầy đủ ngơn ngữ - Phân tích ngữ âm: phân tích văn chuẩn hố để trích xuất thơng tin ngữ âm học câu - Tạo nhãn ngữ cảnh (contextual label): âm vị câu gán nhãn nhúng tất thơng tin ngữ âm học trích xuất có liên quan đến âm vị Các thuật tốn xử lý ngơn ngữ tự nhiên áp dụng cho văn tiếng Việt đề xuất trình bày Chương 1.1.2 Hình Mơ-đun xử lý ngôn ngữ tự nhiên (front-end) 1.1.3 Mô-đun sinh tín hiệu tiếng nói (back-end) Mơ-đun có chức chuyển nhãn biểu diễn ngữ âm câu thành tín hiệu tiếng nói, cịn gọi mơ-đun tổng hợp tiếng nói Ngày hai tiếp cận dựa liệu để sinh tín hiệu tiếng nói unit selection synthesis (USS) statistical parametric synthesis (SPS) Do ưu điểm phương pháp SPS, chọn phương pháp để phát triển hệ thống THTN tiếng Việt đề tài Mặc dù có nhiều mơ hình học máy sử dụng, mơ hình Markov ẩn dùng phổ biến nghiên cứu THTN dùng phương pháp SPS Do đó, chúng tơi chọn HMM mơ hình xác suất để sử dụng cho tiếp cận học máy thống kê để giải toán THTN tiếng Việt 1.2 Tổng hợp tiếng nói dựa mơ hình Markov ẩn 1.2.1 Giới thiệu 12 Một hệ thống THTN dựa mơ hình HMM điển hình bao gồm hai phần: huấn luyện mơ hình (training) tổng hợp tín hiệu (synthesis), thể Hình Hình Sơ đồ khối hệ thống THTN dựa mô hình HMM Mơ hình tham số để phân tích/tổng hợp tín hiệu tiếng nói Các nghiên cứu phân tích/tổng hợp tín hiệu tiếng nói dựa mơ hình nguồn-bộ lọc mô cách phát âm người 1.2.3 Giai đoạn huấn luyện mơ hình Phần mơ tả cách tham số phổ, F0 trường độ mơ hình hố đồng thời tảng hợp mơ hình HMM theo tiêu chuẩn cực đại hố xác suất (Maximum Likelihood) mà mơ hình (được giả định là) sinh liệu huấn huyện 1.2.4 Giai đoạn tổng hợp tín hiệu Trong giai đoạn tổng hợp tín hiệu, văn đầu vào chuyển thành chuỗi nhãn âm vị phụ thuộc vào ngữ cảnh (context-based label sequence) mô-đun xử lý ngôn ngữ tự nhiên (mô-đun frond-end) Dựa vào chuỗi nhãn này, HMM mức câu tạo cách ghép nối HMM mức âm vị tương ứng Sau đó, độ dài trạng thái HMM mức câu tính tốn để tối đa hóa xác suất độ dài trạng thái chuỗi trạng thái Dựa độ dài trạng thái thu được, chuỗi hệ số mel-cepstral giá trị F0 sinh cho cực đại hoá xác suất đầu chúng với HMM mức câu Cuối cùng, lọc MLSA sử dụng để tổng hợp dạng sóng tín hiệu tiếng nói từ chuỗi mel-cepstral đường F0 có 1.2.2 1.3 Kết chương Chương trình bày khái quát công nghệ THTN từ văn hai mô-đun cấu thành nên hệ thống THTN cho ngơn ngữ, mơ-đun xử lý ngơn ngữ tự nhiên (front-end) mơ-đun sinh tín hiệu tiếng nói (back-end) Đồng thời, chương trình bày chi tiết kỹ thuật THTN dựa mơ hình xác suất HMM Một hệ thống THTN dựa HMM điển hình bao gồm hai giai đoạn: huấn luyện mơ hình HMM tổng hợp tín hiệu từ HMM huấn luyện Việc huấn luyện mơ hình HMM tiến hành dựa chuỗi tham số phổ tần số (F0) trích xuất từ tín hiệu tiếng nói CSDL Các nghiên cứu nhằm đề xuất hướng xử lý cụ thể cho tiếng Việt đề cập chương 13 Chương PHÁT TRIỂN MÔ-ĐUN XỬ LÝ NGÔN NGỮ TỰ NHIÊN Chương trình bày thuật tốn nhằm phát triển mơ-đun xử lý ngôn ngữ tự nhiên (frondend) cho hệ thống THTN từ văn tiếng Việt 2.1 Chuẩn hóa văn 2.1.1 Giới thiệu Hình trình bày thuật tốn chuẩn hoá văn thiết kế cho toán THTN tiếng Việt chúng tơi tự đề xuất Hình Sơ đồ khối thuật toán chuẩn hoá văn Các phần trình bày cách thức xây dựng đánh giá phân lớp ký hiệu, thuật toán khử nhập nhằng để khai triển chữ viết tắt, giải pháp Việt hóa cách phát âm từ vựng tiếng Anh văn tiếng Việt 2.1.2 Phân lớp ký hiệu dùng quy tắc 2.1.2.1 Đặt vấn đề Để chuẩn hóa văn bản, máy tính cần phân lớp thẻ (token) văn vào lớp ký hiệu người sử dụng, gọi phân lớp ký hiệu Để phân lớp ký hiệu cho thẻ thơng tin thẻ khác xuất câu với thẻ (gọi ngữ cảnh) đóng vai trị thiết yếu Ngữ cảnh đặc trưng thẻ lân cận từ khóa mang thơng tin hỗ trợ việc phân lớp ký hiệu 2.1.2.2 Các đặc trưng thẻ Error! Reference source not found liệt kê vài đặc trưng thường sử dụng để phân l ớp ký hiệu Một thẻ gán nhiều đặc trưng Tổng cộng thiết kế 22 đặc trưng (17 thuộc nhóm khơng liệt kê thuộc nhóm liệt kê được) Kết thẻ câu gắn với vec-tơ đặc trưng có 22 chiều, thành phần vec-tơ tùy thuộc vào thẻ xét có đặc trưng hay khơng 2.1.2.3 Các lớp ký hiệu Chúng định nghĩa 24 lớp ký hiệu dùng để phân lớp thẻ Error! Reference s ource not found Các lớp bao phủ toàn ký hiệu văn tiếng Việt 14 2.1.2.4 Quy tắc phân lớp Chúng sử dụng hai loại quy tắc mô tả để phân lớp ký hiệu cho thẻ dựa ngữ cảnh nó, đồng thời đề xuất bổ sung thông tin độ tin cậy quy tắc để xếp thứ tự ưu tiên lớp trường hợp thẻ gán cho nhiều lớp khác a Quy tắc phân lớp dựa ngữ cảnh tức thời Quy tắc loại có dạng: B/A/C d, nghĩa thẻ A phân lớp vào lớp d đứng liền trước thẻ B đứng liền sau thẻ C b Quy tắc phân lớp dựa từ khóa xuất câu Quy tắc loại có dạng: A|T d, nghĩa thẻ A phân lớp vào lớp d câu có diện từ khóa T Trong nghiên cứu này, thiết kế tổng cộng gồm 72 qui tắc để thực phân lớp ký hiệu 2.1.2.5 Thuật toán phân lớp ký hiệu Sơ đồ khối thuật tốn phân lớp ký hiệu trình bày Hình Hình Sơ đồ khối thuật tốn phân lớp ký hiệu 2.1.2.6 Đánh giá độ xác phân lớp Để đánh giá độ xác phân lớp, thu thập liệu văn từ hai trang báo điện tử vnexpress.net dantri.com.vn thuộc 16 chủ đề khác Có thể thấy độ xác phân lớp cao, đạt 90% 17 tổng số 22 lớp ký hiệu Tuy nhiên, có hai trường hợp độ xác thấp lớp định danh (IDEN) đạt 72,2% lớp phạm vi số (NRNG) đạt 66,7% 2.1.3 Khử nhập nhằng khai triển chữ viết tắt dùng học máy 2.1.3.1 Đặt vấn đề Chúng đề xuất thuật tốn khai triển CVT Hình Ý tưởng thuật tốn ưu tiên tìm kiếm khai triển lân cận CVT văn bản, khơng tìm thấy tìm kiếm từ điển CVT Nếu có nhiều khai triển từ điển xử lý nhập nhằng để tìm khai triển tối ưu Do tốn tìm kiếm khảo sát nhiều nghiên cứu trước, tập trung giải vấn đề khử nhập nhằng có nhiều khai triển cho CVT báo Một ví dụ điển hình chọn lựa hai khai triển, “bài hát u thích” hay “bảo hiểm y tế”, để chuẩn hóa cho CVT “BHYT” 15 Hình Sơ đồ khối thuật toán khai triển chữ viết tắt 2.1.3.2 Khử nhập nhằng khai triển CVT dùng tiếp cận học máy Để khử nhập nhằng khai triển CVT, chọn tiếp cận học máy để đưa lựa chọn khai triển tối ưu tập hợp khai triển CVT Ở tốn khử nhập nhằng xem tốn phân lớp Chúng tơi chọn phân lớp Nạve Bayes cho nghiên cứu tính phổ dụng dễ cài đặt Chúng tơi tiến hành thử nghiệm huấn luyện kiểm chứng phân lớp Naïve Bayes với hai phương pháp biểu diễn ngữ cảnh: Bag-of-words Doc2vec Số chiều vec-tơ đặc trưng dùng mơ hình biểu diễn ngữ cảnh 100 Bảng thể kết độ xác khai triển CVT Có thể thấy Bag-of-words cho tỉ lệ khai triển xác cao Doc2vec trường hợp Độ xác trung bình Bag-of-words 86,0% Doc2vec 79,7% Bảng Độ xác khai triển CVT dùng mơ hình biểu diễn ngữ cảnh: Bag-of-words Doc2vec Bag-ofĐộ xác STT CVT Khai triển Doc2vec words trung bình hát yêu thích BHYT 98,0% 98,0% 98,0% bảo hiểm y tế nghệ sĩ NS 77,5% 74,5% 76,0% nhạc sĩ phát truyền hình PTTH 83,7% 69,4% 76,5% phổ thơng trung học thi hành án THA 93,3% 90,0% 91,7% tăng huyết áp khoa học KH 77,8% 66,7% 72,2% kế hoạch Trung bình 86,0% 79,7% 82,9% 2.1.4 Việt hóa cách phát âm từ vựng tiếng Anh 2.1.4.1 Đặt vấn đề Trong hệ chuyển văn tiếng Việt thành tiếng nói, từ viết tiếng nước ngồi cần Việt hóa cách phát âm để máy tính chuyển thành tiếng nói người Việt Vì vậy, 16 nhóm chúng tơi tiến hành nghiên cứu xây dựng thành công công cụ tự động phiên âm từ vựng tiếng Anh thành chuỗi âm tiết tiếng Việt, hay nói cách khác Việt hóa cách phát âm từ vựng tiếng Anh Trong q trình nghiên cứu, chúng tơi sử dụng hỗ trợ từ số công cụ như: từ điển CMU, công cụ t2p (text-to-phoneme)… theo Bảng ký hiệu ngữ âm quốc tế - IPA (International Phonetic Alphabet) Với cách tiếp cận việc nghiên cứu tương đồng phát âm ngữ âm tiếng Anh tiếng Việt với quy tắc ghép âm, điệu tiếng Việt, nhóm nghiên cứu triển khai thuật toán tách chuỗi âm vị tiếng Anh thành âm tiết phát âm tiếng Việt ánh xạ âm vị tiếng Anh CMU sang âm vị tiếng Việt IPA Từ áp dụng kỹ kỹ thuật lập trình để xây dựng thành cơng cơng cụ Việt hóa cách phát âm từ vựng tiếng Anh 2.1.4.2 Giải pháp Hình trình bày mơ hình tổng qt trình tự thực cơng cụ chúng tơi xây dựng Hình Mơ hình chuyển từ tiếng Anh sang chuỗi âm tiết tiếng Việt Kết thực nghiệm Chúng tiến hành thử nghiệm việc phiên âm từ tiếng Anh sang tiếng Việt dựa phương pháp đề Kết thực thể Bảng Bảng Kết phiên âm từ Tiếng Anh thông dụng Phiên âm IPA Phát âm tiếng Phát âm tiếng Việt Phiên âm công cụ Từ tiếng Anh (theo từ điển Việt tìm thường dùng t2p Oxford) FACEBOOK /ˈfeɪsbʊk/ F EY S _ B _ _ K phây sơ bơ phây búc SMARTPHONE /ˈsmɑːrtfoʊn/ S M AA R T F _ OW N xơ mát phâu nơ xờ mát phôn _ ROBOT /ˈroʊbɑːt/ R OW B AA T râu bát rô bốt 2.1.4.3 17 Phiên âm IPA (theo từ điển Oxford) MODEL /ˈmɑːdl/ GOOGLE /ˈɡuːɡl/ MICROPHONE /ˈmaɪkrəfoʊn/ Từ tiếng Anh LIVESTREAM THAILAND INTERNET SERVER CLIENT VALENTINE COMMENT OVERNIGHT CONFIRM /ˈlaɪv striːm/ /ˈtaɪlænd/ /ˈɪntərnet/ /ˈsɜːrvər/ /ˈklaɪənt/ /ˈvỉləntaɪn/ /ˈkɑːment/ /ˌoʊvərˈnaɪt/ /kənˈfɜːrm/ Phiên âm cơng cụ t2p M AA D AH L G UW _ G AH L M AY K R AH F _ OW N_ L IH V _ S T R IY _ M _ _ _ AY L AE N D IH N T _ ER N EH T S _ ER V _ ER K L AY AH N T V AE L AH N T IY N _ K AH M _ EH N T OW V _ ER N AY _ _ T K AH N F _ ER M Phát âm tiếng Việt tìm Phát âm tiếng Việt thường dùng ma lơ gu gơ lơ mai rơ phâu nơ li vơ sơ tơ rim len in tơ nét sơ vơ lai ân tơ ve lân tin men tơ âu vơ nai tơ cân phơm mô đồ gu gồ mai cờ rô phôn lai xờ trim thái lan in tơ nét sơ vờ cờ lai ần va len thai còm men âu vờ nai cịn phơm 2.2 2.3 Phân tích ngữ âm tiếng Việt Tạo nhãn âm vị phụ thuộc ngữ cảnh Mỗi âm vị câu gán nhãn nhúng thông tin ngữ cảnh âm vị câu Thơng tin ngữ cảnh âm vị chứa tồn yếu tố ảnh hưởng đến đặc trưng âm học âm vị Các yếu tố ngữ cảnh liệt kê nhiều mức sau: • Mức âm vị (phoneme): Âm vị tại, hai âm vị đứng trước, hai âm vị đứng sau Vị trí âm vị âm tiết • Mức âm tiết (syllable): Thanh điệu âm tiết {hiện tại, trước, sau} Số lượng âm vị âm tiết {hiện tại, trước, sau} Vị trí âm tiết từ • Mức từ (word): Số lượng âm tiết từ {hiện tại, trước, sau} Vị trí từ cụm từ • Mức cụm từ (phrase): Số lượng {âm tiết, từ} cụm từ {trước, tại, sau} Vị trí cụm từ câu • Mức câu (sentence): Số lượng {âm tiết, từ, cụm từ} câu 2.4 Kết chương Chương trình bày thuật tốn nhằm cài đặt mô-đun xử lý ngôn ngữ tự nhiên (frondend) cho hệ thống THTN từ văn tiếng Việt Văn đầu vào cần chuẩn hố, sau chuyển thành biểu diễn ngữ âm tương ứng cho câu Biểu diễn ngữ âm chứa thông tin liên quan đến ngữ âm câu nói tổng hợp, ví dụ chuỗi âm vị đặc trưng ngữ điệu câu Cuối cùng, thông tin ngữ âm chuyển thành chuỗi nhãn âm vị phụ thuộc ngữ cảnh câu Chuỗi nhãn âm vị phụ thuộc ngữ cảnh đầu vào cho mơ-đun tổng hợp tiếng nói dùng HMM chương sau 18 Chương XÂY DỰNG HỆ THỐNG TỔNG HỢP TIẾNG NĨI THEO PHƯƠNG PHÁP THÍCH NGHI NGƯỜI NĨI 3.1 Khảo sát trạng Mặc dù hệ thống TTS dựa HMM phụ thuộc vào người nói xây dựng rộng rãi, khơng có hệ thống dựa giọng trung bình phát triển cho tiếng Việt Chương trình bày nỗ lực việc phát triển đánh giá hệ TTS tiếng Việt dựa HMM cách sử dụng phương pháp thích nghi người nói Chúng tơi thu thập liệu lời nói từ số người nói giọng chuẩn Hà Nội sử dụng kỹ thuật tiên tiến phân tích tiếng nói, huấn luyện mơ hình kỹ thuật huấn luyện thích nghi để phát triển hệ thống Ngồi ra, chúng tơi thực thử nghiệm đánh giá cảm nhận chủ quan để so sánh chất lượng giọng nói thích nghi dựa mơ hình giọng trung bình giọng nói phụ thuộc người nói xây dựng mơ hình phụ thuộc người nói, để xác nhận ảnh hưởng ranh giới từ (word boundary) thông tin từ loại (part-of-speech) chất lượng tiếng nói tổng hợp 3.2 Hệ thống tổng hợp tiếng nói theo tiếp cận thích nghi người nói Hình minh họa hệ thống TTS dựa HMM sử dụng phương pháp thích nghi người nói (cịn gọi phương pháp giọng trung bình) Mặc dù giai đoạn tổng hợp tương tự phương pháp phụ thuộc người nói, giai đoạn huấn luyện thích nghi với mục đích xây dựng mơ hình thích nghi người nói để tổng hợp điểm khác hai phương pháp Hình Hệ thống TTS theo tiếp cận thích nghi người nói 19 3.3 Xây dựng mơ hình thích nghi người nói cho tiếng Việt 3.3.1 Thu thập liệu tiếng nói 3.3.2 Gán nhãn âm vị phụ thuộc ngữ cảnh 3.3.3 Trích xuất tham số tiếng nói 3.3.4 Huấn luyện mơ hình giọng trung bình 3.3.5 Xây dựng mơ hình thích nghi giọng nói đích 3.3.6 Sinh tín hiệu tiếng nói 3.3.7 Đánh giá khách quan giọng tổng hợp Mô-đun xử lý ngôn ngữ tự nhiên phát triển Chương dùng để trích xuất nhãn theo ngữ cảnh từ văn đầu vào Mơ-đun tổng hợp tiếng nói phát triển dựa HTS toolkit, từ hai giọng nói tổng hợp phù hợp với hai người nói đích tạo Hình Hình 10 cho thấy ảnh phổ, đường F0 tín hiệu tự nhiên tổng hợp giọng nam ứng với câu “Các bạn trẻ định có nhiều hội” liệu kiểm thử người nam Có thể thấy đặc trưng phổ F0 tiếng nói tổng hợp giống với đặc trưng tiếng nói tự nhiên Hình Ảnh phổ, đường F0 tín hiệu tự nhiên giọng nam Hình 10 Ảnh phổ, đường F0 tín hiệu tổng hợp giọng nam 20 3.4 Thực nghiệm đánh giá cảm nhận chủ quan 3.4.1 Điều kiện thực nghiệm Chúng thực số thử nghiệm đánh giá cảm nhận chủ quan để so sánh chất lượng mơ hình giọng thích nghi người nói (speaker-adapted hay SA) (xây dựng phương pháp huấn luyện thích nghi người nói) mơ hình giọng phụ thuộc người nói (speaker-dependent hay SD) (xây dựng phương pháp huấn luyện phụ thuộc người nói) Ngồi ra, muốn xác nhận ảnh hưởng ranh giới từ (word boundary hay WB) từ loại (part-of-speech hay POS) chất lượng giọng SD thông tin liên quan thêm vào nhãn ngữ cảnh Danh sách mơ hình giọng xây dựng với phương pháp huấn luyện tập đặc trưng ngữ cảnh khác liệt kê Bảng Bảng Các mơ hình xây dựng với phương pháp huấn luyện đặc trưng ngữ cảnh Mơ hình giọng Phương pháp huấn luyện Đặc trưng ngữ cảnh thích nghi người nói SA Tập giới hạn (SAT + SMAPLR) SD phụ thuộc người nói Tập giới hạn Tập giới hạn + SD_WB phụ thuộc người nói đặc trưng ranh giới từ (WB) Tập giới hạn + SD_WB_POS phụ thuộc người nói đặc trưng ranh giới từ (WB) + đặc trưng từ loại (POS) 3.4.2 Kết thực nghiệm Hình 11 biểu diễn điểm MOS trung bình 09 người nghe Có thể thấy giọng nói tự nhiên (Natural) đánh giá từ tốt đến xuất sắc, giọng nói tổng hợp đánh giá từ đến tốt Trong số giọng nói tổng hợp, giọng SA đạt từ 4,0 đến 4,5 điểm theo thang MOS, giọng SD nằm khoảng từ 3,5 đến 4,0 điểm Kết đánh giá cho thấy: - Giọng SA có độ tự nhiên cao đáng kể so với giọng SD (khoảng 0,5 điểm thang MOS) huấn luyện với tập ngữ cảnh giới hạn (khơng có WB POS) - Giọng SA huấn luyện với tập ngữ cảnh giới hạn đánh giá có chất lượng tốt giọng SD huấn luyện với tập ngữ cảnh đầy đủ bao gồm WB POS (từ 0,3 đến 0,4 điểm theo thang MOS) - Nếu xem xét riêng giọng SD, việc đưa thêm đặc trưng WB POS vào nhãn ngữ cảnh giúp cải thiện khơng đáng kể tính tự nhiên tiếng nói tổng hợp (từ 0,1 đến 0,2 điểm thang MOS) 4.78 4.66 MOS score 4.5 4.33 4.12 3.72 3.63 3.5 3.82 3.92 4.03 Natural SA SD 3.47 SD_WB SD_WB_POS Female Male Hình 11 Điểm MOS trung bình giọng nói khác hai người nói đích 21 3.5 Phần mềm tổng hợp tiếng Việt Chúng xây dựng chương trình tổng hợp tiếng nói tiếng Việt với giao diện Hình 12 Ngơn ngữ lập trình sử dụng Python phiên Chúng dùng Kivy, opensource cross-platform Python framework để tạo GUI (Graphic User Interface) cho ứng dụng Người dùng cần nhập văn vào ô “Văn cần tổng hợp” sau bấm nút “Tổng hợp tiếng nói” chương trình bắt đầu hoạt động Hệ thống sinh nhãn âm vị phụ thuộc ngữ cảnh ô “Nhãn ngữ cảnh” tạo âm tổng hợp phát loa Người dùng tăng độ lớn âm lượng tốc độ nói hệ thống đọc câu đó, hiệu chỉnh có hiệu lực câu Hình 12 Giao diện chương trình tổng hợp tiếng Việt Việc sinh nhãn âm vị phụ thuộc ngữ cảnh từ văn đầu vào theo thuật tốn trình bày Chương Việc sinh tín hiệu tiếng nói thực nhờ hts_engine API Môđun mã nguồn mở viết ngôn ngữ C nhận đầu vào nhãn ngữ cảnh vừa tạo mơ hình giọng huấn luyện để sinh tín hiệu tiếng nói tương ứng 3.6 Kết chương Chương trình bày thử nghiệm việc phát triển đánh giá hệ thống tổng hợp tiếng nói tiếng Việt dựa HMM cách sử dụng phương pháp thích nghi người nói Chi tiết quy trình phát triển hệ thống từ thu thập liệu tiếng nói đến tổng hợp tiếng nói mơ tả Được xây dựng dựa liệu tiếng nói nhiều người với giọng Hà Nội, hệ thống TTS dựa thích nghi mơ hình giọng trung bình chúng tơi đạt điểm trung bình cao 4,0 điểm theo thang MOS Bên cạnh đó, ảnh hưởng đặc trưng ngữ cảnh WB POS đến chất lượng tiếng nói tổng hợp từ HMM khảo sát Các kết đánh giá cho thấy hiệu phương pháp huấn luyện thích nghi người nói so với phương pháp huấn luyện phụ thuộc người nói Việc sử dụng mơ hình giọng trung bình cho thấy bù đắp cho việc thiếu thông tin ngữ cảnh liên quan đến WB POS Điều giúp đơn giản hố việc phát triển mơ-đun xử lý ngơn ngữ tự nhiên trình xây dựng hệ thống tổng hợp tiếng nói từ văn 22 KẾT LUẬN Trong nghiên cứu này, chúng tơi trình bày quy trình xây dựng hệ thống tổng hợp tiếng nói cho tiếng Việt gồm: phát triển mô-đun xử lý ngôn ngữ tự nhiên (frond-end) huấn luyện mơ hình xác suất HMM cho mơ-đun sinh tín hiệu tiếng nói (back-end) Đối với mô-đun xử lý ngôn ngữ tự nhiên, nghiên cứu đề xuất cài đặt thuật toán để chuẩn hoá văn đầu vào, gồm: - Thuật toán phân lớp ký hiệu dùng quy tắc chúng tơi tự thiết kế (phần 2.1.2) - Thuật tốn khử nhập nhằng khai triển chữ viết tắt dùng phân lớp Nạve Bayes (phần 2.1.3) - Thuật tốn Việt hóa cách phát âm từ vựng tiếng Anh văn (phần 2.1.4) Ngồi ra, chúng tơi đề xuất thuật toán chuyển âm tiết thành chuỗi âm vị (phần 2.2.6) để tạo nhãn âm vị phụ thuộc ngữ cảnh (phần 2.3) Đối với mơ-đun sinh tín hiệu tiếng nói, chúng tơi thử nghiệm huấn luyện mơ hình HMM sử dụng phương pháp thích nghi người nói thực đánh giá hiệu phương pháp Chương 3, cụ thể là: - Xây dựng liệu tiếng nói người Việt gồm 08 giọng Hà Nội, nam nữ Mỗi người thu âm khoảng tín hiệu tiếng nói - Tích hợp thuật tốn tính F0 tín hiệu bị ảnh hưởng tượng yết hầu hóa vào giai đoạn trích xuất tham số tiếng nói - Triển khai phương pháp huấn luyện mơ hình thích nghi người nói liệu tiếng Việt - Đánh giá hiệu phương pháp huấn luyện thích nghi người nói hệ thống tổng hợp tiếng nói tiếng Việt phát triển Kết đánh giá thang MOS cho thấy hệ thống dựa thích nghi mơ hình giọng trung bình chúng tơi có chất lượng tốt cho giọng nam nữ, có chất lượng cao hệ thống dựa mơ hình phụ thuộc người nói dù sử dụng đặc trưng ngữ cảnh Các kết nghiên cứu bước đầu sở để thực nghiên cứu tối ưu hoá tốn tổng hợp tiếng nói cho tiếng Việt hệ thống có tài nguyên hạn chế, tổng hợp tiếng nói từ văn tiếng Việt có pha lẫn từ nước ngoài, đặc biệt từ tiếng Anh 23 ... hợp tiếng nói tiếng Việt dựa mơ hình xác suất phương pháp thích nghi người nói - Đánh giá hiệu thuật toán đề xuất hệ tổng hợp tiếng nói tiếng Việt phát triển Kết nghiên cứu: - Xây dựng sở liệu tiếng. .. hóa cấp thiết để cải thiện chất lượng hệ THTN dựa HMM Mục tiêu đề tài - Làm rõ ảnh hưởng tần số tượng yết hầu hóa - Xây dựng phần mềm tổng hợp tiếng nói tiếng Việt dựa mơ hình xác suất nhằm xác. .. Tên đề tài: Nghiên cứu cải thiện chất lượng tiếng nói tiếng Việt dựa mơ hình xác suất - Mã số: B2016-DNA-38-TT - Chủ nhiệm đề tài: TS Ninh Khánh Duy - Tổ chức chủ trì: Đại học Đà Nẵng - Thời gian