Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường.
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI Phạm Văn Đồng NGHIÊN CỨU TỔNG HỢP TIẾNG NĨI CHO NGƠN NGỮ ÍT NGUỒN TÀI NGUN THEO HƯỚNG THÍCH NGHI, ỨNG DỤNG VỚI TIẾNG MƯỜNG Ngành: Khoa học máy tính Mã số: 9480101 TĨM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà Nội - 2023 Cơng trình hồn thành : Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: TS Mạc Đăng Khoa PGS TS Trần Đỗ Đạt Phản biện 1: …………………………………………… Phản biện 2: …………………………………………… Phản biện 3: …………………………………………… Luận án bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Đại học Bách khoa Hà Nội họp Đại học Bách khoa Hà Nội Vào hồi… giờ… phút, ngày…… tháng……năm …… Có thể tìm hiểu luận án thư viện : Thư viện Tạ Quang Bửu – ĐHBK Hà Nội Thư viện Quốc gia Việt Nam GIỚI THIỆU Động lực nghiên cứu Công nghệ xử lý giọng nói ngày cần thiết nhiều khía cạnh tương tác người máy Nhiều hệ thống tương tác giọng nói gần giới thiệu, cho phép người dùng giao tiếp với thiết bị nhiều tảng khác nhau, chẳng hạn điện thoại thông minh (Apple Siri, Google Cloud, Amazon Alexa, v.v.), ô tô thông minh (BMW, Ford, v.v.), nhà thông minh Trong hệ thống này, thành phần quan trọng tổng hợp giọng nói chuyển văn thành giọng nói (Text-To-Speech - TTS), chuyển đổi văn đầu vào thành giọng nói Phát triển hệ thống tổng hợp tiếng nói cho ngơn ngữ khơng việc thực kỹ thuật xử lý tiếng nói mà cịn địi hỏi nghiên cứu ngơn ngữ ngữ âm, âm vị học, cú pháp ngữ pháp Theo số liệu thống kê ấn thứ 25 Ethnologue1 (được coi nguồn thơng tin tồn diện thống kê ngơn ngữ), có khoảng 7.151 ngơn ngữ tồn giới, thuộc 141 họ ngôn ngữ, có khoảng 2.982 ngơn ngữ khơng có chữ viết Một số ngôn ngữ chưa mô tả tài liệu học thuật, chẳng hạn tiếng địa phương dân tộc thiểu số Các phương pháp học máy dựa liệu lớn áp dụng cho ngơn ngữ có tài ngun giới hạn Đặc biệt với ngơn ngữ khơng có chữ viết, công nghệ xử lý ngôn ngữ hồn tồn khơng thể áp dụng trực tiếp Lĩnh vực xử lý ngơn ngữ tài ngun/chưa có chữ viết, bắt đầu ý vài năm trở lại chưa có nhiều kết Tuy nhiên, kết nghiên cứu lĩnh vực cần thiết ngồi việc đưa cơng nghệ truyền thơng giọng nói đến với cộng đồng dân tộc thiểu số, sản phẩm ứng dụng công nghệ cần thiết Nó góp phần bảo tồn ngôn ngữ dần bị biến Đối với lĩnh vực ngơn ngữ xử lý tiếng nói tiếng Việt, đơn vị nghiên cứu nước trọng đến nhiều khía cạnh, từ vấn đề xử lý ngôn ngữ tự nhiên xử lý văn bản, tách phần cú pháp ngữ nghĩa đến vấn đề xử lý tiếng nói tổng hợp nhận dạng Tuy nhiên, vấn đề xử lý ngôn ngữ tiếng nói, bao gồm hệ thống tổng hợp tiếng nói cho ngơn ngữ thiểu số khơng có hệ thống chữ viết Việt Nam, chưa nhận nhiều ý khan nguồn liệu liệu văn song ngữ liệu tiếng nói, thiếu nghiên cứu ngơn ngữ liên quan Tiếng Mường có đặc điểm ngôn ngữ riêng biệt khiến cho việc phát triển hệ thống tổng hợp tiếng nói trở nên khó khăn, chẳng hạn tính điệu cấu trúc âm vị phức tạp Tuy nhiên tiếng Mường ngôn ngữ họ gần với tiếng Việt, luận án tập trung vào phát triển hệ thống tổng hợp tiếng nói cho ngơn ngữ nguồn tài nguyên, tập trung ứng dụng cụ thể cho tiếng Mường, ngôn ngữ thiểu số Việt Nam mà cịn chưa có chữ viết thức (chỉ có phương ngữ Mường Hịa Bình có hệ thống chữ viết vào năm 2016) Lĩnh vực nghiên cứu không mẻ Việt Nam mà giới, việc phát triển hệ thống tổng hợp tiếng nói cho tiếng Mường khơng cung cấp cống hiến quan trọng cho việc bảo tồn, mà cịn kích thích phát triển ngơn ngữ này, ngôn ngữ đứng trước nguy bị tuyệt chủng Các thách thức Tổng hợp giọng nói cho ngơn ngữ tài ngun đặt nhiều thách thức lớn, chủ yếu nguồn liệu kiến thức ngôn ngữ Tài nguyên hạn chế làm cho việc huấn luyện hệ thống tổng hợp tiếng nói đạt chất lượng tổng hợp giọng nói cao trở nên khó khăn Hơn nữa, thiếu nghiên cứu ngơn ngữ ngơn ngữ làm tình hình trở nên khó khăn hơn, chúng cung cấp thơng tin quan trọng cho việc xây dựng hệ thống tổng hợp tiếng nói Mục tiêu https://www.ethnologue.com/ethnoblog/gary-simons/welcome-25th-edition Luận án nhằm phát triển hệ thống tổng hợp tiếng nói cho ngơn ngữ thiếu nguồn tài ngun, tập trung vào tiếng Mường, cách sử dụng kỹ thuật thích nghi Chúng tơi phân loại ngơn ngữ thiếu nguồn tài nguyên thành hai nhóm cho nhóm, chúng tơi cố gắng áp dụng phương pháp phù hợp để tạo hệ thống tổng hợp tiếng nói: • Nhóm ngơn ngữ thiếu nguồn tài ngun có hệ thống chữ viết: Sử dụng phương pháp giả lập đầu vào phương pháp thích nghi để tăng cường tài ngun ngơn ngữ có sẵn • Nhóm ngơn ngữ thiếu nguồn tài ngun khơng có hệ thống chữ viết: Đề xuất sử dụng biểu diễn trung gian sử dụng văn từ ngôn ngữ giàu nguồn lực để thu hẹp khoảng cách tài nguyên ngôn ngữ Như vậy, luận án nhằm làm cho công nghệ tổng hợp tiếng nói trở nên dễ dàng tiếp cận ngôn ngữ nghèo tài nguyên, mở rộng ứng dụng thúc đẩy giao tiếp cộng đồng ngôn ngữ đa dạng Điều làm cho việc phát triển ứng dụng cho đài phát tiếng Mường báo tiếng Mường từ văn tiếng Việt trở nên khả thi Giới hạn phạm vi nghiên cứu Luận án phân loại ngôn ngữ thiếu nguồn lực thành hai loại: Có hệ thống chữ viết hệ thống chưa có chữ viết Tiếng Mường đối tượng nghiên cứu hai trường hợp: • Có hệ thống chữ viết: Sẽ nghiên cứu phương ngữ Mường Bi Hịa Bình, phương ngữ có hệ thống chữ viết từ năm 2016 • Khơng có hệ thống chữ viết: Sẽ nghiên cứu phương ngữ Mường Phú Thọ, chưa có hệ thống chữ viết, để đối sánh kết quả, phương ngữ Mường Bi thí nghiệm Ở khu vực khác, người Mường không sử dụng chữ viết Họ thường đọc trực tiếp từ văn tiếng Việt chuyển đổi thành giọng nói tiếng Mường để phát giao tiếp Nghiên cứu nhằm giải thách thức cải thiện tính khả dụng cơng nghệ tổng hợp tiếng nói cho trường hợp tiếng Mường có hệ thống chữ viết trường hợp tiếng Mường chưa có hệ thống chữ viết Ngồi ra, luận án thực phạm vi phối hợp với đề tài ĐLCN.20/17: "Nghiên cứu xây dựng hệ dịch tự động văn tiếng Việt tiếng nói tiếng Mường, hướng đến áp dụng cho ngôn ngữ dân tộc thiểu số chưa có chữ viết Việt Nam" Chúng tham gia sử dụng số phần việc dự án bao gồm: • Dữ liệu ghi âm giọng nói từ hai phiên Mường Hịa Bình Mường Phú Thọ • Cơng cụ dịch máy chuyển đổi văn tiếng Việt sang biểu diễn trung gian tiếng Mường Ngược lại, kết nghiên cứu luận án áp dụng tích hợp thành cơng vào dự án trên, chứng tỏ giá trị thực tiễn công việc thực luận án Đóng góp Luận án đề xuất đóng góp quan trọng sau đây: • Đóng góp đầu tiên: Đề xuất thử nghiệm thành công phương pháp việc tổng hợp tiếng nói cho ngơn ngữ khơng có hệ thống chữ viết, với trường hợp ứng dụng cụ thể tiếng Mường • Đóng góp thứ hai: Nghiên cứu thực nghiệm phương pháp tổng hợp tiếng nói thích nghi cho ngơn ngữ nguồn tài ngun có hệ thống chữ viết ứng dụng cho tiếng Mường Bi, tỉnh Hịa Bình Ngồi hai đóng góp đề cập trên, nghiên cứu so sánh tiếng Việt tiếng Mường, đưa nhiều kết luận có giá trị cho nghiên cứu ngữ âm học xử lý ngôn ngữ tự nhiên Chúng chia sẻ nhiều tài liệu tham khảo công cụ xử lý văn từ vựng tiếng Việt tiếng Mường Cấu trúc luận án Luận án phân thành ba phần sáu chương, tổ chức sau: PHẦN 1: NỀN TẢNG VÀ CƠNG TRÌNH LIÊN QUAN • Chương 1, có tiêu đề "Tổng quan TTS TTS cho ngơn ngữ có nguồn tài ngun": Chương cung cấp tóm tắt nghiên cứu có để có hiểu biết tồn diện tổng hợp tiếng nói Các hướng nghiên cứu cho tổng hợp tiếng nói cho ngơn ngữ nguồn tài nguyên đưa chương • Chương 2, có tiêu đề "Ngơn ngữ tiếng Việt tiếng Mường": Chương trình bày nghiên cứu âm vị học tiếng Việt tiếng Mường Đưa đối sánh ngữ âm cặp ngôn ngữ Việt – Mường PHẦN 2: TỔNG HỢP GIỌNG NÓI CHO TIẾNG MƯỜNG TRONG TRƯỜNG HỢP NGƠN NGỮ NÀY CĨ HỆ THỐNG CHỮ VIẾT • Chương 3, có tiêu đề "Tạo TTS Mường dựa việc giả lập đầu vào TTS tiếng Việt", trình bày đề xuất để tổng hợp giọng nói tiếng Mường cách thích nghi hệ thống tổng hợp tiếng nói tiếng Việt có Phương pháp áp dụng thử nghiệm để nhanh chóng tạo hệ thống tổng hợp tiếng nói cho ngôn ngữ thiểu số dân tộc khác Việt Nam • Chương 4, có tiêu đề "Học chuyển giao ngơn ngữ cho tổng hợp giọng nói tiếng Mường": Trong chương này, sử dụng thử nghiệm phương pháp cho tổng hợp tiếng nói tiếng Mường sử dụng tài nguyên tiếng Việt Chúng tập trung vào học chuyển giao cách tạo hệ thống tổng hợp tiếng nói tiếng Việt, huấn luyện thêm với tập liệu khác tiếng Mường đánh giá kết tổng hợp tiếng nói tiếng Mường tương ứng PHẦN 3: TỔNG HỢP GIỌNG NÓI CHO TIẾNG MƯỜNG TRONG TRƯỜNG HỢP TIẾNG MƯỜNG LÀ NGÔN NGỮ CHƯA CĨ HỆ THỐNG CHỮ VIẾT • Chương 5, có tiêu đề "Tạo giọng nói cho ngơn ngữ có nguồn tài ngun khơng có hệ thống chữ viết trực tiếp từ văn ngôn ngữ giàu tài ngun": Trong chương này, chúng tơi trình bày phương pháp để giải thách thức tổng hợp tiếng nói cho ngơn ngữ có nguồn tài ngun khơng có hệ thống chữ viết cách tổng hợp giọng nói L2 trực tiếp từ văn L1 Hệ thống đề xuất xây dựng công nghệ mạng nơ-ron end-to-end cho từ văn đến giọng nói Chúng tơi sử dụng tiếng Việt L1 tiếng Mường L2 thí nghiệm • Chương 6, có tiêu đề "Tổng hợp tiếng nói cho ngơn ngữ có nguồn tài ngun khơng có hệ thống chữ viết sử dụng biểu diễn trung gian": Chương đề xuất sử dụng biểu diễn âm vị học mối quan hệ gần gũi với giọng nói ngơn ngữ Phương pháp đề xuất áp dụng cho cặp ngôn ngữ tiếng Việt tiếng Mường Văn tiếng Việt dịch sang biểu diễn âm vị học trung gian hai tiếng nói phương ngữ tiếng Mường: Mường Bi - Hịa Bình Mường Tân Sơn - Phú Thọ Đánh giá cho thấy chất lượng tổng hợp tiếng nói tương đối cao cho hai phương ngữ PHẦN : NỀN TẢNG VÀ CƠNG TRÌNH LIÊN QUAN Chương Tổng quan TTS TTS cho ngơn ngữ tài ngun Phần cung cấp nhìn tổng quan ngắn gọn tổng hợp tiếng nói ứng dụng ngơn ngữ có nguồn tài ngun Nó nhấn mạnh thách thức đối mặt phát triển hệ thống tổng hợp tiếng nói cho ngôn ngữ với tài nguyên liệu hạn chế Ngồi ra, giới thiệu phương pháp kỹ thuật khác để giải thách thức cải thiện chất lượng tổng hợp tiếng nói cho ngơn ngữ có nguồn tài ngun 1.1 Tổng quan tổng hợp tiếng nói Các hệ thống tổng hợp tiếng nói chuyển đổi văn thành giọng nói nghe cách sử dụng thuật tốn tiên tiến kỹ thuật học máy, mơ đặc điểm giọng nói âm sắc, ngữ điệu ngữ intonation Công nghệ tổng hợp tiếng nói phát triển đáng kể theo thời gian, từ VODER năm 1950 đến hệ thống tổng hợp tiếng nói dựa học sâu mạng nơ-ron end-to-end Ứng dụng công nghệ tổng hợp tiếng nói rộng, bao gồm cơng nghệ hỗ trợ, cơng cụ học tập, giải trí trợ lý ảo Kiến trúc hệ thống tổng hợp tiếng nói thường bao gồm thành phần xử lý văn bản, chuyển đổi từ chữ viết thành phát âm, mơ hình ngữ điệu tổng hợp giọng nói Xử lý văn quan trọng để chuyển đổi yếu tố khơng chữ viết thành từ ngữ phát giọng nói Phân tích âm vị chuyển đổi từ chữ viết thành phát âm định phát âm từ Phân tích ngữ điệu liên quan đến dự đoán nhịp độ, thời lượng, âm sắc cường độ để tạo giọng nói tự nhiên Các phương pháp tổng hợp giọng nói truyền thống bao gồm tổng hợp phối hợp tổng hợp nguồn/lọc, kỹ thuật đại bao gồm tổng hợp giọng nói thống kê kỹ thuật lựa chọn đơn vị Sự xuất học sâu dẫn đến hệ thống tổng hợp tiếng nói dùng mạng nơron bao gồm mơ-đun phân tích văn bản, mơ hình âm học giải mã, cung cấp đầu giọng nói tự nhiên dễ hiểu 1.2 TTS cho ngơn ngữ tài ngun Sự phát triển hệ thống tương tác cho ngôn ngữ thiếu tài nguyên [23] đối mặt với thách thức nhu cầu liệu nhiều nghiên cứu tối thiểu lĩnh vực Các hội thảo SLTU-CCURL họp SIGUL nhằm thu hút nhà nghiên cứu làm việc giọng nói xử lý ngôn ngữ tự nhiên (NLP) cho ngôn ngữ để trao đổi ý tưởng kinh nghiệm Những kiện thúc đẩy đổi khuyến khích hợp tác ngành khoa học máy tính, ngơn ngữ học nhân chủng học Trọng tâm thúc đẩy phát triển công nghệ ngơn ngữ nói cho ngơn ngữ thiếu tài nguyên, bao gồm chủ đề nhận dạng giọng nói, tổng hợp văn thành giọng nói hệ thống đối thoại Bằng cách tụ hợp nhà nghiên cứu học thuật công nghiệp, hội thảo giúp giải thách thức đối mặt xử lý ngơn ngữ thiếu tài ngun Những thách thức cần giải phát triển tổng hợp tiếng nói cho ngôn ngữ thiếu tài nguyên a) tổng hợp giọng nói cho ngơn ngữ có hệ thống chữ viết liệu hạn chế; b) tổng hợp giọng nói cho ngơn ngữ khơng có hệ thống chữ viết, sử dụng văn giọng nói đầu vào từ ngơn ngữ khác Các hướng nghiên cứu chính, chẳng hạn tiếp cận thích ứng đa ngôn ngữ, thảo luận chi tiết phần để giải thách thức 1.2.1 TTS theo hướng tiếp cận giả lập Phương pháp "giả lập" nhằm phát triển hệ thống TTS cho ngôn ngữ thiếu tài nguyên cách tận dụng hệ thống TTS có từ ngơn ngữ có đầy đủ tài nguyên Phương pháp tiết kiệm tài nguyên cho phép phát triển nhanh đồng thời thúc đẩy hợp tác ngành khoa học Phương pháp đối mặt với thách thức chất lượng giọng nói khả nghe rõ không khớp ngôn ngữ sở ngôn ngữ đích Khả áp dụng phụ thuộc vào việc tìm ngơn ngữ sở phù hợp có đặc điểm âm vị ngơn ngữ học tương tự với ngơn ngữ đích Phương pháp hữu ích tình yêu cầu phát triển TTS nhanh chóng làm bước việc tạo hệ thống tinh chỉnh Các nhà nghiên cứu Evans et al Somers khám phá phương pháp với kết đầy hứa hẹn Họ phát triển phương pháp đánh giá độc đáo, chẳng hạn MRT, để đánh giá độ rõ ràng khả sử dụng giọng nói tổng hợp môi trường thiếu tài nguyên Các thiết kế thí nghiệm đánh giá giúp hiểu rõ thách thức, hội hạn chế phương pháp Mặc dù phương pháp "giả lập" cho thấy tiềm năng, thành cơng chủ yếu phụ thuộc vào việc vượt qua hạn chế tự nhiên chọn ngơn ngữ sở phù hợp 1.2.2 TTS theo hướng Polyglot Polyglot TTS multilingual TTS khái niệm liên quan, Polyglot TTS sử dụng mơ hình xử lý cho nhiều ngơn ngữ cịn multilingual TTS dùng nhiều mơ hình với ngơn ngữ khác Polyglot TTS phương pháp cụ thể multilingual TTS, hiệu tài nguyên mở rộng Các nhà nghiên cứu chứng minh tiềm Polyglot TTS việc tạo giọng nói trơn tru tự nhiên, chí văn đa ngơn ngữ Công nghệ mạng nơ-ron cải thiện hệ thống Polyglot TTS với mơ hình Polyglot NTTS dựa nhân giọng nói Những hệ thống mang lại lợi ích hiệu tài nguyên, chuyển giao kiến thức xử lý liền mạch văn đa ngôn ngữ Tuy nhiên, chúng đối mặt với thách thức việc tạo giọng nói tự nhiên cho ngôn ngữ cụ thể tối ưu hóa thành phần tập liệu Mặc dù có hạn chế này, Polyglot TTS phù hợp cho ngơn ngữ thiếu tài ngun, tận dụng cấu trúc tham số chung Các nghiên cứu đặc điểm tập huấn luyện tiến công nghệ mạng nơ-ron làm bật tầm quan trọng phương pháp ngơn ngữ thiếu tài ngun Nhìn chung, hệ thống Polyglot TTS cho thấy tiềm lớn việc giải thách thức tổng hợp văn đa ngơn ngữ, cải thiện chất lượng hiệu hệ thống TTS cho ngôn ngữ thiếu tài nguyên 1.2.3 TTS cho ngôn ngữ nguồn tài nguyên theo hướng thích nghi Phương pháp thích nghi cho hệ thống TTS tận dụng học chuyển giao ngôn ngữ để cải thiện tổng hợp giọng nói cho ngơn ngữ thiếu tài ngun cách sử dụng tài nguyên kiến thức từ ngơn ngữ có đủ tài ngun Phương pháp cung cấp giọng nói tự nhiên với liệu giới hạn cách điều chỉnh mơ hình TTS thơng số có cho ngơn ngữ đích thiếu tài nguyên Phương pháp thích nghi tăng khả mở rộng, hiệu cơng nghệ tổng hợp giọng nói Bằng cách huấn luyện trước mơ hình TTS ngơn ngữ có nhiều tài ngun, nhà nghiên cứu ánh xạ văn thành giọng nói ngôn ngữ thiếu tài nguyên Chen cộng đề xuất phương pháp để ánh xạ embedding tập âm vị, làm giảm khoảng cách ngôn ngữ Phương pháp yêu cầu lượng nhỏ liệu ghép nối, chuyển giao kiến thức từ ngơn ngữ có nhiều tài ngun đủ linh hoạt để xử lý ký hiệu ngôn ngữ khác Ánh xạ tự động tương quan tốt với âm vị học giảm việc can thiệp thủ công Tuy nhiên, phương pháp phụ thuộc vào việc có liệu ngơn ngữ có nhiều tài ngun yêu cầu giải không khớp không gian đầu vào Phương pháp thích nghi lý tưởng cho hệ thống TTS đa ngôn ngữ, cung cấp nội dung đa ngôn ngữ bảo tồn ngôn ngữ 1.3 Tiểu kết chương Chương tóm tắt tiến trình chung lĩnh vực tổng hợp tiếng nói nói chung tổng hợp tiếng nói cho ngơn ngữ nguồn tài nguyên nói riêng Nội dung tổng quan tập trung vào hướng giả lập thích nghi áp dụng cho tổng hợp tiếng nói trọng tâm luận án Các ứng dụng tổng hợp tiếng nói nhiều lĩnh vực khác thảo luận Mặc dù có số đột phá nghiên cứu tổng hợp tiếng nói cho ngơn ngữ nguồn tài nguyên, việc phát triển ứng dụng cần phải cải thiện Những thách thức bao gồm thiếu liệu văn bản, thiếu liệu âm thiếu nghiên cứu ngữ âm Do đó, cần có nhiều nghiên cứu để cải thiện hiệu hệ thống tổng hợp tiếng nói ngơn ngữ nguồn tài nguyên Chương Tiếng Việt tiếng Mường Ở Việt Nam, Mường dân tộc có số dân đứng top dân tộc thiểu số có số dân đơng nhất, Mường nằm nhóm Vietic, gần gũi với tiếng Việt Đã có số cơng trình nghiên cứu ngữ âm tiếng Mường Vì chúng tơi chọn tạo hệ thống tổng hợp tiếng Mường thích nghi từ hệ thống tổng hợp tiếng nói tiếng Việt Để làm điều này, luận án cần nghiên cứu chi tiết ngữ âm Việt - Mường đề xuất phương pháp đối sánh âm vị, điệu 2.1 Nghiên cứu đối sánh ngôn ngữ Việt – Mường Trong chương trình bày chi tiết ngữ âm tiếng Việt ngữ âm tiếng Mường, từ đề xuất nghiên cứu đối sánh ngữ âm tiếng Việt-Mường, trình bày chi tiết Bảng 2.1 Bảng 2.1 So sánh ngữ âm tiếng Mường tiếng Việt (orthography in đậm, IPA in nghiêng; Vi: Việt; Mu: Mường) Trùng Gần Khác biệt Mường Việt Mường Việt Mường Việt Mường Việt k, c /k/ k, c, q /k/ t /t/ t /t/ b /b/ b /ɓ/ hr /hr/ h /h/ h /h/ th /th/ th /th/ ch /c/ ch, tr kl /kl/ /tɕ/ l /l/ l /l/ v /v/ v /v/ đ /d/ đ /ɗ/ p /p/ Phụ âm m /m/ m /m/ w /w/ u, o g /g/ g /ɣ/ r /r/ đầu /w/ n /n/ n /n/ x /s/ x /s/ kh /kh/ kh /x/ tl /tl/ ng /ŋ/ ng, ngh z /z/ d, gi ph /ph/ ph /f/ /ŋ/ /z/ nh /ɲ/ nh /ɲ/ p /p/ p /p/ nh /ɲ/ nh /ɲ/ ch /c/ t /t/ t /t/ ng /ŋ/ ng /ŋ/ l /l/ Phụ âm c /k/ c /k/ w /w/ o, u cuối /w/ m /m/ m /m/ i, y /j/ i, y /j/ n /n/ n /n/ aa, a /a/ a /a/ ôô, ô /o/ ô /o/ ă /ă/ ă /ă/ /ɤ/ /ɤ/ â /ɤ̆/ â /ɤ̆/ uu, u /u/ u /u/ e /ɛ/ e /ɛ/ ưư, ư /ɯ/ Nguyên âm /ɯ/ êê, ê/e/ ê /e/ iê /iə/ iê /iə/ i /i/ i /i/ uô /uə/ uô /uə/ oo, o o /ɔ/ ươ /ɯɤ/ ươ /ɔ/ /ɯə/ Âm đệm w /w/ u, o /w/ Thanh điệu tiếng Mường Thanh điệu tiếng Việt Thanh điệu A1 – Level A2 – Mid falling C1 – Low falling < Hỏi > B1 - Rising B2 – Low glottalized 33 - Level 42 - Falling 324 - Falling Rising 34 - High Rising 342? - Low Falling 2.2 Sự khác biệt tiếng Việt Mường Bi Hịa Bình Mường Tân Sơn Phú Thọ Cấu trúc âm tiết tiếng Việt tiếng Mường giống có năm thành phần: âm đầu, âm đệm, âm chính, âm cuối điệu Trong đó, âm điệu giữ vai trị quan trọng khơng thể vắng mặt âm tiết Về hệ thống âm vị, tiếng Việt, tiếng Mường Bi Mường Tân Sơn có nhiều âm vị tương đương số âm vị khác biệt Đối với âm đầu, có 18 phụ âm đầu hai phương ngữ Mường giống với phụ âm đầu tiếng Việt /b, m, t, d, th, n, s, z, l, c, ɲ, k, ŋ, ʔ, h, f, , / Có hai phụ âm quặt lưỡi /, / có tiếng Việt mà khơng có tiếng Mường Có bốn phụ âm có tiếng Mường mà khơng có tiếng Việt /p, w, tl (kl), r/ Có hai phụ âm giống tiếng Việt xuất phương ngữ Mường Tân Sơn mà khơng có Mường Bi /v, / Đối với âm đệm, âm đệm tiếng Mường có chức vị trí giống với âm đệm tiếng Việt Đối với âm chính, tiếng Việt có 16 nguyên âm tiếng Mường có 14 ngun âm Tiếng Mường khơng có hai ngun âm ngắn /ɛ/ /ɔ/ giống tiếng Việt Đối với âm cuối, tiếng Việt có âm cuối có phụ âm /p, t, k, m, n, ng, nh/ bán nguyên âm /u, i/ Tiếng Mường có 11 âm cuối có phân biệt cặp âm cuối /k/ /c/; // // âm cuối /l/ Đối với điệu, tiếng Việt có điệu cịn tiếng Mường có điệu, khơng có ngã tiếng Việt 2.3 Tiểu kết chương Chương trình bày nghiên cứu luận án ngữ âm tiếng Việt ngữ âm tiếng Mường, so sánh ngữ âm tiếng Việt - tiếng Mường Báo cáo chi tiết công bố cơng trình [2] Một số cơng cụ hỗ trợ xây dựng tổng hợp tiếng nói thực chia sẻ lên GitHub Trên sở nghiên cứu đối chiếu ngữ âm tiếng Mường tiếng Việt, đề xuất nghiên cứu xây dựng hệ thống tổng hợp ngơn ngữ tiếng Mường sở thích nghi hệ thống tổng hợp tiếng nói tiếng Việt Thơng tin chi tiết trình bày phần PHẦN 2: TỔNG HỢP TIẾNG NÓI CHO TIẾNG MƯỜNG – TRONG TRƯỜNG HỢP NGƠN NGỮ CĨ CHỮ VIẾT Chương TTS Mường dựa giả lập đầu vào TTS tiếng Việt 3.1 Giới thiệu Chúng phân loại ngôn ngữ nguồn tài ngun thành hai nhóm: ngơn ngữ có chữ viết ngơn ngữ chưa có chữ viết Chúng thử nghiệm phương pháp đơn giản với TTS dành cho ngơn ngữ viết nguồn tài nguyên: “Emulating it” Cách tiếp cận để xây dựng TTS cho người Mường theo ý tưởng Evans, Polyzoaki Blenkhorn đề xuất [40] Ý tưởng sử dụng hệ thống TTS có cho ngơn ngữ (Base Language - BL) để "mơ phỏng" TTS cho ngôn ngữ không hỗ trợ (Target Language - TL) Trong nghiên cứu đó, phương pháp áp dụng để phát triển tổng hợp giả cho tiếng Hy Lạp, tiếng Albania, tiếng Séc, tiếng Wales số ngôn ngữ khác Cách tiếp cận sử dụng module chuyển văn thành âm vị dựa quy tắc đơn giản Các âm vị chuyển đến hệ thống chuyển âm vị thành tiếng nói có cho ngơn ngữ khác Sự phù hợp ngơn ngữ tổng hợp ngơn ngữ đích ảnh hưởng đến tính dễ hiểu tiếng nói 3.2 Giả lập cho Mường TTS Ý tưởng giả lập, cách tiếp cận TTS dựa quan hệ ngữ âm BL TL Công việc xây dựng TTS ngôn ngữ giả lập cho ngơn ngữ chưa có chữ viết bao gồm tác vụ sau: • Chọn BL gần với TL mặt ngơn ngữ • Đề xuất ánh xạ tả BL TL, dựa giống mặt ngữ âm ngơn ngữ • Xây dựng TTS giả lập cho BL cách áp dụng ánh xạ ngữ âm TTS có sẵn BL Bảng Ví dụ áp dụng quy tắc chuyển đổi văn bản tiếng Mường thành văn bản đầu vào cho TTS tiếng Việt Ho tang học Ho phải za ty dộng bầy? Faking text cho TTS tiếng Việt Ho tang học Ho phải da ty dộng bầy? Nhà za chiếm từ cúi chăng? Nhà da chiếm từ cúi chăng? Text Mường Tiếng Anh ‘I'm studying’ ‘I'm with you go out?’ ‘Your house has many pigs?’ Hình 3.1 cho thấy cấu trúc hệ thống TTS giả lập tiếng Mường, bao gồm ba mơ-đun Hình 3.1 Faking TTS cho tiếng Mường 3.2.1 Muong G2P module Figure 3.2 Muong G2P Module Mô-đun chuyển đổi văn thành âm điệu (G2P) phần thiếu hệ thống tổng hợp giọng nói chuyển đổi văn chuẩn thành chuỗi âm vị âm điệu, tạo khối xây dựng để tạo sóng âm The intelligibility score of emulating Viet - Muong tones 92 100 90 90 80 Intelligibility score (%) 86 84 68 70 70 70 72 66 60 60 50 40 30 20 10 33 - Level (ca) 42 - Falling (mè) 34 - High Rising (ná) 324 - Falling Rising (tẻ) TTS (Intel) 342? - Low Falling (mệ) TTS (Intel) Hình 3.3 Kết quả đánh giá độ thông hiểu cho điệu mô tiếng Mường MOS Test Result 4.23 4.21 3.76 4.17 4.25 3.8 MOS score Emulate Tone Emulate Closed Phonemes TTS Emulate Equivalent Phonemes TTS Hình 3.5 Kết quả đánh giá MOS Trong Hình 3.5, điểm kiểm tra MOS TTS1 với điệu giả lập 3,76, Âm vị giả lập 3,8, Âm vị tương đương 4,17 Những điểm số cho thấy chất lượng giả lập TTS1 đánh giá cao tập âm vị trùng nhau, điều hợp lý Điểm MOS cho giả lập điệu thấp Điều có nghĩa giả lập điệu tiếng Mường phù hợp với 33 342 Với ba điệu khác, mức độ giả lập điệu mức tạm Điểm kiểm tra MOS TTS2 với giả điệu 4,21, giả lập âm vị 4,23 giả âm vị tương đương 4,25 Nhìn chung, điểm MOS TTS mức chấp nhận Điểm MOS TTS2 cao chút chứng tỏ cơng nghệ tổng hợp giọng nói qua HMM có điểm chất lượng tốt chút so với TTS1 sử dụng công nghệ ghép nối Các đánh giá ANOVA hai chiều 10 thực kiểm chứng đắn kết đánh giá theo tập tình nguyện viên 3.4 Tiểu kết chương Nghiên cứu đánh giá hệ thống tổng hợp giả lập tiếng nói tiếng Mường Bi tỉnh Hịa Bình cho thấy hệ thống dễ hiểu người nghe, nhiên số trường hợp, giọng tổng hợp cần cải thiện để trở nên xác Giọng nói giả lập tương đồng với tiếng Việt thiếu nhuần nhuyễn giọng nói phương ngữ Mường Nghiên cứu cho thấy phương pháp áp dụng để tạo hệ thống TTS cho dân tộc thiểu số khác tiếng Việt Công việc thực chương báo cáo hội nghị FAIR 10 Các chương sâu vào phương pháp thích nghi TTS để khắc phục hạn chế mà phương pháp giả lập gặp phải Chương Cross-lingual transfer learning cho tổng hợp tiếng nói tiếng Mường 4.1 Giới thiệu Mục tiêu phần nghiên cứu luận án đánh giá tính hiệu việc áp dụng tối ưu hóa kỹ thuật học chuyển giao xây dựng hệ thống tổng hợp tiếng nói cho ngơn ngữ Mường, với tập trung đặc biệt vào phương ngữ Hịa Bình Như thảo luận phần 1.2.3, việc học chuyển giao chứng minh tiềm để thích nghi với lĩnh vực 4.2 Phương pháp đề xuất Đầu tiên, huấn luyện mơ hình Tacotron liệu tiếng Việt, gọi mô hình huấn luyện trước Sau đó, mơ hình Tacotron điều chỉnh lại liệu ngôn ngữ Mường Trong trình điều chỉnh lại, tất trọng số mơ hình cập nhật với tốc độ học thấp so với huấn luyện liệu tiếng Việt, giảm từ 1e-3 xuống 1e04 Các biểu diễn âm vị học tiếng Việt tiếng Mường tương đối giống nhau, khác số âm vị, biểu diễn đầu vào cho mơ hình Tacotron sử dụng nghiên cứu biểu diễn âm vị, kết hợp Bảng phiên âm Quốc tế (IPA) hai ngôn ngữ Nghiên cứu sử dụng giải mã âm Hifigan thay mơ hình Wavenet sử dụng báo gốc Tacotron 2, yêu cầu thời gian tài nguyên để huấn luyện tổng hợp âm Mơ hình tổng hợp giọng nói sử dụng nghiên cứu tương tự mơ hình Tacotron kiến trúc tham số, khác biểu diễn đầu vào giải mã âm 11 Hình 4.1 TTS ngơn ngữ tài ngun L2 transfer learning từ L1 4.3 Thực nghiệm 4.3.1 Các tập liệu 4.3.1.1 Dữ liệu tiếng Việt Trước tiên, liên quan đến liệu huấn luyện cho mơ hình huấn luyện trước, sử dụng khoảng 20 liệu sách nói tiếng Việt đánh nhãn, thu thập từ trang web mở khác Dữ liệu âm thu thập từ trang NgheAudio2, liệu văn tương ứng thu thập từ trang dtruyen3 Dữ liệu gốc không chia thành phân đoạn nhỏ (từ giây đến 15 giây) với văn tương ứng mà tổng hợp thành tệp âm dài (trung bình khoảng giờ) cho chương câu truyện 4.3.1.2 Dữ liệu tiếng Mường Cơ sở liệu âm tiếng Mường ghi âm sau xây dựng sở liệu văn tiếng Việt lĩnh vực tin tức Văn tiếng Việt thu thập từ nguồn tin tức Việt Nam chung nguồn tin tức địa phương người Mường để đảm bảo phân bố âm vị từ vựng cân Một tập hợp 20.000 câu trích xuất từ sưu tập gốc 4,9 triệu câu thuật tốn trích xuất ngẫu nhiên, cân phân bố âm vị âm tiết Dữ liệu văn tiếng Việt chuẩn hóa cơng cụ chuẩn hóa tiếng Việt Bốn người ngữ tiếng Mường, hai nam hai nữ, từ hai phương ngữ chọn để ghi âm sở liệu Giọng nói nam hai phương ngữ sử dụng để huấn luyện hệ thống, liệu giọng nói xử lý để chuẩn hóa lượng, loại bỏ nhiễu sửa lỗi gặp phải trình ghi âm Dữ liệu văn tiếng Việt tiền xử lý để thu biểu diễn phù hợp câu dạng chuỗi từ tiếng Việt Kết liệu giọng nói tương ứng với 1800 phút tín hiệu âm sau qua xử lý https://www.ngheaudio.org/truyen-audio-dai-mong-chu https://dtruyen.com/ 12 4.3.1.3 Dữ liệu tiếng Mường sử dụng để hiệu chỉnh Trong tập liệu tiếng Mường dự án Mường, liệu tiếng Mường ghi âm Bùi Việt Cường, phát viên Đài phát Hịa Bình, lựa chọn để thực việc học chuyển giao Chi tiết tập liệu ghi âm mô tả bảng đây: Bảng 4.3 Dữ liệu ghi âm tiếng Mường với giọng nam Bùi Việt Cường Mường Bi – Hoa Binh (CauBaoMuong) Thời lượng Số câu Số âm tiết Số âm vị Số âm tiết khác biệt Số âm vị khác biệt Tên người đọc Giới tính 24 phút 30 giây 1932 62954 307491 2934 44 Bùi Việt Cường Nam Để nghiên cứu mối quan hệ lượng liệu huấn luyện chất lượng đầu giọng nói tổng hợp, chúng tơi chia tập liệu ghi âm chất lượng cao thành tập huấn luyện nhỏ cho mục đích hiệu chỉnh mơ hình TTS Chi tiết tập huấn luyện nhỏ mô tả bảng đây: Table 4.4 Dữ liệu tiếng Mường dùng để hiệu chỉnh mô hình TTS Số âm tiết Số âm vị Số âm tiết khác biệt Số âm vị khác biệt Số câu Thời lượng (phút) M_15m 3581 17559 1004 39 116 15 M_30m 7171 35123 1333 39 229 30 M_60m 14458 70477 1753 39 454 60 Các tập huấn luyện chia thành tập cho đạt phủ âm vị tối đa câu lấy ngẫu nhiên Nhìn vào bảng trên, thấy tổng số âm vị tăng dần qua tập M_15M, M_30M M_60M, tương ứng với tập liệu với độ dài 15 phút, 30 phút 60 phút 4.3.2 Bộ chuyển đổi G2P Để chuyển đổi văn viết tiếng Việt tiếng Mường thành chuỗi âm vị IPA, sử dụng phương pháp ánh xạ ký tự thành âm vị kết hợp với quy tắc ánh xạ trình bày chương Mơ hệ thống TTS cho tiếng Mường dựa việc chuyển đổi đầu vào hệ thống TTS tiếng Việt 4.3.3 Huấn luyện mơ hình TTS sử dụng ngơn ngữ tiếng Việt Chúng sử dụng khoảng 20 liệu sách nói tiếng Việt để huấn luyện mơ hình âm học, mơ hình học cách chuyển đổi đầu vào âm vị thành đặc trưng Mel spectrogram Thuật toán tối ưu hóa mạng nơ-ron cho Mơ hình Âm học mà chúng tơi sử dụng thuật tốn tối ưu hóa Adam Tổng số bước huấn luyện 100.000 bước mô hình hội tụ sau khoảng 50.000 bước Tiếp theo, chúng tơi huấn luyện mơ hình Vocoder liệu tiếng Việt cách sử dụng mơ hình tiếng Anh huấn luyện trước Mơ hình huấn luyện trước huấn luyện tập liệu LJSPEECH tiếng Anh, bao gồm khoảng 24 liệu âm thanh, với 2,5 13 triệu bước huấn luyện Tổng số bước huấn luyện 100.000 bước mơ hình hội tụ sau khoảng 20.000 bước 4.3.4 Tinh chỉnh mơ hình TTS ngơn ngữ tiếng Mường Sau có mơ hình tacotron huấn luyện trước liệu tiếng việt, mơ hình ngữ âm học, chúng tơi thực hiệu chỉnh mơ hình ba tập liệu tiếng Mường khác từ tỉnh Hòa Bình với thời lượng khác nhau: M_15m, M_30m, M_60m, mô tả phần 4.3.1 Các tập liệu Đối với mơ hình ngữ âm học, chúng tơi sử dụng tốc độ học 1e-04, mô hình vocoder, tốc độ học 2e-04 Quá trình huấn luyện mơ hình Hifigan vocoder tiếng Mường tương tự tiếng Việt, hai sử dụng ngôn ngữ tiếng Anh huấn luyện trước khác ngôn ngữ sử dụng hiệu chỉnh 4.4 Đánh giá Với mục đích kiểm tra hiệu mơ hình điều chỉnh mơ hình huấn luyện trước tập liệu tiếng Mường khác thời lượng, sử dụng 50 câu kiểm tra lĩnh vực 50 câu kiểm tra ngồi lĩnh vực Một nhóm 50 người ngữ tiếng Mường Hịa Bình, cân giới tính với 25 nam 25 nữ, tham gia đánh giá Mean Opinion Score (MOS) Các thính giả có độ tuổi trung bình 23,33 nửa số họ có đại học người cịn lại có tốt nghiệp trung học Quá trình đánh giá yêu cầu thính giả nghe 20 câu, gồm hai 10 câu Bộ bao gồm chủ đề lĩnh vực tin tức vấn đề tại, thứ hai bao gồm câu lĩnh vực phản ánh kịch giao tiếp hàng ngày Cả hai lựa chọn ngẫu nhiên từ nguồn 50 câu kiểm tra để đảm bảo đa dạng ngữ nghĩa Đối với đánh giá định lượng, sử dụng điểm MCD DTW (Mel Cepstral Distortion với Dynamic Time Warping), đo lường khác biệt hai chuỗi Mel cepstra Điểm số nhỏ, chất lượng giọng nói tổng hợp tốt Mặc dù khơng phải số hồn hảo để đánh giá chất lượng giọng nói tổng hợp, hữu ích kết hợp với đo lường khác Điểm MCD DTW tính tệp âm tổng hợp tệp âm gốc điểm số cuối tính trung bình 50 cặp cho Các điểm số MOS, bảng 4.9 đây, cho thấy cải thiện đáng kể chất lượng chủ quan giọng nói tổng hợp với độ dài huấn luyện tăng từ 15 phút đến 30 phút, sau 60 phút Tuy nhiên, cịn khoảng cách đáng kể mơ hình giọng nói tự nhiên, cho thấy cịn nhiều khoảng trống để cải tiến Bảng 4.9 Kết quả đánh giá Ground Truth M_15m M_30m M_60m Đánh giá lĩnh vực MOS MCD (DTW) 4.36 ± 0.21 0.0 3.09 ± 0.45 6.875 ± 0.127 3.27 ± 0.30 5.622 ± 0.214 3.63 ± 0.36 5.133 ± 0.091 14 Đánh giá lĩnh vực MOS MCD (DTW) 4.31 ± 0.22 0.0 2.88 ± 0.45 7.125 ± 0.235 3.08 ± 0.44 6.890 ± 0.161 3.35 ± 0.36 6.521 ± 0.143 4.5 Phân tích điểm MOS ANOVA Bảng 4.10 Các kết quả ANOVA cho đánh giá MOS lĩnh vực tin tức ANOVAs ANOVA5 ANOVA6 Tác nhân TTS_System Subject TTS_System * Subject TTS_System Sentences TTS_System * Sentences df 49 49 49 49 f 116.321 1.292 0.789 122.822 0.842 0.935 p 0.000 0.086 0.968 0.000 0.773 0.694 η2 0.162 0.034 0.061 0.170 0.022 0.070 ANOVA5: Tác nhân TTS_System có ảnh hưởng đáng kể đến kết quả, tác nhân Subject khơng có ảnh hưởng đáng kể, khơng có tương tác TTS_System Subject ANOVA6: Tác nhân TTS_System có ảnh hưởng đáng kể đến kết quả, tác nhân Sentences khơng có ảnh hưởng đáng kể, khơng có tương tác TTS_System Sentences Tóm lại, kết hai phân tích cho thấy tác nhân TTS_System yếu tố quan trọng ảnh hưởng đến kết quả, yếu tố khác Subject Sentences khơng có ảnh hưởng đáng kể đến kết Dưới kết ANOVA7 ANOVA8 cho thử nghiệm đánh giá điểm MOS lĩnh vực (các câu giao tiếp ngày) có kết tương tự, thể Bảng 4.11 Bảng 4.11 Các kết quả ANOVA cho đánh giá MOS lĩnh vực tin tức ANOVAs ANOVA7 ANOVA8 Tác nhân TTS_System Subject TTS_System * Subject TTS_System Sentences TTS_System * Sentences df 49 49 49 49 f 121.343 0.975 1.029 135.433 1.334 1.079 p 0.000 0.523 0.394 0.000 0.062 0.254 η2 0.168 0.026 0.077 0.184 0.035 0.080 4.6 Tiểu kết chương Transfer learning kỹ thuật mạnh mẽ để phát triển hệ thống TTS cho ngơn ngữ thiếu tài ngun Các mơ hình tiền huấn luyện Tacotron WaveNet tinh chỉnh tập liệu nhỏ để tạo giọng nói chất lượng cao, ngôn ngữ thiếu tài nguyên tiếng Mường Việc lựa chọn kỹ thuật kiến trúc mơ hình, tập liệu huấn luyện chiến lược tinh chỉnh cẩn thận quan trọng để đạt kết tối ưu PHẦN : TỔNG HỢP TIẾNG NÓI CHO TIẾNG MƯỜNG TRONG TRƯỜNG HỢP TIẾNG MƯỜNG KHƠNG CĨ CHỮ VIẾT Chương Tạo tiếng nói ngơn ngữ tài nguyên chưa có chữ viết trực tiếp từ văn ngôn ngữ giàu tài nguyên 5.1 Giới thiệu Chương trình bày số phương pháp tổng hợp tiếng nói cho ngơn ngữ có chữ viết nguồn tài nguyên Vấn đề xây dựng hệ thống tổng hợp tiếng nói cho ngơn ngữ nguồn tài ngun có khả thi khơng? Ý tưởng sử dụng văn ngơn ngữ có nguồn tài ngun phong phú để thay cho văn ngơn ngữ nguồn tài nguyên chưa viết Do 15 đó, hệ thống tổng hợp tiếng nói ngơn ngữ bất thành văn nguồn tài nguyên trở thành vấn đề việc dịch trực tiếp văn ngôn ngữ L1 sang tiếng nói ngơn ngữ L2 Ngồi việc nghiên cứu phát triển công nghệ học sâu, đề xuất điều chỉnh kết hợp công nghệ dịch văn cơng nghệ xử lý tiếng nói phi văn mà không cần biểu diễn trung gian để giải vấn đề dịch trực tiếp Tổng hợp tiếng nói cho vấn đề đề xuất sáng tạo luận án Để xây dựng hệ thống tổng hợp tiếng nói xun ngữ tiếng Mường, số cơng trình liên quan nghiên cứu Phần trình bày chi tiết hướng cơng nghệ tổng hợp tiếng nói xun ngơn ngữ, với ý tưởng ứng dụng cơng nghệ tổng hợp tiếng nói vào toán dịch văn Việt-Mường 5.2 Phương pháp đề xuất thử nghiệm Trên sở nghiên cứu dịch máy nơ-ron, tổng hợp tiếng nói dựa mạng nơ-ron trình bày phần trước, với mục đích không cần sử dụng biểu diễn trung gian (dưới dạng chữ viết ngơn ngữ đích), hướng nghiên cứu đề xuất phát triển hệ thống dịch tiếng nói dựa mơ hình tổng hợp tiếng nói sử dụng mạng nơ-ron, đầu vào văn ngôn ngữ nguồn (tiếng Việt) đầu tín hiệu tiếng nói ngơn ngữ đích (khơng có chữ viết, nguồn tài ngun), ngơn ngữ đích Trong phương pháp này, hình dung hệ thống dịch hoàn toàn giống hệ thống tổng hợp tiếng nói ngơn ngữ, đầu vào văn đầu tiếng nói Tuy nhiên, thay văn giọng nói ngôn ngữ, liệu đầu vào văn tiếng Việt trình huấn luyện đầu tệp giọng nói ngơn ngữ nguồn tài nguyên 5.2.1 Xây dựng CSDL Các mô hình đề xuất huấn luyện cặp văn song ngữ tiếng Việt âm tiếng Mường theo hai phương ngữ tương ứng Các chi tiết tương tự mô tả chương 5.3 Huấn luyện mơ hình đánh giá 5.3.1 Huấn luyện hệ thống tổng hợp tiếng nói Để xây dựng hệ thống dịch văn tiếng Việt – tiếng Mường, hai mô hình mạng Tacotron2 WaveGlow huấn luyện Các bước huấn luyện mạng Tacotron2 WaveGlow sử dụng cài đặt tham số mặc định mạng ban đầu Tập liệu huấn luyện gồm 5.000 cặp từ song ngữ Việt-Mường câu Tất mô hình huấn luyện GPU, NVIDIA GTX 2080Ti, với kích thước lơ 16 Mơ hình âm hội tụ sau 100 nghìn bước, phát âm hội tụ sau 100 nghìn bước 5.3.2 Đánh giá hệ thống tổng hợp tiếng nói Để đánh giá hệ thống tổng hợp tiếng nói, chúng tơi sử dụng tiêu chí đánh giá định lượng định tính Về đánh giá định tính, điểm số MOS Intelligibility sử dụng làm sở để kiểm tra chất lượng mơ hình Bộ test chúng tơi gồm 50 câu domain 50 câu domain Tiêu chí hệ thống xác định giá trị trung bình cộng kết đánh giá cho tất câu, tất lần đánh giá tất người tham gia Kết q trình đánh giá tóm tắt Bảng 5.1 16 Bảng 5.1 Đánh giá TTS với tập in-domain Tiêu chí đánh giá Chất lượng dịch Chất lượng tiếng nói Ground Truth MB Muong Bi Fluency (0-5) 4.37 ± 0.22 Adequacy (0-5) 4.40 ± 0.19 Naturalness on the MOS scale (0-5) MCD (DTW) 4.36 ± 0.23 3.71 ± 0.36 3.77 ± 0.36 3.69 ± 0.41 4.73± 0.21 Ground Truth MTS 4.44 ± 0.25 4.43 ± 0.2 4.15 ± 0.24 Muong Tan Son 3.90 ± 0.25 3.95 ± 0.26 3.90 ± 0.25 4.71± 0.26 Bảng 5.2 Đánh giá TTS với tập out-domain Tiêu chí đánh giá Chất lượng dịch Chất lượng tiếng nói Ground Truth MB Muong Bi Fluency (0-5) 4.37 ± 0.08 Adequacy (0-5) 4.60 ± 0.08 Naturalness on the MOS scale (0-5) MCD (DTW) 4.31 ± 0.22 3.46 ± 0.36 3.40 ± 0.35 3.40 ± 0.37 6.56 ± 0.31 Ground Truth MTS 4.35 ± 0.060 4.41 ± 0.060 4.36 ± 0.11 Muong Tan Son 3.73 ± 0.31 3.77 ± 0.32 3.79 ± 0.30 5.25 ± 0.27 Kết đánh giá cho thấy hệ thống thử nghiệm tổng hợp tiếng nói tiếng Mường qua dùng text tiếng Việt đạt kết cao chất lượng dịch chất lượng tiếng nói tổng hợp Các thí nghiệm ANOVA chiều thực chi tiết để kiểm chứng đắn kết 5.4 Tiểu kết chương Chương trình bày cách tiếp cận giải vấn đề tổng hợp tiếng nói cho ngơn ngữ khơng có chữ viết - nguồn tài nguyên cách tổng hợp tiếng nói L2 trực tiếp từ văn L1 Chúng sử dụng tiếng Việt L1 tiếng Mường L2 thử nghiệm Hệ thống đề xuất xây dựng công nghệ mạng nơ-ron chuyển văn thành tiếng nói end-to-end Trong q trình huấn luyện, thay nhập văn giọng nói ngơn ngữ, liệu đầu vào bao gồm văn tiếng Việt giọng nói ngơn ngữ dân tộc thiểu số Kho ngữ liệu song ngữ gồm nghìn cặp chữ Việt tiếng Mường hai phương ngữ Mường Bi-Hịa Bình Mường Tân Sơn-Phú Thọ xây dựng Kết đánh giá chủ quan người dân hai vùng domain cho thấy, hệ thống tổng hợp tiếng nói tiếng Mường từ text tiếng Việt sang tiếng nói tiếng Mường có chất lượng dịch tự động tốt, chất lượng tiếng nói đầu đánh giá cao Kết hứa hẹn, đặc biệt cặp ngơn ngữ họ gần Do đó, cơng việc tương lai tiếp tục thử nghiệm hệ thống dịch tự động từ văn ngôn ngữ nguồn sang tiếng nói ngơn ngữ thiểu số mục tiêu khác Ví dụ, số ngơn ngữ họ gần chọn để thử nghiệm: Tày-Nùng, Việt-Thổ, Mnông-Stieng, v.v Kết chương cơng bố tạp chí [1] 17 Chương Tổng hợp tiếng nói cho ngơn ngữ nguồn tài ngun chưa có chữ viết thơng qua biểu diễn trung gian 6.1 Giới thiệu Chúng gọi ngôn ngữ giàu tài ngun L1, ngơn ngữ nguồn tài ngun chưa có chữ biết L2 Với tốn TTS cho ngơn ngữ L2, L2 khơng có chữ viết nên xây dựng hệ thống tổng hợp tiếng nói L2 cách tạo biểu diễn cấp độ âm vị trung gian L2 Để có biểu diễn trung gian cấp độ âm vị L2, sử dụng tốn dịch máy để tự động dịch văn L1 thành biểu diễn trung gian cấp độ âm vị L2 Bản chất vấn đề giải vấn đề dịch máy tự động đầu vào đầu hệ thống không khớp định dạng: đầu vào văn L1 (ngôn ngữ nguồn) - đầu tiếng nói L2 (ngơn ngữ đích) Các bước giải tốn theo hướng mơ tả Hình 6.1 Một đại diện trung gian sử dụng thay cho văn ngơn ngữ chưa có chữ viết Từ đó, hệ thống tổng hợp tiếng nói L2 bao gồm hai mô-đun: dịch văn tự động từ văn L1 thành dạng biểu diễn trung gian tổng hợp giọng nói từ dạng biểu diễn trung gian ngơn ngữ L2 thành giọng nói L2 Hình 6.1 TTS từ L1 Text chuyển thành tiếng nói L2 sử dụng biểu diễn trung gian Đề xuất sử dụng biểu diễn trung gian cấp độ âm vị xử lý tiếng nói ngơn ngữ khơng phải chữ viết đề xuất số nghiên cứu áp dụng cho công nghệ nhận dạng tiếng nói, tổng hợp tiếng nói dịch văn thành văn Đối với ngơn ngữ chưa có chữ viết, tốn nhận dạng tiếng nói dừng lại việc nhận dạng chuỗi âm vị tiếng nói đầu vào Các kỹ thuật đề xuất chủ yếu điều chỉnh cho phù hợp với bảng âm vị nhiều ngôn ngữ biết [155], [156] Tuy nhiên, đề xuất giới hạn nhận dạng giọng nói liên tục; đầu hệ thống nhận dạng chuỗi âm vị Do đó, hầu hết đề xuất cho cách biểu diễn trung gian dựa âm vị ngôn ngữ chưa có chữ viết 6.2 Phương pháp đề xuất Dựa nghiên cứu xung quanh cách biểu diễn âm vị cho tiếng nói ngơn ngữ chưa có chữ viết, xây dựng hệ thống tổng hợp tiếng nói L1-L2 cách sử dụng cách biểu diễn âm vị trung gian, Hình 6.2 Hình 6.3 Từ sở liệu song ngữ văn L1 - giọng nói L2, liệu tiếng nói L2 phiên âm thành chuỗi âm vị nhận dạng âm vị tự động Sau chép liệu tiếng nói L2, sở liệu song ngữ văn L1 – biểu diễn âm vị L2 sử dụng để huấn luyện mơ hình hệ thống dịch văn (mơ hình dịch thuật, mơ hình ngôn ngữ) Cơ sở liệu biểu diễn âm vị L2 tiếng nói tương ứng sử dụng để huấn luyện mơ hình hệ thống tổng hợp tiếng nói (mơ hình âm thanh, mơ hình thời lượng) Hệ thống tổng hợp tiếng nói chuyển văn thành giọng nói cuối kết hợp từ hai hệ thống cách sử dụng biểu diễn trình tự âm vị L2 trung gian Đối với cặp ngôn ngữ Việt (L1) - Mường (L2), chưa có mơ hình nhận dạng âm vị cho tiếng Mường nên mơ hình nhận dạng âm vị huấn luyện từ số lượng nhỏ tiếng nói thích thủ cơng Với cơng nghệ liệu tại, việc sử dụng nhận dạng âm vị tự động để phiên âm tệp âm ngơn ngữ khơng có chữ viết phương pháp máy học Tuy nhiên, độ xác hồn tồn khơng thể đạt Vì vậy, đầu chuỗi âm vị cần nhà ngôn ngữ học hiệu chỉnh để sở liệu chuyển ngữ có độ xác cao Việc sử dụng nhận dạng âm vị tự động coi bước tiền xử lý cho nhà ngôn ngữ học trình phiên âm, giúp giảm thiểu thời gian cơng sức họ 18 Hình 6.2 Pha huấn luyện TTS L1 text to L2 speech system Hình 6.3 Pha giải mã TTS L1 text to L2 speech system 6.3 Thử nghiệm Đối với thực nghiệm, nhiệm vụ sau thực hiện: • Xây dựng liệu song ngữ Văn tiếng Việt tiếng Mường hai phương ngữ; • Xây dựng SMT văn tiếng Việt thành biểu diễn âm vị học tiếng Mường; • Xây dựng hệ thống tổng hợp tiếng nói tiếng Mường sử dụng chuỗi phoneme Mường (Model training Tacotron 2) Để xây dựng sở liệu song ngữ bao gồm văn tiếng Việt tiếng Mường, quy trình thực theo ba bước Văn số liệu Mường Tân Sơn Mường Bi chuẩn bị chương 4, chương Phiên âm tự động: Đầu tiên xây dựng mơ hình nhận dạng âm vị cho phương ngữ Mường 5000 cặp câu văn tiếng Việt tiếng Mường chọn ngẫu nhiên cho phương ngữ, phần tiếng Mường nhà ngôn ngữ học phiên âm thủ công theo âm vị đề xuất Đối với phát biểu, có bốn cấp độ ghi nhãn liệu Bậc câu tiếng Việt, bậc từ tiếng 19 Việt, bậc điệu tiếng Mường, bậc điện thoại Mường tương ứng với giọng nói tiếng Mường Mơ hình nhận dạng âm vị xây dựng cho 5000 cặp biểu diễn âm vị tiếng Mường công cụ Kaldi Mơ hình nhận dạng âm vị áp dụng cho phần lại 15.000 tiếng Mường Cuối cùng, nhà ngôn ngữ học tiếng Mường thực chỉnh sửa hậu kỳ để sửa âm vị sai theo tiếng nói nghe âm vị đề xuất Sau bước này, kho ngữ liệu song ngữ gồm 20.000 văn tiếng Việt trình tự biểu diễn âm vị tương ứng phương ngữ Mường xây dựng sẵn sàng cho bước huấn luyện 6.4 Đánh giá Để đánh giá hệ thống tổng hợp tiếng nói, chúng tơi sử dụng tiêu chí đánh giá định lượng định tính Về đánh giá định tính, điểm MOS dùng làm sở để kiểm định chất lượng mơ hình Bộ test chúng tơi gồm 50 câu domain 50 câu domain Người tham gia đánh giá bốn tiêu chí theo cảm nhận chủ quan Điểm tiêu chí cuối cho hệ thống xác định giá trị trung bình kết đánh giá cho tất câu, tất phiên điều trần tất người tham gia Kết trình đánh giá tóm tắt Bảng 6.3 Bảng 6.4 Bảng 6.3 Đánh giá TTS tập in-domain Tiêu chí đánh giá Chất lượng dịch Chất lượng tiếng nói Ground Truth MB Muong Bi Fluency (0-5) 4.37 ± 0.22 Adequacy (0-5) 4.40 ± 0.19 Naturalness on the MOS scale (0-5) MCD (DTW) 4.36 ± 0.23 3,83 ± 0.33 4,02 ± 0.24 3,83 ± 0.33 4.45± 0.21 Ground Truth MTS 4.44 ± 0.25 4.43 ± 0.2 4.15 ± 0.24 Muong Tan Son 4,29 ± 0.21 4,25 ± 0.02 4,05 ± 0.23 3.97± 0.33 Bảng 6.4 Đánh giá TTS với tập out-domain Tiêu chí đánh giá Chất lượng dịch Chất lượng tiếng nói Ground Truth MB Muong Bi Fluency (0-5) 4.37 ± 0.08 Adequacy (0-5) 4.60 ± 0.08 Naturalness on the MOS scale (0-5) MCD (DTW) 4.31 ± 0.22 3.86 ± 0.33 3.86 ± 0.30 3.71 ± 0.35 5.23± 0.22 Ground Truth MTS 4.35 ± 0.06 4.41 ± 0.06 4.36 ± 0.11 Muong Tan Son 4.04 ± 0.22 4.04 ± 0.22 4.02 ± 0.21 4.50 ± 0.23 Điểm trôi chảy 3,83 cho tiếng Mường Bi 4,29 cho tiếng Mường Tân Sơn cho thấy câu đầu có mức độ trơi chảy cao, gần tương đương với mức độ trôi chảy tiếng Mường Mức độ phù hợp 4,02 Mường Bi 4,25 Mường Tân Sơn cho thấy câu dịch chứa hầu hết nội dung câu gốc tiếng Việt, thơng tin bị Cả hai kết chứng tỏ chất lượng hệ thống dịch tự động từ văn tiếng Việt sang tiếng Mường đánh giá cao Đối với chất lượng giọng nói tiếng Mường tổng hợp, điểm MOS Mường Bi Mường Tân Sơn 3,83 4,05 Điểm số cao cho thấy giọng nói đầu gần tự nhiên giọng nói người Cả hai tiêu chí cho thấy tiếng nói tiếng Mường có chất lượng tốt Nó giúp đánh giá âm vị đề xuất tốt cho hai phương ngữ Mường 20 Một điều đáng mừng tất điểm đánh giá Mường Tân Sơn cao Mường Bi Điều giải thích Mường Tân Sơn gần với tiếng Việt Mường Bi (ví dụ mặt từ vựng) Kết đánh giá cho thấy hệ thống tổng hợp tiếng nói tiếng Mường đạt kết cao chất lượng dịch chất lượng tổng hợp tiếng nói 6.5 Tiểu kết chương Chương trình bày cách tiếp cận giải tốn tổng hợp tiếng nói cho ngơn ngữ khơng có chữ viết nguồn tài nguyên cách sử dụng biểu diễn trung gian Văn ngôn ngữ (L1) dịch thành tiếng nói ngơn ngữ chưa có chữ viết (L2) cách sử dụng chuỗi âm vị L2 làm biểu diễn trung gian thay văn Một thử nghiệm dịch văn tiếng Việt sang tiếng Mường hai phương ngữ tiến hành Một âm vị cho tiếng Mường đề xuất áp dụng vào toán Kết đánh giá chủ quan tình nguyện viên phương ngữ Mường cho thấy hệ thống dịch tự động từ văn tiếng Việt sang tiếng Mường có chất lượng dịch tốt, chất lượng tiếng nói đầu đánh giá cao Kết chương đáng khích lệ, đặc biệt cặp ngơn ngữ khơng có quan hệ gần gũi, việc sử dụng mơ-đun SMT giúp học dịch cặp ngôn ngữ xa Công việc tương lai áp dụng phương pháp dịch tự động từ văn tiếng Việt sang ngôn ngữ chưa có chữ viết khác tiếng Việt Kết chương cơng bố tạp chí [3] KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO Kết luận Tổng hợp tiếng nói quy trình cơng nghệ tạo tiếng nói từ đầu vào Luận án chi tiết nghiên cứu việc phát triển hệ thống tổng hợp văn thành giọng nói (TTS) cho ngơn ngữ nguồn tài ngun, tận dụng nguồn tài nguyên từ ngôn ngữ khác đề xuất cách tiếp cận chung cho phát triển hệ thống tổng hợp tiếng nói tiếng Mường Luận án nghiên cứu tiếng Việt, tiếng Mường mối quan hệ ngữ âm cặp ngôn ngữ Mường - Việt Tiếng Mường ngơn ngữ chưa có chữ viết thức nên việc nghiên cứu tổng hợp tiếng nói tiếng Mường nỗ lực cao nhóm tác giả Ngồi ra, nhóm tác giả tạo số công cụ hỗ trợ tạo từ điển, G2P, VI XSAMPA để hỗ trợ lập trình hệ thống tổng hợp tiếng nói nói chung cụ thể Merlin Tool Hai đóng góp giới thiệu luận án này: • Đóng góp 1: Đề xuất thử nghiệm thành công phương pháp việc tổng hợp tiếng nói cho ngơn ngữ khơng có hệ thống chữ viết, với trường hợp ứng dụng cụ thể tiếng Mường • Đóng góp 2: Nghiên cứu thực nghiệm phương pháp tổng hợp tiếng nói thích nghi cho ngơn ngữ nguồn tài ngun có hệ thống chữ viết ứng dụng cho tiếng Mường Bi, tỉnh Hòa Bình Kết đạt góp phần bảo tồn phát huy ngơn ngữ, văn hóa dân tộc thiểu số Việt Nam Hướng nghiên cứu Mục tiêu chúng tơi nâng cao việc ứng dụng cơng nghệ tổng hợp giọng nói, cụ thể ngơn ngữ có nguồn tài nguyên tiếng Mường, mở rộng ảnh hưởng đến ngơn ngữ thiểu số khác Việt Nam Trong trình tiếp tục nghiên cứu luận án, dự định mở rộng theo nhiều hướng, tận dụng thành công hiểu biết thu từ trước đến Các điểm trọng tâm nghiên cứu tới tơi bao gồm: • Phát triển ứng dụng thân thiện với người dùng: Mục tiêu cốt lõi đảm bảo công nghệ tạo dễ tiếp cận, trực quan dễ dàng điều hướng cho người dùng đích - cộng đồng Mường Nhận yếu tố quan trọng việc áp dụng công nghệ trải nghiệm người dùng, nghiên cứu 21 tập trung vào việc phát triển ứng dụng di động phù hợp với nhu cầu sở thích người dân Mường Những ứng dụng thiết kế với giao diện thân thiện với người dùng, cho phép tương tác dễ dàng với hệ thống tổng hợp giọng nói Hơn việc đảm bảo khả tiếp cận người dùng, ứng dụng xây dựng để phù hợp với nhu cầu độc đáo cộng đồng Điều bao gồm cài đặt ưu tiên ngơn ngữ, tính tiếp cận, hệ thống hướng dẫn người dùng Mục tiêu cuối có ứng dụng thiết bị thường sử dụng, điện thoại thơng minh máy tính bảng, để khuyến khích tiếp nhận sử dụng rộng rãi cộng đồng • Thử nghiệm với ngôn ngữ thiểu số khác: Dựa thành công hệ thống tổng hợp giọng nói tiếng Mường, nghiên cứu tơi mở rộng ứng dụng công nghệ ngôn ngữ dân tộc thiểu số khác Việt Nam Sự mở rộng nhằm thúc đẩy đa dạng ngôn ngữ bao trùm lĩnh vực tổng hợp giọng nói Để đạt điều này, tơi dự định thực nghiên cứu ngơn ngữ học tồn diện ngôn ngữ này, làm bật đặc điểm độc đáo chúng xác định biến thể có Cơng việc chuẩn bị cung cấp liệu cần thiết để thích ứng áp dụng hệ thống tổng hợp giọng nói cách hiệu Kết là, lợi ích cơng nghệ tổng hợp giọng nói mở rộng đến nhiều cộng đồng hơn, từ thúc đẩy việc bảo tồn phát huy ngơn ngữ thiểu số • Nghiên cứu mơ hình tiên tiến: Trong nỗ lực không ngừng cải tiến đổi mới, dự định khám phá mơ hình tiên tiến tổng hợp giọng nói Các mơ hình Transformers, Variational Inference with adversarial learning for end-to-end Text-to-Speech (VITS), Zeroshot Text-to-Speech (TTS) cho thấy tiềm to lớn việc cải thiện chất lượng giọng nói tổng hợp Những mơ hình thể hiệu suất xuất sắc việc xử lý liệu ngôn ngữ đa dạng phức tạp, làm cho chúng đặc biệt phù hợp với ngơn ngữ có nguồn tài ngun Do đó, nghiên cứu tương lai tơi tìm hiểu việc thích ứng mơ hình tiên tiến ngữ cảnh tiếng Mường ngôn ngữ thiểu số khác Việt Nam Mong muốn việc tích hợp mơ hình tiên tiến cải thiện đáng kể độ xác tự nhiên giọng nói tổng hợp, từ cải thiện trải nghiệm người dùng hiệu hệ thống Những hướng nghiên cứu tương lai phù hợp với cam kết tơi khơng góp phần vào lĩnh vực tổng hợp giọng nói cho ngơn ngữ có nguồn tài ngun mà cịn đảm bảo lợi ích thực tế cơng nghệ dễ tiếp cận hữu ích cho cộng đồng người dùng Hy vọng thông qua nghiên cứu liên tục này, tạo hệ thống tổng hợp giọng nói bao trùm, hiệu thân thiện với người dùng, làm bật bảo tồn đa dạng ngôn ngữ phong phú Việt Nam 22 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN Van-Dong Pham, Do Thi Ngoc Diep, Mac Dang Khoa, Nguyen Viet Son, Nguyen Van Thinh, Nguyen Tien Thanh, Tran Do Dat, “How to generate Muong speech directly from Vietnamese text: Cross-lingual speech synthesis for close language pair”, Journal of Military Science and Technology (JMST), Technol., no 81, Art no 81, Aug 2022, doi: 10.54939/1859-1043.j.mst.81.2022.138-147 Van-Dong Pham, Mac Dang Khoa, Do Thi Ngoc Diep, Nguyen Tien Thanh , Tran Do Dat , Vu Thi Hai Ha , Dang Thanh Mai “Computational linguistic material for Vietnamese speech processing: Applying in Vietnamese text-to-speech”, Int Jounal Adv Res Comput Sci., vol 13, no 6, pp 49–54, Dec 2022 Van-Dong Pham, Do Thi Ngoc Diep, Mac Dang Khoa, Vu Thi Hai Ha, “Speech translation for Unwritten language using intermediate representation: Experiment for VietMuong language pair”, Journal of Military Science and Technology (JMST), no CSCE6, pp 65–76, 2022 Van-Dong Pham, Mac Dang Khoa, Vu Thi Hai Ha, and Tran Do Dat, “Rapid development of text to speech system for unsupported languages using emulating input approach: Experiment with Muong”, Kỷ yếu Hội Nghị Quốc Gia Lần Thứ 10 Về Nghiên Cứu Cơ Bản Và Ứng Dụng Công Nghệ Thông Tin FAIR, vol 10, pp 807–815, Aug 2017 Tran Thi Thu Thuy, Do Thi Ngoc Diep, Mac Dang Khoa, Van-Dong Pham, “Cross-Lingual phoneme recognition for familiar languages: Applying to Vietnamese and Muong languages”, Kỷ yếu Hội Nghị Quốc Gia Lần Thứ 11 Về Nghiên Cứu Cơ Bản Và Ứng Dụng Công Nghệ Thông Tin FAIR, vol 11, pp 96–102, Aug 2018 Van-Dong Pham, Mac Dang Khoa, Tran Do Dat, “Development of Vietnamese text to speech system using MaryTTS”, The second Regional Conference on Optical character recognition and Natural language processing technologies for ASEAN languages 2018 (ONA 2018) Technol ASEAN Lang 2018 ONA 2018, vol 2, Dec 2018