Nghiên cứu ứng dụng trí tuệ nhân tạo trong bài toán chuyển đổi văn bản thành giọng nói, tích hợp vào hệ thống thông tin chuyển đổi số các cấp chính quyền
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 80 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
80
Dung lượng
2,92 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA TRƯỜNG ĐẠI HỌC HỒNG ĐỨC NGUYỄN ANH TUẤN NGHIÊN CỨU ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG BÀI TỐN CHUYỂN ĐỔI VĂN BẢN THÀNH GIỌNG NĨI, TÍCH HỢP VÀO HỆ THỐNG THƠNG TIN CHUYỂN ĐỔI SỐ CÁC CẤP CHÍNH QUYỀN LUẬN VĂN THẠC SĨ MÁY TÍNH THANH HĨA, NĂM 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA TRƯỜNG ĐẠI HỌC HỒNG ĐỨC NGUYỄN ANH TUẤN NGHIÊN CỨU ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG BÀI TỐN CHUYỂN ĐỔI VĂN BẢN THÀNH GIỌNG NĨI, TÍCH HỢP VÀO HỆ THỐNG THƠNG TIN CHUYỂN ĐỔI SỐ CÁC CẤP CHÍNH QUYỀN LUẬN VĂN THẠC SĨ MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số: 8480101 Người hướng dẫn khoa học: PGS TS Phạm Thế Anh THANH HÓA, NĂM 2022 Danh sách Hội đồng đánh giá luận văn Thạc sỹ khoa học (Theo Quyết định số: /QĐ- ĐHHĐ ngày tháng năm 2022 Hiệu trưởng Trường Đại học Hồng Đức) Học hàm, học vị Cơ quan Chức danh Họ tên Công tác Hội đồng Chủ tịch HĐ UV, Phản biện UV, Phản biện Uỷ viên Uỷ viên, Thư ký Xác nhận Người hướng dẫn Học viên chỉnh sửa theo ý kiến Hội đồng Ngày tháng năm 2022 LỜI CAM ĐOAN Tôi xin cam đoan số liệu kết nghiên cứu luận văn trung thực chưa sử dụng để bảo vệ học vị Tôi xin cam đoan giúp đỡ cho việc thực luận văn cảm ơn thơng tin trích dẫn rõ nguồn gốc Thanh Hóa, ngày 12 tháng năm 2022 Tác giả luận văn Nguyễn Anh Tuấn i LỜI CẢM ƠN Trong thời gian học tập nghiên cứu thực luận văn thạc sỹ, tơi nhận giúp đỡ nhiệt tình thầy cô giáo, đồng nghiệp Trước hết cho phép cảm ơn quý thầy, cô Khoa Công nghệ thông tin Truyền thông - trường Đại học Hồng Đức tận tình truyền đạt kiến thức suốt thời gian học vừa qua Vốn kiến thức tiếp thu q trình học tập khơng tảng cho trình nghiên cứu luận văn mà cịn hành trang q báu cơng việc sống Tơi xin bày tỏ lịng biết ơn sâu sắc đến PGS.TS Phạm Thế Anh tận tình hướng dẫn tơi suốt q trình nghiên cứu hồn thành luận văn Tơi xin gửi lời cảm ơn chân thành đến gia đình, bạn bè người thân, người bên cạnh động viên suốt q trình học tập hồn thành luận văn Trong luận văn, hẳn tránh khỏi hạn chế thiếu sót Tơi mong muốn nhận nhiều đóng góp quý báu đến từ quý thầy cô, ban cố vấn bạn đọc để đề tài hồn thiện có ý nghĩa thiết thực áp dụng thực tiễn sống Trân trọng cảm ơn ! Thanh Hóa, ngày 12 tháng năm 2022 Tác giả luận văn Nguyễn Anh Tuấn ii MỤC LỤC LỜI CAM ĐOAN - LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC TỪ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC HÌNH ẢNH vii MỞ ĐẦU 1 Tính cấp thiết đề tài Mục tiêu nghiên cứu Đối tượng, phạm vi nghiên cứu Nội dung nghiên cứu: Phương pháp nghiên cứu Dự kiến kết đạt Chương GIỚI THIỆU 1.1 Chuyển đổi số quan nhà nước 1.1.1 Hạ tầng viễn thông, internet 1.1.2 Hạ tầng CNTT 1.1.3 Ứng dụng CNTT quan nhà nước 10 1.1.4 Ứng dụng CNTT ngành, lĩnh vực 11 1.1.5 Đảm bảo an tồn thơng tin 12 1.2 Hệ thống thơng tin chuyển đổi số cấp quyền 12 1.3 Bài toán chuyển đổi văn thành giọng nói 13 1.4 Các ứng dụng thực tiễn 15 Kết luận Chương 17 Chương TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU 18 2.1 Công nghệ tổng hợp giọng nói truyền thống 18 2.1.1 Kỹ thuật tổng hợp tham số (Statistical Parametric Synthesis) 18 2.1.2 Kỹ thuật tổng hợp ghép âm (Concatenation synthesis) 24 iii 2.2 Các kỹ thuật tổng hợp dựa mạng nơ ron học sâu 25 2.2.1 Hệ thống WaveNet 25 2.2.2 Fast WaveNet 27 2.2.3 Hệ thống Deep Voice 28 2.2.4 Hệ thống Tacotron 30 2.2.5 Hệ thống Tacotron 32 2.2.6 Hệ thống Global Style Tokens (GST) 33 2.2.7 Transformer Network 35 2.2.8 FastSpeech 37 Kết luận chương 38 Chương PHÂN TÍCH THIẾT KẾ HỆ THỐNG CHUYỂN ĐỔI SỐ CẤP XÃ 39 3.1 Lựa chọn công nghệ 39 3.2 Phân tích, thiết kế hệ thống 40 3.2.1 Thiết kế sở liệu 40 3.2.2 Thiết kế chức 43 Kết luận chương 50 Chương XÂY DỰNG HỆ THỐNG CHUYỂN ĐỔI VĂN BẢN THÀNH GIỌNG NÓI VÀ ỨNG DỤNG 51 4.1 Mơ hình hóa tốn chuyển đổi văn thành giọng nói 51 4.2 Lựa chọn kiến trúc mạng nơ ron tối ưu 52 4.3 Chuẩn bị liệu huấn luyện mơ hình 55 4.4 Thực nghiệm đánh giá kết 56 4.5 Tích hợp hệ thống thơng tin chuyển đổi số 58 4.6 Một số giao diện phần mềm 60 Kết luận chương 63 Chương KẾT LUẬN VÀ KIẾN NGHỊ 64 Kết luận 64 Kiến nghị 65 TÀI LIỆU THAM KHẢO 66 iv DANH MỤC TỪ VIẾT TẮT CNN : Convolutional Neural Network AI: Artifical intelligence DL: Deep Learning UBND: Ủy ban nhân dân CNTT: Công nghệ thông tin CQNN: Cơ quan nhà nước CSDL: Cơ sở liệu TTHC: Thủ tục hành CBCC: Cán công chức TTS: Text To Speech HMM: Hidden Markov Models MOS: Mean Opinion Score API: Application Programming Interface CCL: Causal Convolutional Layers RF: Receptive Field DC: Dilated Convolution CTC: Connectionist Temporal Classification RNN: Recurrent Neural Network MHT: Multi-Head Attention DPA: Dot-Product Attention FFT: Feed-Forward Transformer v DANH MỤC CÁC BẢNG Bảng 2.1 Bảng âm vị sử dụng tổng hợp giọng nói [11]……21 Bảng 2.2 Chi tiết cấu tạo hai mạng Pre-net CBHG…………………31 Bảng 3.1 Các chức hệ thống quản lý ứng dụng di động tương tác quyền - cơng dân ứng dụng di động tương tác quyền công dân 49 Bảng 4.1 Thống kê thời gian xử lý số tệp văn bản……………… 58 vi Hình 4.3 Kiến trúc khối FFT mạng FastSpeech [9] *) Khối Length Regulator (LR): Bộ điều chỉnh độ dài (LR) sử dụng để giải vấn đề không cân đối độ dài chuỗi âm vị dãy quang phổ để kiểm sốt tốc độ giọng nói Bộ LR có tác dụng điều khiển tốc độ âm tổng hợp cách tự động rút gọn kéo dài độ dài âm vị (phoneme embeddings) để phù hợp với độ dài chuỗi phổ tạo Như mô tả Hình 4.4, Hpho ký hiệu chuỗi âm vị đầu vào, Hmel ký hiệu chuỗi phổ đầu Thông thường, độ dài dãy âm vị nhỏ độ dài dãy phổ (mel) nó, âm vị tương ứng với vài phổ Do vậy, để ước lược độ dài phổ tương ứng với âm vị, tác giả đề xuất mạng có tên Duration Predictor Mạng gồm tầng nhân chập chiều (Conv1D), tầng áp dụng hàm chuẩn hóa (Normalization) kỹ thuật DropOut, cuối tầng tuyến tính để sinh giá trị đầu độ dài phổ tương ứng với âm vị Các tầng Conv1D Duration Predictor sử dụng lọc (kernel) có độ dài 3, đầu vào đầu có kích thước 384 54 Hình 4.4 Kiến trúc khối Length Regulator (trái) Duration Predictor (phải) [9] 4.3 Chuẩn bị liệu huấn luyện mơ hình *) Dữ liệu huấn luyện: Dữ liệu huấn luyện mơ hình thu thập từ nhiều nguồn, gồm [22], [23] tự xây dựng, tổng 25,000 ghi Dữ liệu phục vụ huấn luyện gồm thông tin sau: - Tệp âm thanh: có độ dài ngắn, thường có độ dài từ 1-2 giây Các tệp âm lưu trữ định dạng “.wav”, tần số âm 22050 Hz, âm đơn (mono) Các tệp âm thường đánh số từ đến N - Chuỗi văn bản: tệp âm gán nhãn chuỗi văn thể xác nội dung tệp âm Các chuỗi văn lưu trữ file với cấu trúc gồm nhiều hàng, hàng có thơng tin (cách dấu phân cách): ten_file_wav, chuoi_van_ban đó: ten_file_wav, chuoi_van_ban tương ứng tên tệp âm chuỗi văn tệp âm (xem Hình 4.5) 55 Hình 4.5 Minh họa cấu trúc tệp nhãn liệu *) Các tham số cấu hình huấn luyện: - Batch size: 16 - Số lần Epochs huấn luyện: 200 - Cấu hình máy GPU: GTX 1070 Ti, 8GB RAM 4.4 Thực nghiệm đánh giá kết Thời gian huấn luyện hệ thống hết khoảng 24 tiếng Các hàm mục tiêu (loss) hội tụ ổn định suốt q trình huấn luyện Mơ hình FastSpeech dùng hai loại hàm loss: MSE L1 Hình 4.6 cung cấp trạng thái hàm mục tiêu huấn luyện mơ hình (b) (a) 56 (d) (c) Hình 4.6 Biểu đồ hàm mục tiêu (loss functions): hàm mục tiêu F1 (a), hàm F2 (b), hàm F3 (c) hàm tổng hợp (d) Trục tung đồ thị biểu diễn giá trị hàm loss, trục hoành biểu thị số epochs huấn luyện Ở cung cấp biểu đồ hàm mục tiêu sau: - F1: Hàm mục tiêu dùng khối Duration Predictor - F2: Hàm mục tiêu dùng để đo sai khác chuỗi phổ dự đốn (predicted mel-spectrogram) chuỗi phổ đích (target mel-spectrogram) - F3: Hàm mục tiêu dùng để đo sai khác chuỗi phổ dự đoán (predicted mel-spectrogram) mạng post-net (chính mạng CBHG dùng Tacotron [17]) chuỗi phổ đích (target mel-spectrogram) - Hàm mục tiêu tổng hợp: F = F1 + F2 + F3 Như quan sát Hình 4.6, biểu đồ hàm mục tiêu có trạng thái giống hội tụ nhanh, ổn định sau khoảng 50 epochs huấn luyện Biên độ hàm mục tiêu tổng hội tụ có giá trị khoảng 0.75 (so với 35.0 lúc bắt đầu huấn luyện) Trong phần này, không so sánh hiệu hệ thống FastSpeech với hệ thống khác chúng tơi sử dụng lại kiến trúc FastSpeech cho tập liệu tiếng nói Việt Nam Do vậy, hiệu FastSpeech phân tích, đánh giá so sánh với phương pháp khác báo gốc [9] 57 Về thời gian xử lý trình hoạt động thực tế, Bảng 4.1 thống kê thời gian xử lý cho số tệp văn có độ dài khác Tốc độ xử lý đo máy tính sử dụng để huấn luyện Bảng 4.1 Thống kê thời gian xử lý số tệp văn STT Độ dài văn Độ dài tệp âm tổng Thời gian xử lý hợp 34 giây 0.0134 giây 87 giây 0.0190 giây 160 10 giây 0.0292 giây 295 18 giây 0.0488 giây 4.5 Tích hợp hệ thống thơng tin chuyển đổi số Để tích hợp hệ thống chuyển đổi văn thành giọng nói vào hệ thống thông tin chuyển đổi số, xây dựng mơ hình tích hợp thơng qua giao diện lập trình ứng dụng API (Application Programming Interface) Mơ hình tích hợp mơ tả Hình 4.7 Trong tài liệu này, quy ước có hai hệ thống cần giao tiếp: i) TTT Server (HDU): hệ thống AI có nhiệm vụ phân tích tổng hợp âm từ chuỗi văn đầu vào trả kết ngược lại cho clients (tệp âm tổng hợp) ii) Clients (web-app mobile-app): hệ thống nghiệp vụ đối tác phát triển Client App API Request (Text) TTT Server (HDU) API Response (.wav) Hình 4.7 Mơ hình tích hợp thơng qua API 58 - Các web-app/mobile-app cần gửi request (lời gọi hàm API) theo cú pháp mô tả tài liệu Về bản, API có lời gọi hàm sau: IP address:port/request IP address:port địa số cổng mà hệ thống TTT Server (HDU) chạy, request mã lệnh API Ngoài ra, lời gọi API thường gửi đến TTT Server (HDU) tham số liệu khác (ở dạng JSON) Mặc định, IP address: port tài liệu là: ptahdu.ddns.net:9091 - Đối với API, tài liệu cung cấp bước để hai hệ thống giao tiếp hành xử tương ứng hai phía (response/feedback) - Tham số token: lời gọi hàm API, phía client cần gửi kèm theo token xác thực để đảm bảo hai đối tượng xác thực Token mặc định tài liệu là: "hash_512.aGR1YWk7ZMWpbmcgxJHhurlwIHRyYWkgdOG6oW8gc mEgY8OhaSBuw6B5IHNhdSBz4bq9IHVwZGF0ZSBs4bqhaTsxOzE=.ITTG UrP9nD95uDjNA3wModhdq7OIEs3wWaL1AXsTgcj5H0fGw3xEUOYouz9 Fv0oNtw2cLb5vtvo5M5piL14tOiu14fpUHGh8Hpv4" *) Mơ tả phía Web-App/Mobile-App: Cú pháp: ptahdu.ddns.net:9091/TTS Dữ liệu gửi kèm theo (dạng JSON): {"token":chuoi_token, "text":text_value} “text” tên biến, text_value chuỗi văn cần tổng hợp thành giọng Kết trả về: tệp âm dạng wav *) Mơ tả phía TTT Server (HDU): - Lắng nghe địa chỉ: IP address:port/TTS - Khi có kiện đến, lấy liệu văn bản, truyền vào hệ thống chuyển đổi văn thành giọng nói để sinh tệp âm kết quả, gửi kết client Nếu chưa có liệu sẵn sàng, gửi client chuỗi thông báo lỗi 59 4.6 Một số giao diện phần mềm 60 Hình 4.8 Trái: Giao diện ứng dụng di động; Phải: Giao diện danh sách tin tức ứng dụng di động 61 Hình 4.9 Trái: Giao diện bảng tin ứng dụng di động; Phải: Giao diện phản ánh kiến nghị người sử dụng ứng dụng di động Hình 4.10 Giao diện cho phép người dùng đọc/nghe tin ứng dụng di động 62 Kết luận chương Trong Chương này, chúng tơi trình bày kiến trúc hệ thống chuyển đổi văn thành giọng nói dựa mơ hình mạng nơ ron học sâu tiên tiến đề xuất gần mạng FastSpeech Mạng FastSpeech có nhiều ưu điểm độ xác tốc độ xử lý, phù hợp với ứng dụng thực tế yêu cầu yếu tố thời gian thực Các thành phần FastSpeech mô tả thảo luận chi tiết chương Để huấn luyện mạng FastSpeech, sử dụng liệu Việt Nam bổ sung thêm để nâng cao hiệu chất lượng tổng hợp giọng Cụ thể, liệu huấn luyện gồm có 25,000 ghi, ghi gồm có tệp âm (định dạng wav, tần số âm 22050Hz) tệp văn tương ứng với nội dung âm Các tham số cấu hình huấn luyện thiết lập dựa cấu hình máy GPU sử dụng (GTX 1070 Ti RAM 8GB) Do máy GPU có lực xử lý nhớ mức trung bình nên tham số huấn luyện thiết lập tương đối thấp, chẳng hạn batch size = 16, số lần lặp epochs = 200 Để đánh giá chất lượng trình huấn luyện, cung cấp biểu đồ trực quan mô tả trạng thái hàm mục tiêu (loss functions) sử dụng mơ hình Fast Speech Kết cho thấy hàm mục tiêu hội tụ nhanh ổn định Đặc biệt, kết thử nghiệm số liệu kiểm thử cho thấy hệ thống FastSpeech có khả xử lý chuỗi văn với tốc độ nhanh, phù hợp với ứng dụng cần yếu tố thời gian thực phát viên ảo, ứng dụng đọc tự động trang thông tin xã hội, báo điện tử… Dựa kết hoạt động mạng FastSpeech, xây dựng giải pháp tích hợp vào hệ thống chuyển đổi số cấp xã thông qua kỹ thuật giao tiếp ứng dụng API Các mơ tả kỹ thuật q trình tích hợp kết nối trình bày chi tiết, cụ thể Chương 63 Chương KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Luận văn nghiên cứu tốn chuyển đổi văn thành giọng nói ứng dụng để tích hợp vào hệ thống chuyển đổi số cấp xã nhằm cung cấp thông tin đa dạng, phong phú đến người sử dụng cuối Luận văn gồm chương, nội dung chương tóm tắt sau: - Chương 1: trình bày ngữ cảnh cách mạng công nghiệp lần thứ sóng chuyển đổi số Việt Nam Các giải pháp phục vụ chuyển đổi số mà quan tác giả (VNTP Thanh Hóa) nghiên cứu, phát triển cung cấp cho quan, đơn vị Chương trình bày phát triển cơng nghệ lõi, đặc biệt cơng nghệ trí tuệ nhân tạo thành tựu lĩnh vực phân tích, nhận dạng tổng hợp giọng nói Kết thúc Chương 1, giới thiệu số ứng dụng thực tiễn ứng dụng tiềm cần đến tốn chuyển đổi văn thành giọng nói - Chương 2: Nội dung trọng tâm chương phân tích đánh giá phương pháp giải tốn chuyển đổi văn thành giọng nói Tác giả tìm hiểu, nghiên cứu lựa chọn phương pháp tiêu biểu nhất, mang tính đại diện, có cập nhật cơng nghệ, để trình bày thảo luận Nội dung Chương có giá trị tham khảo nguồn tài liệu có giá trị cho nghiên cứu khác lĩnh vực tổng hợp giọng nói - Chương 3: trình bày tổng quan hệ thống chuyển đổi số quan nhằm cung cấp thông tin đa dạng, đa chiều đến người dùng cuối Chương trình bày chi tiết cơng nghệ phát triển hệ thống, kiến trúc chức năng, đặc tả use-case chính, thiết kế sở liệu hệ thống thông tin chuyển đổi số cấp xã Chương mơ tả giao tiếp lập trình ứng dụng (API) để kết nối với hệ thống thông tin khác nhằm chia sẻ, khai thác tối đa liệu dùng chung 64 - Chương 4: trình bày đóng góp tác giả việc ứng dụng mơ hình mạng nơ ron học sâu FastSpeech để huấn luyện tập liệu Việt Nam nhằm xây dựng hệ thống chuyển đổi văn thành giọng nói tự động, hiệu quả, độ xác cao Chúng tơi trình bày chi tiết vấn đề kỹ thuật trình huấn luyện đánh giá chất lượng huấn luyện Cuối cùng, chúng tơi trình bày giải pháp tích hợp mơ hình huấn luyện vào hệ thống thơng tin chuyển đổi số cấp xã xây dựng kịch chạy thử nghiệm (demo) Kết thực nghiệm cho thấy hệ thống hoạt động ổn định, hiệu quả, độ trễ thấp Kiến nghị Tác giả đề xuất số kiến nghị sau: - Đề nghị quan chủ quản tiếp tục đầu tư nguồn lực cần thiết để hoàn thiện mơ hình chuyển đổi văn thành giọng nói, chẳng hạn: đầu tư xây dựng bổ sung nguồn liệu huấn luyện; bổ sung liệu vùng miền khác nhau; nâng câp máy GPU để tối ưu hiệu huấn luyện - Đề nghị đơn vị phát triển giải pháp chuyển đổi số cấp xã đồng ý chủ trương ứng dụng triển khai hệ thống tích hợp chuyển đổi văn thành giọng nói quy mơ rộng, đồng - Tiếp tục đầu tư nguồn lực để cải tiến kiến trúc mạng FastSpeech cho phù hợp với liệu đặc thù Việt Nam, cải tiến độ xác, giảm tốc độ xử lý 65 TÀI LIỆU THAM KHẢO Tài liệu Tiếng Anh: [1] Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, Koray Kavukcuoglu(2016), “WaveNet: A Generative Model for Raw Audio”, arXiv, 1609.03499 [2] Aaron van den Oord et al (2016),“WaveNet: A Generative Model for Raw Audio”, arXiv,1609.03499 [3] Dinh Anh Tuan, Phi Tung Lam, Phan Dang Hung (2012), “A study of text normalization in Vietnamese for text-to-speech system”, Proceedings of Oriental COCOSDA Conference, Macau, China [4] Dat Quoc Nguyen, Dai Quoc Nguyen, Thanh Vu, Mark Dras and Mark Johnson (2018), “A Fast and Accurate Vietnamese Word Segmenter, In Proceedings of the 11th International Conference on Language Resources and Evaluation, LREC, pages 2582-2587 [5] Heiga Zen, Keiichi Tokuda, Alan W Black(2009), Statistical parametric speech synthesis, Speech Communication, Volume 51, Issue 11 [6] https://github.com/NTT123/vietTTS [7].https://github.com/TensorSpeech/TensorFlowASR/blob/main/READ ME.md#vietnamese [8] Jonathan Shen, Ruoming Pang, Ron J Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, Rif A Saurous, Yannis Agiomyrgiannakis, Yonghui Wu(2017), “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions”, arXiv, 1712.05884 [9] Masuko(2002), T.: HMM-Based Speech Synthesis and Its Applications, 185 [10] Naihan Li et al (2018), “Neural Speech Synthesis with Transformer Network”, arXiv, 1809.08895 66 [11] Sercan O Arik et al (2017), “Deep Voice: Real-time Neural Textto-Speech”, arXiv,1702.07825 [12] Sercan O Arik, Mike Chrzanowski, Adam Coates, Gregory Diamos, Andrew Gibiansky, Yongguo Kang, Xian Li, John Miller, Andrew Ng, Jonathan Raiman, Shubho Sengupta, Mohammad Shoeybi(2017), “Deep Voice: Real-time Neural Text-to-Speech”, arXiv, 1702.07825, [13] Tom Le Paine, Pooya Khorrami, Shiyu Chang, Yang Zhang, Prajit Ramachandran, Mark A Hasegawa-Johnson, Thomas S Huang(2016), “Fast Wavenet Generation Algorithm”, arXiv, 1611.09482v1 [14] Thu-Trang Thi Nguyen (2010), “A method for Vietnamese text normalization to improve the quality of speech synthesis”, Proceedings of the 2010 Symposium on Information and Communication Technology [15] Tuan Dinh, Alexander Kain (2020), “Increasing the Intelligibility and Naturalness of Alaryngeal Speech Using Voice Conversion and Synthetic Fundamental Frequency”, INTERSPEECH [16] Thanh Vu, Dat Quoc Nguyen, Dai Quoc Nguyen, Mark Dras and Mark Johnson (2018),“VnCoreNLP: A Vietnamese Natural Language Processing Toolkit”, In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations, pages 56-60 [17] Van den Oord, Aaron, Kalchbrenner, Nal, Vinyals, Oriol, Espeholt, Lasse, Graves, Alex, and Kavukcuoglu, Koray (2016), Conditional image generation with PixelCNN decoders CoRR, abs/1606.05328,b URL http://arxiv.org/abs/1606.05328 [18] Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A N.; Kaiser, L.; and Polosukhin, I (2017), Attention is all you need In Advances in Neural Information Processing Systems, 5998–6008 [19] Yuxuan Wang et al (2017), “Tacotron: Towards End-to-End Speech Synthesis”, arXiv,1703.10135 67 [20] Yi Ren, Yangjun Ruan, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu (2019), "FastSpeech: Fast, Robust and Controllable Text to Speech", arXiv:1905.09263 [cs.CL] [21] Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu(2020), "FastSpeech 2: Fast and High-Quality End-to-End Text to Speech", arXiv, 2006.04558 [eess.AS] [22] Yuxuan Wang, RJ Skerry-Ryan, Daisy Stanton, Yonghui Wu, Ron J Weiss, Navdeep Jaitly, Zongheng Yang, Ying Xiao, Zhifeng Chen, Samy Bengio, Quoc Le, Yannis Agiomyrgiannakis, Rob Clark, Rif A Saurous(2017), “Tacotron: Towards End-to-End Speech Synthesis”, arXiv, 1703.10135 [23] Yuxuan Wang, Daisy Stanton, Yu Zhang, RJ Skerry-Ryan, Eric Battenberg, Joel Shor, Ying Xiao, Fei Ren, Ye Jia, Rif A Saurous(2018), “Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-toEnd Speech Synthesis”, arXiv, 1803.09017 68