1. Trang chủ
  2. » Luận Văn - Báo Cáo

Mô hình ngắt nghỉ trong tổng hợp tiếng nói tiếng việt

67 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 67
Dung lượng 1,5 MB

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Mơ hình ngắt nghỉ tổng hợp tiếng nói tiếng Việt NGUYỄN HỒNG KỲ ky.nhcb190199@sis.hust.edu.vn Ngành Cơng Nghệ Thơng Tin Giảng viên hướng dẫn: TS Nguyễn Thị Thu Trang Viện: Công nghệ thông tin Truyền thông HÀ NỘI, 04/2021 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Nguyễn Hoàng Kỳ Đề tài luận văn: Mơ hình ngắt nghỉ tổng hợp tiếng nói tiếng Việt Chuyên ngành: Khoa học liệu Mã số SV: CB190199 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 29/04/2021 với nội dung sau: - Chỉnh sửa cách xưng hô luận văn, hạn chế sử dụng “em”, “tôi”, Không sử dụng trực tiếp thuật ngữ tiếng Anh, lập bảng từ viết tắt thuật ngữ Chỉnh sửa lại mơ hình tổng quan Hình 4.2: Vị trí mơ hình phân tích cú pháp thành phần trình huấn luyện, đồng hố hình bước huấn luyện Thêm ví dụ minh hoạ ý nghĩa Ví dụ hoạ khối cú pháp, liên kết cú pháp Giải thích kĩ mục đích trước thực nghiệm đánh giá phân tích cú pháp Trình bày lý thuyết thuật toán giám sát định, làm rõ đầu vào, đầu thuật toán chương 3,4 Trình bày cụ thể đặc trưng tối ưu sử dụng phương pháp đề xuất Trình bày cụ thể kết áp dụng số câu liệu kiểm thử Ngày 28 tháng 05 năm 2021 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG Lời cảm ơn Đầu tiên, xin phép gửi lời cảm ơn chân thành tới TS Nguyễn Thị Thu Trang, cô nhà giáo có tâm có tầm, tận tình bảo, giúp đỡ suốt khoảng thời gian thực luận văn Tôi xin chân thành cảm ơn tồn thể Ban lãnh đạo nhà trường, thầy trường Đại học Bách Khoa Hà Nội nói chung thầy cô Viện Công nghệ thông tin Truyền thơng nói riêng, tạo điều kiện cho tơi q trình hồn thành luận văn Tơi xin gửi lời cảm ơn tới tồn thể anh, chị bạn bè học tập làm việc phịng thí nghiệm Lab914, người nhiệt tình giúp đỡ, truyền đạt lại cho nhiều kinh nghiệm suốt khoảng thời gian quý báu vừa qua Tôi xin chân thành cảm ơn ! Tóm tắt nội dung luận văn Yếu tố ngắt nghỉ ảnh hưởng lớn tới chất lượng độ tự nhiên giọng nói tổng hợp, nhiên có nghiên cứu vấn đề tương tự cho ngôn ngữ tiếng Việt Mục tiêu luận văn tập trung nghiên cứu xây dựng mơ hình dự đoán ngắt nghỉ cho hệ thống tổng hợp tiếng nói tiếng Việt dựa DNN End-to-end Do hệ thống dự đốn thời gian ngắt nghỉ dựa ngữ cảnh văn đầu vào, nhiệm vụ mơ hình dự đốn ngắt nghỉ vị trí ngắt nghỉ phù hợp văn Luận văn đề xuất mô hình dự đốn ngắt nghỉ sử dụng ba đặc trưng: khối cú pháp, liên kết cú pháp, từ loại Khối cú pháp đoạn cú pháp có độ dài bị giới hạn Liên kết cú pháp từ mối quan hệ độ cao thấp cú pháp từ với từ Luận văn thực thực nghiệm với mơ hình ngắt nghỉ liệu tiếng nói phát viên miền Bắc miền Nam Sử dụng độ đo Precision, Recall F-score để đánh giá độ xác mơ hình dự đốn ngắt nghỉ Luận văn so sánh số mơ hình phân loại dựa định thuộc họ thuật toán boosting Mơ hình LightGBM cho kết F-score cao với 87,0% tập liệu kiểm thử Luận văn tích hợp triển khai mơ hình ngắt nghỉ vào ba loại hệ thống tổng hợp tiếng nói: HMM (trên tảng MaryTTS), DNN (nền tảng Merlin, với mơ hình dự đốn thời gian mơ hình dự đốn âm có kiến trúc mạng nơ-ron đầy đủ), End-to-end (sử dụng mơ hình dự đốn đặc trưng âm học Tacotron Vocoder WaveGlow) Kết thí nghiệm cảm thụ cho thấy độ tự nhiên giọng nói có sử dụng mơ hình ngắt nghỉ tăng từ tới 10% so với giọng nói khơng sử dụng mơ hình ngắt nghỉ Trong tương lai, nghiên cứu phân tích mở rộng sang nhiều giọng tiếng Việt khác, đa dạng giới tính lẫn vùng miền Chúng dự định mở rộng nghiên cứu sang ngôn ngữ khác để phân tích tương đồng, định nghĩa định dạng chung cho nhiều ngôn ngữ, hướng tới xây dựng mơ hình phân đoạn tiếng nói đa ngơn ngữ HỌC VIÊN Ký ghi rõ họ tên MỤC LỤC CHƯƠNG BÀI TOÁN DỰ ĐOÁN NGẮT NGHỈ TRONG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT 1.1 Tổng hợp tiếng nói 1.2 Mơ hình ngắt nghỉ tổng hợp tiếng nói 1.3 Mục tiêu phạm vi đề tài 1.4 Định hướng giải pháp 1.5 Bố cục luận văn CHƯƠNG CƠ SỞ LÝ THUYẾT 2.1 Tổng hợp tiếng nói 2.1.1 Tổng quan 2.1.2 Phân loại 2.2 Phương pháp đánh giá 13 2.3 Cây cú pháp tiếng Việt 14 2.4 2.3.1 Lý thuyết ngữ pháp 14 2.3.2 Cú pháp 16 2.3.3 Kĩ thuật phân tích cú pháp 18 Mơ hình phân loại họ tập hợp dựa định 19 2.4.1 Thuật toán C4.5 19 2.4.2 Thuật toán Rừng ngẫu nhiên (RandomForest) 20 2.4.3 Thuật toán Adaboost 20 2.4.4 Thuật toán XGBoost thuật toán LightGBM 20 CHƯƠNG ĐẶC TRƯNG CÚ PHÁP VÀ PHÂN TÍCH CÚ PHÁP THÀNH PHẦN TIẾNG VIỆT VỚI HỌC SÂU 23 3.1 Đặt vấn đề 23 3.2 Đặc trưng khối cú pháp 23 3.2.1 Mối liên hệ cú pháp thành phần ngắt nghỉ 23 3.2.2 Đặc trưng khối cú pháp 24 3.3 Đặc trưng liên kết cú pháp 25 3.4 Mô hình phân tích cú pháp thành phần cho mơ hình ngắt nghỉ 27 3.5 3.4.1 Đề xuất mơ hình phân tích cú pháp 27 3.4.2 Độ đo mơ hình phân tích cú pháp 30 Thực nghiệm đánh giá 30 CHƯƠNG MƠ HÌNH NGẮT NGHỈ TIẾNG VIỆT VÀ THỰC NGHIỆM 32 4.1 Giải pháp tổng quan 32 4.1.1 Các liệu 32 4.1.2 Mơ hình tổng quan 33 4.2 Đề xuất mơ hình dự đốn ngắt nghỉ 34 4.3 Thực nghiệm mơ hình ngắt nghỉ 35 4.3.1 Độ đo mơ hình ngắt nghỉ 35 4.3.2 Thực nghiệm 35 4.3.3 Kết 37 CHƯƠNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT HỌC SÂU CÓ ỨNG DỤNG MƠ HÌNH NGẮT NGHỈ VÀ THỰC NGHIỆM 40 5.1 Đề xuất giải pháp tích hợp mơ hình dự đốn ngắt nghỉ 40 5.2 Hệ thống tổng hợp tiếng nói tiếng Việt dựa DNN 41 5.3 Xây dựng mơ hình tổng hợp tiếng nói End-to-end 44 5.4 5.3.1 Tacotron2 – mạng nơ-ron dự đoán Spectrogram 45 5.3.2 WaveGlow 46 Thí nghiệm cảm thụ mơ hình ngắt nghỉ 47 5.4.1 Triển khai 47 5.4.2 Bài kiểm tra MOS 47 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 50 6.1 Kết luận 50 6.2 Hướng phát triển 51 TÀI LIỆU THAM KHẢO 52 PHỤ LỤC 58 DANH MỤC HÌNH VẼ Hình 2.1 Kiến trúc tổng quan hệ thống tổng hợp tiếng nói [7] Hình 2.2 Kiến trúc tổng quan hệ thống tổng hợp tiếng nói dựa HMM [23] Hình 2.3 Kiến trúc tổng quan hệ thống tổng hợp tiếng nói dựa DNN [8] 10 Hình 2.4 Kiến trúc tổng quan hệ thống tổng hợp tiếng nói End-to-end 12 Hình 2.5 Mel-Spectrogram Mel-Scale 12 Hình 2.6 Phân loại thành phần mệnh đề 17 Hình 3.1 Độ dài ngắt nghỉ vị trí cuối khối cú pháp có độ dài từ tới 17 [7] 24 Hình 3.2 Ví dụ phân tích đặc trưng khối cú pháp 25 Hình 3.3 Mã giả thuật tốn phân tích khối cú pháp 26 Hình 3.4 Ví dụ minh hoạ giá trị liên kết cú pháp [7] 27 Hình 3.5 Kiến trúc mã hóa – giải mã kết hợp ý thần kinh phân tích cú pháp tiếng Việt [57] 28 Hình 3.6 Ví dụ chuyển đổi cú pháp thành đầy đủ thành cú pháp thành phần không nhãn 30 Hình 4.1 Các thiết bị thu âm chuyên nghiệp phịng thu Sài Gịn 32 Hình 4.2 Giải pháp tổng quan mơ hình dự đốn ngắt nghỉ 33 Hình 4.3 Minh hoạ giải pháp dự đốn vị trí ngắt nghỉ 34 Hình 5.1 Giải pháp tổng quan tích hợp mơ hình ngắt nghỉ 40 Hình 5.2 Tổng quan mơ hình tổng hợp tiếng nói DNN sử dụng framework Merlin [9] 41 Hình 5.3 Mơ hình tổng quan vocoder WORLD [72] 44 Hình 5.4 Mơ hình tổng hợp tiếng nói End-to-end xây dựng Tacotron2 [12] WaveGlow [73] 45 Hình 5.5 Giao diện cơng cụ đánh giá điểm MOS cho giọng nói 48 Hình 5.6 So sánh điểm số MOS giọng nói thí nghiệm cảm thụ 49 DANH MỤC BẢNG BIỂU Bảng 2.1 Bộ liệu VietTreebank [31] 14 Bảng 2.2 Tập liệu gán nhãn từ loại tiếng Việt 15 Bảng 3.1 Thông số phiên mơ hình ngơn ngữ PhoBERT 29 Bảng 3.2 So sánh độ xác mơ hình phân tích cú pháp thành phần 31 Bảng 4.1 Cấu hình máy chủ sử dụng thực nghiệm 37 Bảng 4.2 Kết thử nghiệm mơ hình ngắt nghỉ tập liệu VDTO 37 Bảng 4.3 So sánh độ xác mơ hình học máy khác 38 Bảng 4.4 Độ xác mơ hình ngắt nghỉ hai liệu SPK01 SPK02 38 Bảng 4.5 Một số ví dụ kết câu đầu vào sau qua mơ hình ngắt nghỉ 39 Bảng 5.1 Chi tiết đặc trưng đầu vào mô hình TTS dựa DNN 42 Bảng 5.2 Thơng tin giọng nói sử dụng thí nghiệm cảm thụ 48 DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên NLU Natural Language Understanding Hiểu ngơn ngữ tự nhiên TTS Text-To-Speech Tổng hợp tiếng nói G2P Grapheme To Phoneme Chuyển đổi tả thành cách phát âm CRF Conditional Random Field Trường điều kiện ngẫu nhiên RNN Recurrent Neural Network Mạng nơ-ron hồi quy POS Part-Of-Speech Từ loại Neural network Mạng nơ-ron HMM-based TTS Tổng hợp tiếng nói dựa mơ hình markov ẩn DNN-based TTS Tổng hợp tiếng nói dựa mạng nơ-ron sâu End-to-end TTS Tổng hợp tiếng nói đầu-cuối k-Fold Cross Validation Kiểm thử chéo k phần Duration Trường độ Pitch Cao độ F0 Tần số Spectrum Quang phổ Fully connected feedforward network Mạng nơ-ron kết nối đầy đủ Self-Attention Cơ chế tự ý thần kinh CHƯƠNG BÀI TỐN DỰ ĐỐN NGẮT NGHỈ TRONG TỔNG HỢP TIẾNG NĨI TIẾNG VIỆT Để có nhìn tổng qt tốn dự đốn ngắt nghỉ tổng hợp tiếng nói tiếng Việt, Chương trình bày khái niệm, vai trò ứng dụng thực tiễn tổng hợp tiếng nói Phần trình bày khái niệm vị trí mơ hình ngắt nghỉ tổng hợp tiếng nói, cách tiếp cận nghiên cứu liên quan ngồi nước Từ đó, chương xác định phạm vi, mục tiêu luận văn, định hướng giải pháp bố cục trình bày luận văn 1.1 Tổng hợp tiếng nói Sự phát triển trí tuệ nhân tạo song hành cách mạng 4.0 thời kỳ bùng nổ mạnh mẽ Trong đó, hệ thống chuyển đổi văn thành giọng nói (Text-To-Speech - TTS) - thuộc vùng giao thoa lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) [1] công nghệ tiếng nói (Speech Technology) [2] - ngày ý, trở lên phổ biến ứng dụng thực tế nhiều hết Tổng hợp tiếng nói (Text-To-Speech - TTS) nhận nhiều ý khơng giới nghiên cứu mà cịn doanh nghiệp có quy mơ từ nhỏ tới lớn Tổng hợp tiếng nói q trình hiểu văn ngôn ngữ tự nhiên dựa tảng trí tuệ nhân tạo để tạo âm tổng hợp hoàn chỉnh với nhịp điệu ngữ điệu phù hợp Với phát triển nhanh chóng TTS năm gần đây, khơng cịn xuất hệ thống đại mà phát âm giống máy móc Khái niệm hệ thống TTS chất lượng cao xuất năm 80, kết phát triển nghiên cứu quan trọng xử lý tiếng nói kỹ thuật xử lý ngôn ngữ tự nhiên, phần lớn nhờ vào xuất công nghệ Trong năm gần đây, cải thiện vượt bậc mặt chất lượng giúp hệ thống TTS ứng dụng nhiều vào nhiều lĩnh vực đời sống Một hệ thống TTS sử dụng sống nhằm hỗ trợ người khiếm thị đọc văn từ sách chuyển đổi thành tiếng nói Mặc dù chất lượng giọng nói hệ thống sơ khai chưa tự nhiên, gây nhiều bất ngờ thích thú cho người khiếm thị thuận tiện sử dụng so sánh với phương pháp đọc truyền thống khác đọc chữ hay nhờ người thật đọc [3] Ngày nay, có nhiều hệ thống tổng hợp tiếng nói hỗ trợ người khiếm thị tương tác với máy vi tính Một ứng dụng quan trọng lâu đời phải kể tới ứng dụng đọc tên thành phần hình máy tính, người dùng hệ thống TTS tích hợp máy tính hỗ trợ di chuyển chuột điều khiển máy tính Ngồi ra, hệ thống TTS cịn sử dụng để giúp người gặp khó khăn phát âm, hỗ trợ bệnh nhân bị khiêm thính nặng, thường thơng qua thiết bị hỗ trợ giao tiếp đầu giọng nói [4] Hiện nay, có nhiều sách nói đồ chơi sử dụng cơng nghệ tổng hợp tiếng nói Các cơng nghệ tổng hợp tiếng nói chất lượng cao tích hợp vào hệ thống giao dục, giúp người học học ngôn ngữ TTS cịn ứng dụng trị chơi, cơng cụ đọc tin nhắn, đọc e-mail, đồ đường, Trong cách mạng 4.0, ứng dụng quan trọng TTS tổng đài tự động, trở lý ảo, voice-bot Những hệ thống giúp tự động hố trung tâm chăm sóc khách hàng, giúp doanh nghiệp tăng doanh thu, giảm chi phí vận hành Trên điện thoại di động, số ứng dụng tương tác giọng nói (trợ lý ảo) nối tiếng sử dụng TTS đa ngơn ngữ kể tới Google Now, Apple Siri [5], Samsung S-Voice, Một hệ thống tổng hợp tiếng nói bao gồm hai thành phần lớn Thành phần thành phần tổng hợp mức cao, hay cịn gọi thành phần xử lý ngơn ngữ tự nhiên Nhiệm vụ thành phần xử lý văn đầu vào tạo đặc trưng âm học Thành phần thứ hai thành phần tổng hợp mức thấp hay thành phần xử lý tiếng nói số Thành phần xử lý chuyển đổi dạng đặc trưng âm học thành tệp tiếng nói tương ứng Các thành phần hệ thống tổng hợp tiếng nói mơ tả chi tiết phần 2.1.1 Hiện nay, hệ thống tổng hợp tiếng nói chia thành loại theo công nghệ mà chúng sử dụng, bao gồm: (i) Hệ thống dựa mơ hình Markov ẩn (Hidden Markov Model - HMM), (ii) Hệ thống dựa mạng nơ-ron sâu (Deep Neural Network - DNN) (iii) Hệ thống đầu cuối (end-to-end) Những loai hệ thống tổng hợp tiếng nói trình bày cách chi tiết phần 2.1.2 1.2 Mơ hình ngắt nghỉ tổng hợp tiếng nói Tuy có nhiều ứng dụng thực tiễn, hệ thống tổng hợp tiếng nói nhân tạo tổng hợp giọng nói máy móc, khơng có cảm xúc, khơng tự nhiên giọng người thật khiến việc sử dụng chúng phản tác dụng, gây nhàm chán tạo nhiều phản cảm cho người nghe Trong tình hình đó, nghiên cứu gần nỗ lực xây dựng thuật tốn mơ hình nhằm cải thiện chất lượng giọng nói cho hệ thống này, mong muốn tạo hệ thống tổng hợp tiếng nói đạt độ tự nhiên tương tự người Trong hệ thống tổng hợp tiếng nói, mơ hình ngắt nghỉ đóng vài trò quan trọng nhiệm vụ nâng cao độ tự nhiên tính dễ hiểu đoạn tiếng nói tổng hợp Các yếu tố ngắt nghỉ giả lập cách lấy cách đọc người phát viên thật dựa theo ngữ cảnh câu nói thực tế Các yếu tố giúp người nghe nhận khác biệt phân biệt giọng người thật giọng máy móc Các nghiên cứu nỗ lực cải thiện chất lượng thành phần hệ thống tổng hợp tiếng nói, thành phần phần đoạn tiếng nói nghiên cứu tiếp cận nhiều góc độ phương pháp khác Các hệ thống tổng hợp tiếng nói dựa HMM [6], [7] DNN [8], [9] khơng thể nhận biết vị trí cần ngắt nghỉ câu cách tự động cần cung cấp vị trí bước tiền xử lý Tuy nhiên, hệ thống dựa DNN dự đốn thời gian vị trí cần ngắt nghỉ đó, hệ thống dựa HMM khơng có khả Một số hệ thống đầu-cuối (End-to-end), ví dụ Tacotron [10], [11], Tacotron2 [12], Wavenet [12], [13], sử dụng lượng liệu khổng lồ cặp văn âm tương ứng để xây dựng cách phân đoạn tiếng nói trực tiếp từ q trình huấn luyện Tuy vậy, khơng phải liệu Hình 5.4 Mơ hình tổng hợp tiếng nói End-to-end xây dựng Tacotron2 [12] WaveGlow [73] 5.3.1 Tacotron2 – mạng nơ-ron dự đoán Spectrogram Tacotron2 [12] phát triển công bố Google vào cuối năm 2018 Nhiệm vụ mạng Tacotron2 chuyển đổi chuỗi kí tự sang chuỗi đặc trưng mel spectrogram Ưu điểm mơ hình khơng yêu cầu đặc trưng mặt ngôn ngữ phức tạp Chuỗi kí tự đầu vào dạng văn tiếng Việt thông thường, dạng dãy âm vị Mỗi âm vị biểu diễn số kí tự định.Với số ngơn ngữ khác có tả ngữ pháp tương đối quá, việc sử dụng cách biểu diễn dạng kí tự chữ khơng có khác biệt nhiều so với cách biểu diễn dạng chuỗi âm vị [74]; nhiên với ngơn ngữ có quán sử dụng cách biểu diễn dạng chuỗi âm vị giúp cho mơ hình Tacotron2 học nhanh dễ hội tụ Do tiếng Việt ngơn ngữ mà chữ có nhiều cách phát âm khác từ khác nhau, nên chọn sử dụng cách biểu diễn dạng chuỗi âm vị để huấn luyện mơ hình Tacotron2 cho tiếng Việt Ví dụ văn đầu vào sau chuyển đổi thành chuỗi âm vị tương ứng: “Xin chào bạn, tơi học Bách Khoa” Þ “si1n1 tsa2w2 ka6k6 ba7n7, to1j1 hOX8kp8 bEX6k6 xwp1a1” Các điệu biểu diễn số từ tới 8, điệu nhúng vào âm vị để tạo âm vị giống hệ thống tổng hợp tiếng nói dựa DNN (trình bày mục 5.2) Các âm vị từ phép nhúng thêm thông tin điệu cần thoả mãn điều kiện bao gồm: âm vị âm vị bắt đầu từ, âm vị nguyên âm âm vị nằm phía sau nguyên âm Các thành phần Tacotron2 kết hợp thành phần encoderattention-decoder sử dụng chế Location sensitive attention Encoder Phần Tacotron2 Encoder chuyển đổi chuỗi âm vị thành véc-tơ word embeding Các đặc trưng sau sử dụng để Decoder dự đoán phổ âm Kiến trúc Encoder bao gồm mạng: Mạng Character Enbedding sử dụng để mã hố kí tự, kích thước mạng tuỳ thuộc vào số 45 lượng từ định nghĩa từ điển; Mạng Conv, sau kết đầu mạng embeding đưa vào lớp Convolution 1D lớp số chứa 512 filters kịch thước × sau lớp Batch Normalization hàm kích hoạt ReLU; Mạng LSTM, đầu lớp tích chập cuối đưa vào mạng LSTM hai chiều chứa 512 đơn vị (256 đơn vị cho chiều) để sinh đặc trưng encoded Attention Mục đích lớp Attention giúp cho mơ hình tập trung không vào đặc trưng bước trước mà cịn đặc trưng vị trí Giả sử liệu đầu vào 𝑥 = 𝑥& , 𝑥" , 𝑥) … 𝑥- , sau qua mạng encoder (giới thiệu phần trên) cho chuỗi kết ℎ = ℎ& , ℎ" , ℎ) … ℎ- Một véc-tơ 𝐴(𝑖 ) = 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛(𝑠(𝑖 − 1), 𝐴(𝑖 − 1), ℎ) gọi alignment 𝑠(𝑖 − 1) trạng thái decoding trước 𝐴(𝑖 − 1) alignment bước trước Hàm Attention thường tính tốn cách tính điểm riêng thành phần ℎ cách độc lập sau chuẩn hố kết 𝐺 (𝑖 ) = 𝐴(𝑖, 0)ℎ(0) + 𝐴(𝑖, 1)ℎ(1) + 𝐴(𝑖, 𝑁)ℎ(𝑁) 𝑌(𝑖) = 𝐺𝑒𝑛𝑒𝑟𝑎𝑡𝑒(𝑠(𝑖 − 1), 𝐺(𝑖)) PT 5.2 𝑠(𝑖) = 𝐿𝑆𝑇𝑀(𝑠(𝑖 − 1), 𝐺 (𝑖 ), 𝑌(𝑖)) Hai hàm đặc trưng 𝐺 (𝑖 ) 𝑌 (𝑖 ) định nghĩa PT 5.2, trạng thái 𝑠(𝑖) tính tốn dựa vào hàm đặc trưng với chế Attention Decoder Mục đích mạng decoder sinh mel spectrogram từ kết đầu bước trước Đầu tiên mạng pre-net với lớp nơ-ron đầy đủ gồm 256 đơn vị hàm kích hoạt ReLU Đầu mạng pre-net kết nối với đầu mạng attention đưa qua lớp LSTM với 1024 đơn vị Cuối để dự đốn mel spectrogram véc-tơ đầu đưa qua lớp tích chập gọi postnet 5.3.2 WaveGlow WaveGlow [73] Vocoder phát triển tập đồn cơng nghệ NVIDIA Đây mạng nơ-ron dựa luồng có khả tổng hợp giọng nói chất lượng cao từ mel-spectrograms WaveGlow kết nghiên cứu kết hợp Glow WaveNet tạo khả tổng hợp âm nhanh chóng, hiệu chất lượng cao WaveGlow sử dụng mạng nơ-ron huấn luyện với hàm mát, giúp việc huấn luyện nhanh dễ dàng Mơ hình có kiến trúc giống nghiên cứu Glow Trong chiều lan truyền xi, samples audio nhóm lại, tạo thành véc-tơ, q trình cịn gọi trình nén liệu Các véc-tơ sau xử lý qua số bước gọi “luồng” Các bước luồng bao gồm mạng tích chập × đảo ngược theo sau lớp ghép nối affine 46 Kiến trúc mạng luận văn sử dụng tương đồng với thử nghiệm [73] bao gồm 12 lớp ghép nối (coupling layers) 12 mạng tích chập × đảo ngược Một lớp ghép nối lớp chập giãn, với 512 kênh sử dụng làm kết nối dư (residual connections) 256 kênh kết nối bỏ qua (skip connections) Mạng xuất kênh sau lớp ghép nối 5.4 Thí nghiệm cảm thụ mơ hình ngắt nghỉ Mục đích thí nghiệm cảm thụ kiểm tra xem mơ hình ngắt nghỉ ảnh hưởng tới độ tự nhiên giọng nói tổng hợp hệ thống tổng hợp tiếng nói xây dựng công nghệ khác nhau: hệ thống dựa HMM, hệ thống dựa DNN, hệ thống End-to-end (Ví dụ Tacotron+WaveGlow) Để tiến hành thí nghiệm này, cần thực công đoạn sau: (i) Thiết kế văn đầu vào, (ii) Huấn luyện mơ hình TTS dựa HMM, DNN End-to-end, (iii) Cài đặt mơ hình dự đốn ngắt nghỉ thành phần chuẩn hoá hệ thống TTS, (iv) Tổng hợp âm từ văn đầu vào, (v) thực kiểm tra MOS 5.4.1 Triển khai Trong nghiên cứu này, để đánh giá độ hiệu mơ hình ngắt nghỉ nhiều giọng nói vùng miền khác nhau, nhiều cơng nghệ tổng hợp tiếng nói từ truyền thống tới đại, tiến hành huấn luyện tổng cộng giọng nói nhân tạo với hệ thống tổng hợp tiếng nói giới thiệu Mơ hình tổng hợp tiếng nói dựa HMM Huấn luyện liệu VDTO – giọng nữ Hà Nội Mơ hình tổng hợp tiếng nói dựa DNN Huấn luyện hai giọng nói tương ứng với hai liệu là: SPK01 – giọng nam Hà Nội SPK02 – giọng nam Sài Gịn Mơ hình tổng hợp tiếng nói End-to-end Cơng nghệ End-to-end thử nghiệm thông qua việc sử dụng thêm liệu có tên SPK03 – giọng nữ Hà Nội 5.4.2 Bài kiểm tra MOS Bài kiểm tra MOS (Mean Opinion Score) lựa chọn để thực việc đánh giá độ tự nhiên giọng nói tổng hợp trước sau ứng dụng mơ hình ngắt nghỉ Các đối tượng tham gia đánh giá hỏi câu hỏi “Bạn đánh độ tự nhiên giọng nói mà bạn vừa nghe?” Hình 5.5 mơ tả giao diện mà đối tượng tham gia đánh giá độ tự nhiên sử dụng để đưa điểm số cho âm mà họ vừa nghe Mỗi kiểm tra bao gồm 30 câu Người nghe nghe câu một, cho điểm cho câu hồn thành việc nghe câu Điểm đánh giá cho thang điểm 5, từ thấp đến cao bao gồm: (1) Rất tự nhiên, hoàn toàn nhân tạo, (2) Kém tự nhiên, nhiều yếu tố nhân tạo, (3) Hơi tự nhiên, nhiều yếu tố nhân tạo, (4) Tương đối tự nhiên, giống giọng người thật, (5) Rất tự nhiên, giống giọng người thật 47 Hình 5.5 Giao diện cơng cụ đánh giá điểm MOS cho giọng nói Tổng cộng 30 câu văn trích cách ngẫu nhiên từ tập VDTOTesting, có số lượng âm tiết dao động khoảng từ tới 30 âm tiết Một số ví dụ câu văn trích trình bày phụ lục A1 Bảng 5.2 liệt kê giọng nói sử dụng kiểm tra MOS Bảng 5.2 Thơng tin giọng nói sử dụng thí nghiệm cảm thụ Giọng VDTO-Baseline VDTO-Boundary SPK01-Baseline SPK01-Boundary SPK02-Baseline SPK02-Boundary SPK03-Baseline SPK03-Boundary Bộ liệu huấn luyện giọng nói Vùng miền Cơng nghệ tổng hợp VDTO Hà Nội HMM SPK01 Hà Nội DNN SPK02 Sài Gòn SKP03 Hà Nội End-to-end Với mơ hình ứng với liệu, tổng hợp thành hai giọng tương ứng “Baseline” – không sử dụng mô hình ngắt nghỉ, “Boundary” – có sử dụng mơ hình ngắt nghỉ Có tất 34 người tham gia thực thí nghiệm cảm thụ, bao gồm 20 nam 14 nữ, độ tuổi từ 22 tới 32 tuổi Mỗi người tham gia kiểm 48 tra MOS tương ứng với liệu Tổng thời gian làm kiểm tra người kéo dài từ 30 tới 45 phút Hình 5.6 So sánh điểm số MOS giọng nói thí nghiệm cảm thụ Hình 5.6 thể kết kiểm tra MOS liệu công nghệ tổng hợp giới thiệu Trong công nghệ tổng hợp, giọng đọc có sử dụng mơ hình ngắt nghỉ (Boundary) có điểm số MOS cao khoảng xấp xỉ 0,3 điểm so với giọng đọc tương ứng không sử dụng mơ hình ngắt nghỉ (Baseline) Nói cách khác, độ tự nhiên giọng đọc cải thiện tăng từ tới 10% sử dụng mơ hình ngắt nghỉ Ngồi ra, xét giọng đọc có sử dụng mơ hình ngắt nghỉ, điểm số MOS giọng đọc tổng hợp cơng nghệ HMM (VDTO) có điểm số thấp (3.48), giọng đọc SPK03 sử dụng cơng nghệ tổng hợp tiếng nói đại (state-of-the-art) đạt điểm số MOS cao (4.21) 49 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1 Kết luận Tổng kết lại, tơi trình bày kiến thức tổng hợp tiếng nói nói chung tổng hợp tiếng nói tiếng Việt nói riêng Luận văn mô tả ba loại hệ thống tổng hợp tiếng nói phổ biến tại, (i) hệ thống tổng hợp tiếng nói dựa HMM, (ii) hệ thống tổng hợp tiếng nói dựa DNN, (iii) hệ thống tổng hợp tiếng nói End-to-end Chúng tơi đề xuất mơ hình dự đốn ngắt nghỉ tổng hợp tiếng nói tiếng Việt, sử dụng ba đặc trưng quan trọng (i) khối cú pháp, (ii) liên kết cú pháp, (iii) từ loại Khối cú pháp đoạn cú pháp có độ dài bị giới hạn Liên kết cú pháp từ mối quan hệ độ cao thấp cú pháp từ với từ Mơ hình C4.5 xây dựng định sử dụng để đánh giá 10fold cross-validation Đặc trưng khối cú pháp đặc trưng quan trọng mơ hình dùng đặc trưng đạt độ xác Precision (83,4%) Recall (71,1%), cao mơ hình sử dụng từ loại (F-score=43,6%) mơ hình sử dụng liên kết cú pháp (F-score=52,6%) Đặc trưng liên kết cú pháp giúp mô hình tăng độ xác Recall (tăng 6%) đặc trưng từ loại cung cấp thông tin giúp mô hình cải thiện độ xác Precision (tăng 4%) Tiếp theo, đặc trưng tiếp tục thử nghiệm với số thuật toán phân loại đại Mơ hình LightGBM, mơ hình thuộc họ thuật toán boosting xây dựng định, cho kết F-score cao với 87,0% tập liệu kiểm thử Mơ hình dự đốn ngắt nghỉ đề xuất khơng áp dụng vào hệ thống tổng hợp tiếng nói dựa HMM hay dựa DNN, mà cịn áp dụng với hệ thống TTS End-to-end đại Nhằm thực thí nghiệm cảm thụ, mơ hình ngắt nghỉ tích hợp triển khai vào ba loại hệ thống tổng hợp tiếng nói: HMM (xây dựng tảng MaryTTS, kế thừa từ [7]), DNN (sử dụng tảng Merlin, với mơ hình dự đốn thời gian mơ hình dự đốn âm có kiến trúc mạng nơ-ron đầy đủ), End-to-end (sử dụng mô hình học sâu, mơ hình dự đốn đặc trưng âm học Tacotron Vocoder WaveGlow) Kết thí nghiệm cảm thụ mơ hình ngắt nghỉ cho thấy độ tự nhiên giọng nói có sử dụng mơ hình ngắt nghỉ tăng từ tới 10% so với giọng nói khơng sử dụng mơ hình ngắt nghỉ Ngồi ra, độ tự nhiên giọng nói cịn tăng dần theo cơng nghệ tổng hợp tiếng nói từ truyền thống tới đại, hệ thống tổng hợp tiếng nói xây dựng dựa HMM cho độ tự nhiên giọng nói nhất, độ tự nhiên giọng nói hệ thống tổng hợp tiếng nói End-to-end tốt Giải pháp mơ hình dự đốn ngắt nghỉ đề xuất khơng giúp tăng độ tự nhiên giọng nói tổng hợp tất loại công nghệ tổng hợp tiếng nói phổ biến tại, mà cịn có khả tích hợp cách độc lập dễ dàng vào hệ thống Trong q trình thực luận văn này, tham gia viết đồng tác giả báo: “Vietnamese Text-To-Speech Shared Task VLSP 2020: Remaining problems with state-of-the-art techniques,” in Proceedings of the 7th International 50 Workshop on Vietnamese Language and Speech Processing, Hanoi, Vietnam, Dec 2020 [75], báo trình bày ảnh hưởng yếu tố ngắt nghỉ tới chất lượng công nghệ tổng hợp tiếng nói đại nay, động lực để luận văn hồn thành 6.2 Hướng phát triển Mơ hình dự đốn ngắt nghỉ cho độ xác tương đối tốt, nhiên mơ hình LightGBM có nhiều siêu tham số (hyper parameter), ví dụ như: số lượng nút tối đa, số lượng tối thiếu nút lá, độ sâu tối đa định, Các tham số thay đổi có khả ảnh hưởng tới chất lượng mơ hình dự đốn Do nghiên cứu tập trung thêm vào việc thay đổi giá trị siêu tham số, fine-tune mơ hình đạt độ xác tốt Hiện tại, khuôn khổ luận văn tốt nghiệp tập trung vào nghiên cứu đặc trưng trích xuất từ ngơn ngữ tiếng Việt mơ hình dự đốn ngắt nghỉ cho tổng hợp tiếng nói tiếng Việt Mặt khác, mơ hình ngắt nghỉ thử nghiệm liệu giọng nói miền Bắc (Hà Nội) miền Nam (Sài Gịn) Trong tương lai, nghiên cứu mở rộng sang thêm nhiều giọng khác tiếng Việt, đa dạng thêm giới tính lẫn vùng miền (ví dụ: bổ sung thêm thực nghiệm giọng nói phát viên miền Trung) Từ đề xuất mơ hình ngắt nghỉ có khả sử dụng chung ngôn ngữ, không dùng cho chất giọng riêng biệt Một hướng phát triển xa mở rộng nghiên cứu sang ngôn ngữ khác để phân tích tương đồng khác biệt ngơn ngữ Định nghĩa định dạng chung cho nhiều ngơn ngữ nhóm ngơn ngữ, hướng tới xây dựng mơ hình phân đoạn tiếng nói đa vùng miền, đa ngơn ngữ 51 TÀI LIỆU THAM KHẢO [1] G G Chowdhury, “Natural Language Processing,” p 39 [2] L R Rabiner and R W Schafer, “Introduction to digital speech processing,” Found Trends Signal Process., vol 1, no 1, pp 1–194, Jan 2007, doi: 10.1561/2000000001 [3] P Taylor, “Text-to-Speech Synthesis,” 2009 doi: 10.1017/cbo9780511816338 [4] M S Hawley et al., “A Voice-Input Voice-Output Communication Aid for People With Severe Speech Impairment,” IEEE Trans Neural Syst Rehabil Eng., vol 21, no 1, pp 23–31, Jan 2013, doi: 10.1109/TNSRE.2012.2209678 [5] M Hoy, “Alexa, Siri, Cortana, and More: An Introduction to Voice Assistants,” Med Ref Serv Q., vol 37, pp 81–88, Jan 2018, doi: 10.1080/02763869.2018.1404391 [6] M Schröder, M Charfuelan, S Pammi, and I Steiner, “Open source voice creation toolkit for the MARY TTS Platform,” p [7] T T T Nguyen, “HMM-based Vietnamese Text-To-Speech : Prosodic Phrasing Modeling, Corpus Design System Design, and Evaluation,” phdthesis, Université Paris Sud - Paris XI, 2015 Accessed: Apr 18, 2021 [Online] Available: https://tel.archives-ouvertes.fr/tel-01260884 [8] H Zen, A Senior, and M Schuster, “STATISTICAL PARAMETRIC SPEECH SYNTHESIS USING DEEP NEURAL NETWORKS,” p [9] Z Wu, O Watts, and S King, “Merlin: An Open Source Neural Network Speech Synthesis System,” Sep 2016, pp 202–207 doi: 10.21437/SSW.201633 [10] Y Wang et al., “Tacotron: Towards End-to-End Speech Synthesis,” ArXiv170310135 Cs, Apr 2017, Accessed: Apr 24, 2021 [Online] Available: http://arxiv.org/abs/1703.10135 [11] R Skerry-Ryan et al., “Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron,” p 10 [12] J Shen et al., “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions,” ArXiv171205884 Cs, Feb 2018, Accessed: Apr 22, 2021 [Online] Available: http://arxiv.org/abs/1712.05884 [13] A van den Oord et al., “WaveNet: A Generative Model for Raw Audio,” ArXiv160903499 Cs, Sep 2016, Accessed: Apr 24, 2021 [Online] Available: http://arxiv.org/abs/1609.03499 [14] Fu-Chiang Chou, Chiu-Yu Tseng, and Lin-Shan Lee, “Automatic generation of prosodic structure for high quality Mandarin speech synthesis,” in Proceeding of Fourth International Conference on Spoken Language Processing ICSLP ’96, Philadelphia, PA, USA, 1996, vol 3, pp 1624–1627 doi: 10.1109/ICSLP.1996.607935 [15] J Tao, H Dong, and S Zhao, “Rule learning based Chinese prosodic phrase prediction,” in International Conference on Natural Language Processing and Knowledge Engineering, 2003 Proceedings 2003, Oct 2003, pp 425–432 doi: 10.1109/NLPKE.2003.1275944 52 [16] C Lu, P Zhang, and Y Yan, “Self-attention Based Prosodic Boundary Prediction for Chinese Speech Synthesis,” in ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), May 2019, pp 7035–7039 doi: 10.1109/ICASSP.2019.8682770 [17] J Apel, F Neubarth, H Pirker, and H Trost, “Have a break! Modelling pauses in German Speech.,” p [18] P Chistikov and O Khomitsevich, “Improving Prosodic Break Detection in a Russian TTS System,” in Speech and Computer, Cham, 2013, pp 181– 188 doi: 10.1007/978-3-319-01931-4_24 [19] P Sarkar and K Rao, Data-Driven Pause Prediction for Speech Synthesis in Storytelling Style Speech 2015 doi: 10.13140/RG.2.1.2079.3042 [20] T T T Nguyen, A Rilliard, and D D Tran, “Prosodic Phrasing Modeling for Vietnamese TTS Using Syntactic Information,” p [21] L Selkirk, “On prosodic structure and its rela0on to syntac0c structure, again,” p 47 [22] M Nespor and I Vogel, “Prosodic Structure Above the Word,” in Prosody: Models and Measurements, A Cutler and D R Ladd, Eds Berlin, Heidelberg: Springer, 1983, pp 123–140 doi: 10.1007/978-3-642-69103-4_10 [23] H Zen, T Toda, M Nakamura, and K Tokuda, “Details of the Nitech HMM-Based Speech Synthesis System for the Blizzard Challenge 2005,” IEICE Trans., vol 90-D, pp 325–333, Jan 2007, doi: 10.1093/ietisy/e901.1.325 [24] T Fukada, K Tokuda, T Kobayashi, and S Imai, An adaptive algorithm for mel-cepstral analysis of speech, vol 1992, p 140 vol.1 doi: 10.1109/ICASSP.1992.225953 [25] A W Black, “D¡ epartment of Computer Science, Nagoya Institute of Technology Language Technologies Institute, Carnegie Mellon University,” p [26] K Tokuda, T Masuko, N Miyazaki, and T Kobayashi, “Hidden Markov models based on multi-space probability distribution for pitch pattern modeling,” in 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing Proceedings ICASSP99 (Cat No.99CH36258), Mar 1999, vol 1, pp 229–232 vol.1 doi: 10.1109/ICASSP.1999.758104 [27] K Tokuda, T Kobayashi, T Masuko, T Kobayashi, and T Kitamura, “Speech Parameter Generation Algorithms for HMM-Based Speech Synthesis,” in Proc ICASSP, 2000, pp 1315–1318 [28] H P Combrinck and E C Botha, On The Mel-scaled Cepstrum 1996 [29] M Sokolova and G Lapalme, “A systematic analysis of performance measures for classification tasks,” Inf Process Manag., vol 45, no 4, pp 427–437, Jul 2009, doi: 10.1016/j.ipm.2009.03.002 [30] P R Kroeger, Analyzing Grammar: An Introduction Cambridge University Press, 2005 [31] P T Nguyen, X L Vu, T M H Nguyen, van H Nguyen, and H P Le, “Building a Large Syntactically-Annotated Corpus of Vietnamese,” Aug 53 2009, p 6p Accessed: Apr 09, 2021 [Online] Available: https://hal.inria.fr/inria-00421103 [32] P Le-Hong, A Roussanaly, T M H Nguyen, and M Rossignol, “An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts,” Jul 2010, p 12 Accessed: Apr 09, 2021 [Online] Available: https://hal.inria.fr/inria-00526139 [33] P R Kroeger, Analyzing Grammar: An Introduction Cambridge University Press, 2005 [34] L Dao and A L Society, “The Vietnamese classifiers ‘CON’, ‘CÁI’ and the Natural Semantic Metalanguage (NSM) approach: a preliminary study,” Sep 2012 Accessed: Apr 10, 2021 [Online] Available: https://openresearchrepository.anu.edu.au/handle/1885/9327 [35] R D van V Jr and V van) Jr (Robert D., An Introduction to Syntax Cambridge University Press, 2001 [36] M Collins, “Head-Driven Statistical Models for Natural Language Parsing,” Comput Linguist., vol 29, no 4, pp 589–637, Dec 2003, doi: 10.1162/089120103322753356 [37] S Petrov and D Klein, “Improved Inference for Unlexicalized Parsing,” in Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Proceedings of the Main Conference, Rochester, New York, Apr 2007, pp 404–411 Accessed: Apr 27, 2021 [Online] Available: https://www.aclweb.org/anthology/N071051 [38] M Collins, “Discriminative Training Methods for Hidden Markov Models: Theory and Experiments with Perceptron Algorithms,” in Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing (EMNLP 2002), Jul 2002, pp 1–8 doi: 10.3115/1118693.1118694 [39] R Socher, J Bauer, C D Manning, and A Y Ng, “Parsing with Compositional Vector Grammars,” in Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Sofia, Bulgaria, Aug 2013, pp 455–465 Accessed: Apr 27, 2021 [Online] Available: https://www.aclweb.org/anthology/P13-1045 [40] E Charniak and M Johnson, “Coarse-to-Fine n-Best Parsing and MaxEnt Discriminative Reranking,” in Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL’05), Ann Arbor, Michigan, Jun 2005, pp 173–180 doi: 10.3115/1219840.1219862 [41] L Huang, “Forest Reranking: Discriminative Parsing with Non-Local Features,” in Proceedings of ACL-08: HLT, Columbus, Ohio, Jun 2008, pp 586–594 Accessed: Apr 27, 2021 [Online] Available: https://www.aclweb.org/anthology/P08-1067 [42] D McClosky, E Charniak, and M Johnson, “Reranking and Self-Training for Parser Adaptation,” in Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics, Sydney, Australia, Jul 2006, pp 337–344 doi: 10.3115/1220175.1220218 54 [43] J R Quinlan, “Induction of decision trees,” Mach Learn., vol 1, no 1, pp 81–106, Mar 1986, doi: 10.1007/BF00116251 [44] P Bonissone, J M Cadenas, M Carmen Garrido, and R Andrés DíazValladares, “A fuzzy random forest,” Int J Approx Reason., vol 51, no 7, pp 729–747, Sep 2010, doi: 10.1016/j.ijar.2010.02.003 [45] R E Schapire, “Explaining AdaBoost,” in Empirical Inference, B Schölkopf, Z Luo, and V Vovk, Eds Berlin, Heidelberg: Springer Berlin Heidelberg, 2013, pp 37–52 doi: 10.1007/978-3-642-41136-6_5 [46] T Chen and T He, “xgboost: eXtreme Gradient Boosting,” p [47] G Ke et al., “LightGBM: A Highly Efficient Gradient Boosting Decision Tree,” p [48] V Keri, S C Pammi, H India, and K Prahallad, Pause Prediction from Lexical and Syntax Information [49] P L Hong, T M H Nguyen, and A Roussanaly, “Vietnamese Parsing with an Automatically Extracted Tree-Adjoining Grammar,” in 2012 IEEE RIVF International Conference on Computing Communication Technologies, Research, Innovation, and Vision for the Future, Feb 2012, pp 1–6 doi: 10.1109/rivf.2012.6169832 [50] A Le, P Nguyen, H Vuong, M Pham, and T Ho, “An Experimental Study on Lexicalized Statistical Parsing for Vietnamese,” in 2009 International Conference on Knowledge and Systems Engineering, Oct 2009, pp 162–167 doi: 10.1109/KSE.2009.41 [51] Q Nguyen, N Nguyen, and Y Miyao, “Utilizing State-of-the-art Parsers to Diagnose Problems in Treebank Annotation for a Less Resourced Language,” in Proceedings of the 7th Linguistic Annotation Workshop and Interoperability with Discourse, Sofia, Bulgaria, Aug 2013, pp 19–27 Accessed: Mar 26, 2021 [Online] Available: https://www.aclweb.org/anthology/W13-2303 [52] Z Yang, D Yang, C Dyer, X He, A Smola, and E Hovy, “Hierarchical Attention Networks for Document Classification,” in Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, San Diego, California, Jun 2016, pp 1480–1489 doi: 10.18653/v1/N16-1174 [53] J Cross and L Huang, “Span-Based Constituency Parsing with a StructureLabel System and Provably Optimal Dynamic Oracles,” ArXiv161206475 Cs, Dec 2016, Accessed: Mar 26, 2021 [Online] Available: http://arxiv.org/abs/1612.06475 [54] D K Choe and E Charniak, “Parsing as Language Modeling,” in Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, Austin, Texas, Nov 2016, pp 2331–2336 doi: 10.18653/v1/D16-1257 [55] M Stern, J Andreas, and D Klein, “A Minimal Span-Based Neural Constituency Parser,” ArXiv170503919 Cs, May 2017, Accessed: Mar 26, 2021 [Online] Available: http://arxiv.org/abs/1705.03919 [56] D Fried, M Stern, and D Klein, “Improving Neural Parsing by Disentangling Model Combination and Reranking Effects,” ArXiv170703058 55 Cs, Jul 2017, Accessed: Mar 26, 2021 [Online] Available: http://arxiv.org/abs/1707.03058 [57] G Durrett and D Klein, “Neural CRF Parsing,” ArXiv150703641 Cs, Jul 2015, Accessed: Mar 27, 2021 [Online] Available: http://arxiv.org/abs/1507.03641 [58] A Vaswani et al., “Attention Is All You Need,” ArXiv170603762 Cs, Dec 2017, Accessed: Mar 27, 2021 [Online] Available: http://arxiv.org/abs/1706.03762 [59] N Kitaev and D Klein, “Constituency Parsing with a Self-Attentive Encoder,” ArXiv180501052 Cs, May 2018, Accessed: Mar 27, 2021 [Online] Available: http://arxiv.org/abs/1805.01052 [60] T.-V Tran, X.-T Pham, D.-V Nguyen, K Van Nguyen, and N L.-T Nguyen, “An Empirical Study for Vietnamese Constituency Parsing with Pretraining,” ArXiv201009623 Cs, Oct 2020, Accessed: Apr 27, 2021 [Online] Available: http://arxiv.org/abs/2010.09623 [61] D Q Nguyen and A T Nguyen, “PhoBERT: Pre-trained language models for Vietnamese,” ArXiv200300744 Cs, Oct 2020, Accessed: Mar 29, 2021 [Online] Available: http://arxiv.org/abs/2003.00744 [62] J Devlin, M.-W Chang, K Lee, and K Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” ArXiv181004805 Cs, May 2019, Accessed: Apr 24, 2021 [Online] Available: http://arxiv.org/abs/1810.04805 [63] T Wolf et al., “HuggingFace’s Transformers: State-of-the-art Natural Language Processing,” ArXiv191003771 Cs, Jul 2020, Accessed: Apr 24, 2021 [Online] Available: http://arxiv.org/abs/1910.03771 [64] E Black et al., “A Procedure for Quantitatively Comparing the Syntactic Coverage of English Grammars,” presented at the HLT 1991, 1991 Accessed: Mar 26, 2021 [Online] Available: https://www.aclweb.org/anthology/H911060 [65] P L Hong, T M H Nguyen, and A Roussanaly, “Vietnamese Parsing with an Automatically Extracted Tree-Adjoining Grammar,” in 2012 IEEE RIVF International Conference on Computing Communication Technologies, Research, Innovation, and Vision for the Future, Feb 2012, pp 1–6 doi: 10.1109/rivf.2012.6169832 [66] L Q Thang, H Noji, and Y Miyao, “Optimal Shift-Reduce Constituent Parsing with Structured Perceptron,” in Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), Beijing, China, Jul 2015, pp 1534–1544 doi: 10.3115/v1/P151148 [67] D Povey et al., “The Kaldi Speech Recognition Toolkit,” p [68] D Anguita, L Ghelardoni, A Ghio, L Oneto, and S Ridella, “The ‘K’ in K-fold Cross Validation,” Comput Intell., p 6, 2012 [69] Vbee, “Giải pháp chuyển văn thành giọng nói nhân tạo,” Vbee TTS https://vbee.vn (accessed Apr 24, 2021) 56 [70] N Dragoni et al., “Microservices: yesterday, today, and tomorrow,” ArXiv160604036 Cs, Apr 2017, Accessed: Apr 23, 2021 [Online] Available: http://arxiv.org/abs/1606.04036 [71] H Kawahara, “STRAIGHT, exploitation of the other aspect of VOCODER: Perceptually isomorphic decomposition of speech sounds,” Acoust Sci Technol., vol 27, no 6, pp 349–353, 2006, doi: 10.1250/ast.27.349 [72] M Morise, F Yokomori, and K Ozawa, “WORLD: A Vocoder-Based High-Quality Speech Synthesis System for Real-Time Applications,” IEICE Trans Inf Syst., vol E99.D, no 7, pp 1877–1884, 2016, doi: 10.1587/transinf.2015EDP7457 [73] R Prenger, R Valle, and B Catanzaro, “WaveGlow: A Flow-based Generative Network for Speech Synthesis,” ArXiv181100002 Cs Eess Stat, Oct 2018, Accessed: Apr 22, 2021 [Online] Available: http://arxiv.org/abs/1811.00002 [74] A Perquin, E Cooper, and J Yamagishi, “An Investigation of the Relation Between Grapheme Embeddings and Pronunciation for Tacotron-based Systems,” ArXiv201010694 Cs, Apr 2021, Accessed: Apr 24, 2021 [Online] Available: http://arxiv.org/abs/2010.10694 [75] T T T Nguyen, H K Nguyen, Q M Pham, and D M Vu, “Vietnamese Text-To-Speech Shared Task VLSP 2020: Remaining problems with state-ofthe-art techniques,” in Proceedings of the 7th International Workshop on Vietnamese Language and Speech Processing, Hanoi, Vietnam, Dec 2020, pp 35–39 Accessed: Apr 24, 2021 [Online] Available: https://www.aclweb.org/anthology/2020.vlsp-1.7 57 PHỤ LỤC A1 Chi tiết câu văn sử dụng thí nghiệm cảm thụ ngắt nghỉ STT Văn Các đường Thục khơng phải lo lắm, có đường núi âm Bình cần phải cẩn thận Củ cải đỏ Giúp thơng tiện nó, chống lại nhăn da có tác dụng làm lơng tóc óng mượt Bản thân Lâm thân giả dối thượng thặng đóng kịch giỏi, biết tạo nhìn thẳng thắn qua cặp kính trắng, biết giận trực lúc chỗ Bước tiến thân quan trọng chuyến học Hà Lan Ơi chuyện đề tài thơi, mà có bao chuyện để nói Người ta bắt đầu đóng hịm, đào huyệt tẩm liệm ơng giáo Đến cơng ty hồn tất nghĩa vụ chuyển tiền xong, thơng tin bán rẻ đất cơng ập đến, bà Loan nói Tơi tiến lại chỗ để nhạc cụ với lấy guitare quen thuộc gắn ampli, mở điện thử dây Khơng nhón chân Yên Nhi gõ guốc nhà, gây tiếng động lớn Hải ung dung vào phòng khách, gặp bà Khoa 10 Ở nhà hai thằng xăm bước ra, tay thằng cầm chĩa đâm ếch 11 Trường hợp bạn cần bận tâm đến sữa mẹ ánh hồng, trơng bình thường màu trắng vàng kem xanh tiết từ bầu ngực người mẹ, sau chuyển sang màu hồng tươi hồng sẫm 12 Tùng đâu biết Nam vốn chàng trai toàn truyền thuyết, học thức người biết nấu ăn giỏi thể thao chẳng ngán ngẩm trái bi-a xoay trịn 13 Cũng chưa bao giờ, cảm giác bơ vơ đơn độc xâm chiếm làm tan nát trái tim non nớt nó, lúc 14 Thạc sĩ Tường khuyến cáo muốn uống trà sữa mà không ảnh hưởng đến sức khoẻ, nên hạn chế dần số lượng uống tuần 15 Mắt nhìn lướt qua phòng, nhảy từ bàn ọp ẹp qua giá sách bề bộn liếc ban nhạc abba lồng khung ảnh khổ lớn 58 chút, liếc giỏ rác bị rác chơn kín góc phịng chút cuối dừng hẳn lại giường bừa bãi bọn Mẫn 16 Nhờ vụ án liên quan đến vị chóp bu quận thành phố, mà Năm hưởng án treo cho nghỉ việc nhà ni bị 17 Và tơi co tay lại, Tơi nhớ giấc mơ co tay lại, bắp thịt cuồn cuộn 18 Lập tức bám theo rễ ấy, trèo lên 19 Nàng đứng tựa đấy, khoanh tay ủ lấy hướng mặt phía tơi 20 Con thứ trẫm Tân gồm đủ ơn uy có đức có nhân nối nghiệp lớn, giữ quy mô lớn lao để thống quát việc triều 21 Thậm chí xi-i-âu mark zuckerberg COO sheryl sandberg, tham gia quyên góp 22 Mất hai giờ, đến hộ anh 23 Không dám mà dám kêu cơ, Liên dù phải biết dâu vợ gái nheo nhẻo ăn chưa no, lo chưa tới đâu, mà ngủ tới trưa trờ trưa trật chịu dậy cô 24 Nhưng lúc đêm nay, ả 25 Bà Hồng Thị Hạnh, giữ chức Thứ trưởng Phó Chủ nhiệm Ủy ban Dân tộc 26 Bàn thắng paulinho thiago silva, giúp selecao hạ serbia với tỷ số - 0, đứng đầu bảng e 27 Biển lại bâng khuâng hiền hậu, sóng phải có lúc mỏi thật 28 Đã cố trở thành người lạnh lùng, mà hai người này, ép nói 29 Các khanh muốn chiêm ngưỡng dung nhan, nhanh tay dâng lễ vật 30 Hai đứa khoảng năm phút, cịi động rú ầm lên sau lưng A2 Các báo khoa học người thực luận văn tham gia trình thực luận văn 59 ... ĐỐN NGẮT NGHỈ TRONG TỔNG HỢP TIẾNG NĨI TIẾNG VIỆT Để có nhìn tổng qt tốn dự đốn ngắt nghỉ tổng hợp tiếng nói tiếng Việt, Chương trình bày khái niệm, vai trò ứng dụng thực tiễn tổng hợp tiếng nói. .. mơ hình ngắt nghỉ đề xuất 4.1.2 Mơ hình tổng quan Hình 4.2 Giải pháp tổng quan mơ hình dự đốn ngắt nghỉ Hình 4.2 mơ tả tổng quan giải pháp mơ hình dự đốn ngắt nghỉ tổng hợp tiếng nói tiếng Việt. .. tổng hợp tiếng nói: dựa HMM, dựa DNN End-to-end Hình 5.1 Giải pháp tổng quan tích hợp mơ hình ngắt nghỉ Hình 5.1 mơ tả giải pháp tổng quan tích hợp mơ hình ngắt nghỉ hệ thống tổng hợp tiếng nói

Ngày đăng: 07/12/2021, 19:26

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] L. R. Rabiner and R. W. Schafer, “Introduction to digital speech processing,” Found. Trends Signal Process., vol. 1, no. 1, pp. 1–194, Jan. 2007, doi:10.1561/2000000001 Sách, tạp chí
Tiêu đề: Introduction to digital speech processing,” "Found. Trends Signal Process
[4] M. S. Hawley et al., “A Voice-Input Voice-Output Communication Aid for People With Severe Speech Impairment,” IEEE Trans. Neural Syst. Rehabil.Eng., vol. 21, no. 1, pp. 23–31, Jan. 2013, doi: 10.1109/TNSRE.2012.2209678 Sách, tạp chí
Tiêu đề: et al.", “A Voice-Input Voice-Output Communication Aid for People With Severe Speech Impairment,” "IEEE Trans. Neural Syst. Rehabil. "Eng
[5] M. Hoy, “Alexa, Siri, Cortana, and More: An Introduction to Voice Assistants,” Med. Ref. Serv. Q., vol. 37, pp. 81–88, Jan. 2018, doi Sách, tạp chí
Tiêu đề: Alexa, Siri, Cortana, and More: An Introduction to Voice Assistants,” "Med. Ref. Serv. Q
[6] M. Schrửder, M. Charfuelan, S. Pammi, and I. Steiner, “Open source voice creation toolkit for the MARY TTS Platform,” p. 5 Sách, tạp chí
Tiêu đề: Open source voice creation toolkit for the MARY TTS Platform
[7] T. T. T. Nguyen, “HMM-based Vietnamese Text-To-Speech : Prosodic Phrasing Modeling, Corpus Design System Design, and Evaluation,”phdthesis, Université Paris Sud - Paris XI, 2015. Accessed: Apr. 18, 2021.[Online]. Available: https://tel.archives-ouvertes.fr/tel-01260884 Sách, tạp chí
Tiêu đề: HMM-based Vietnamese Text-To-Speech : Prosodic Phrasing Modeling, Corpus Design System Design, and Evaluation
[8] H. Zen, A. Senior, and M. Schuster, “STATISTICAL PARAMETRIC SPEECH SYNTHESIS USING DEEP NEURAL NETWORKS,” p. 5 Sách, tạp chí
Tiêu đề: STATISTICAL PARAMETRIC SPEECH SYNTHESIS USING DEEP NEURAL NETWORKS
[9] Z. Wu, O. Watts, and S. King, “Merlin: An Open Source Neural Network Speech Synthesis System,” Sep. 2016, pp. 202–207. doi: 10.21437/SSW.2016- 33 Sách, tạp chí
Tiêu đề: Merlin: An Open Source Neural Network Speech Synthesis System
[10] Y. Wang et al., “Tacotron: Towards End-to-End Speech Synthesis,” ArXiv170310135 Cs, Apr. 2017, Accessed: Apr. 24, 2021. [Online]. Available:http://arxiv.org/abs/1703.10135 Sách, tạp chí
Tiêu đề: et al.", “Tacotron: Towards End-to-End Speech Synthesis,” "ArXiv170310135 Cs
[11] R. Skerry-Ryan et al., “Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron,” p. 10 Sách, tạp chí
Tiêu đề: et al.", “Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron
[12] J. Shen et al., “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions,” ArXiv171205884 Cs, Feb. 2018, Accessed: Apr. 22, 2021. [Online]. Available: http://arxiv.org/abs/1712.05884 Sách, tạp chí
Tiêu đề: et al.", “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions,” "ArXiv171205884 Cs
[13] A. van den Oord et al., “WaveNet: A Generative Model for Raw Audio,” ArXiv160903499 Cs, Sep. 2016, Accessed: Apr. 24, 2021. [Online]. Available:http://arxiv.org/abs/1609.03499 Sách, tạp chí
Tiêu đề: et al.", “WaveNet: A Generative Model for Raw Audio,” "ArXiv160903499 Cs
[14] Fu-Chiang Chou, Chiu-Yu Tseng, and Lin-Shan Lee, “Automatic generation of prosodic structure for high quality Mandarin speech synthesis,”in Proceeding of Fourth International Conference on Spoken Language Processing. ICSLP ’96, Philadelphia, PA, USA, 1996, vol. 3, pp. 1624–1627.doi: 10.1109/ICSLP.1996.607935 Sách, tạp chí
Tiêu đề: Automatic generation of prosodic structure for high quality Mandarin speech synthesis,” in "Proceeding of Fourth International Conference on Spoken Language Processing. ICSLP ’96
[15] J. Tao, H. Dong, and S. Zhao, “Rule learning based Chinese prosodic phrase prediction,” in International Conference on Natural Language Processing and Knowledge Engineering, 2003. Proceedings. 2003, Oct. 2003, pp. 425–432.doi: 10.1109/NLPKE.2003.1275944 Sách, tạp chí
Tiêu đề: Rule learning based Chinese prosodic phrase prediction,” in "International Conference on Natural Language Processing and Knowledge Engineering, 2003. Proceedings. 2003
[17] J. Apel, F. Neubarth, H. Pirker, and H. Trost, “Have a break! Modelling pauses in German Speech.,” p. 8 Sách, tạp chí
Tiêu đề: Have a break! Modelling pauses in German Speech
[18] P. Chistikov and O. Khomitsevich, “Improving Prosodic Break Detection in a Russian TTS System,” in Speech and Computer, Cham, 2013, pp. 181– Sách, tạp chí
Tiêu đề: Improving Prosodic Break Detection in a Russian TTS System,” in "Speech and Computer
[19] P. Sarkar and K. Rao, Data-Driven Pause Prediction for Speech Synthesis in Storytelling Style Speech. 2015. doi: 10.13140/RG.2.1.2079.3042 Sách, tạp chí
Tiêu đề: Data-Driven Pause Prediction for Speech Synthesis in Storytelling Style Speech
[20] T. T. T. Nguyen, A. Rilliard, and D. D. Tran, “Prosodic Phrasing Modeling for Vietnamese TTS Using Syntactic Information,” p. 5 Sách, tạp chí
Tiêu đề: Prosodic Phrasing Modeling for Vietnamese TTS Using Syntactic Information
[22] M. Nespor and I. Vogel, “Prosodic Structure Above the Word,” in Prosody: Models and Measurements, A. Cutler and D. R. Ladd, Eds. Berlin, Heidelberg:Springer, 1983, pp. 123–140. doi: 10.1007/978-3-642-69103-4_10 Sách, tạp chí
Tiêu đề: Prosodic Structure Above the Word,” in "Prosody: "Models and Measurements
[23] H. Zen, T. Toda, M. Nakamura, and K. Tokuda, “Details of the Nitech HMM-Based Speech Synthesis System for the Blizzard Challenge 2005,”IEICE Trans., vol. 90-D, pp. 325–333, Jan. 2007, doi: 10.1093/ietisy/e90- 1.1.325 Sách, tạp chí
Tiêu đề: Details of the Nitech HMM-Based Speech Synthesis System for the Blizzard Challenge 2005,” "IEICE Trans
35–39. Accessed: Apr. 24, 2021. [Online]. Available: https://www.aclweb.org/anthology/2020.vlsp-1.7 Link

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w