Các nghiên cứu đã công bố trong tiếng Việt

Một phần của tài liệu Tổng hợp tiếng việt có cảm xúc bằng học máy (Trang 26 - 31)

1.4.1. HMM-based TTS for hanoi Vietnamese: Issues in design and

evaluation.

Trong công trình kiến cứu này [27], trung tâm nghiên cứu MICA – Trường Đại học Bách Khoa Hà Nội với trưởng nhóm là cô Nguyễn Thị Thu Trang đã giới thiệu hệ thống TTS dựa trên HMM cho giọng miền Bắc, một ngôn ngữ có thanh điệu. Công bố này đi sâu vào phân tích đặc điểm ngữ âm của giọng Hà Nội. Hệ thống VTed ra đời dựa trên nền tảng là MaryTTS. Những kết quả nghiên cứu của công trình chưa đem lại kết quả thực sự nổi bật trên cả 3 khía cạnh: độ tự nhiên,

12 mức độ rõ ràng của giai điệu và thang đo MOS. Nhóm nghiên cứu sử dụng bộ VNSpeechCorpus trong tất cả quá trình huấn luyện và kiểm thử. Với 48 câu (chiếm tỉ lệ 8%), bộ kiểm thử được đánh giá với nhiều người trẻ trong độ tuổi 20- 35.

Bảng kết quả so sánh thang đo MOS

MOS

Natural 4.82

HMM-Vted 3.61

NUUS-HoaSung 2.8

Bảng 1-7. Thang đo MOS của âm thanh tự nhiên, HMM-Vted và NUUS-HoaSung Bảng so sánh mức độ dễ hiểu của âm thanh

Natural Vted

1 listen time 97.89% 72.74%

2 listen time 84.21% 59.42%

Average 91.05% 66.08%

Bảng 1-8. Bảng so sánh mức độ dễ hiểu giữa hệ thống VTed và âm thanh tự nhiên

1.4.2. Development of Vietnamese Speech Synthesis System using Deep

Neural Networks.

Hệ thống tổng hợp tiếng Việt sử dụng mạng neural sâu được nghiên cứu và phát triển bởi các kỹ sư Viettel. Nhóm nghiên cứu đạt giải nhất trong hội nghị VLSP 2018 [28] trong cả ba chủ đề: tính tự nhiên, khả năng hiểu và điểm số trên thang đo MOS. Ở thời điểm đó công trình này đã mở ra một hướng nghiên cứu mới với chất lượng vượt trội [28] so với các cách tiếp cận truyền thống hay các phương pháp phổ biến thời điểm đó là sử dụng mô hình Markov ẩn. Bằng cách sử dụng các phương pháp tiền xử lý dữ liệu, mô hình đem lại sự hiệu quả khác biệt. Hệ thống của nhóm kỹ sư Viettel bao gồm 5 phần chính:

Chuẩn hóa văn bản: Chuyển đổi văn bản thành một dạng là các từ có thể nói được: sửa lỗi chính tả, giải nghĩa các từ viết tắt, chuyển đổi các số thành chữ, …

Trích trọn đặc trưng: Module này thực hiện trích xuất các đặc trưng của ngôn ngữ từ văn bản đã được chuẩn hóa. Các đặc trưng như thông tin về đơn vị âm, vị trí đơn âm vị trong âm tiết, vị trí âm tiết trong từ và vị trí của từ trong câu.

Mô hình thời lượng: Mô hình được sử dụng để ước lượng timestamp cho mỗi âm vị. Mạng DNN được sử dụng cho việc ánh xạ này.

13 Mô hình âm thanh: Mô hình khởi tạo âm thanh dạng sóng còn được gọi là Vocoder sẽ chuyển đổi các đặc tính âm thanh thành tín hiệu tiếng nói.

Hệ thống sử dụng bộ dataset bao gồm 7 giờ từ trang báo trực tuyến:

https://netnews.vn/baomoi.html. Tuy nhiên, chất lượng âm thanh của bộ dữ liệu

này chưa cao. Âm lượng không nhất quán, xuất hiện nhiều tiếng ồn và đôi khi xuất hiện các từ mượn, từ viết tắt không tồn tại trong kho dữ liệu. Dữ liệu sau khi được “làm sạch” bằng phương pháp thủ công còn 3504 tệp âm thanh tương đương 6.5 giờ. Nhóm nghiên cứu thực hiện đánh giá với 6 người. Kết quả thể hiện ở bảng sau.

Training data cleaning

Objective evaluation Subjective evaluation MCD BAP F0

RMSE V/UV Naturalness Intelligibility MOS (dB) (dB) (Hz) (%)

No

(DNN1) 4.758 0.171 23.038 6.084 92.67 94 4.5 Yes

(DNN2) 4.721 0.163 22.119 6.052 94.67 96.33 4.61 Bảng 1-9 .Kết quả đánh giá chủ quan và khách quan của mô hình đề xuất

Nghiên cứu đã đạt giải nhất trong hội nghị VLSP năm 2018 từ 20 người tham gia đánh giá. Bảng 1.5 chứng minh kết quả vượt trội so với các đội còn lại của nhóm.

Team Naturalness Intelligibility MOS

VAIS 65.6 72.54 3.48

MICA 72.69 76.94 3.79

Viettel 90.54 93.02 4.66

Bảng 1-10. 3 đội đạt giải cao nhất trong hội nghị VLSP 2019

1.4.3. Alternative Vietnamese Speech Synthesis with Phoneme Structure.

Công trình của nhóm nhà nghiên cứu ở Trường Đại học Khoa học Tự nhiên TP.HCM và Trường Đại học Bách khoa – Đại học Quốc gia TP.HCM được đăng tải trên hội nghị ISCIT vào năm 2019. Trong công trình này, tác giả đề xuất cách tiếp cận thay thế cho cấu trúc âm vị trong tổng hợp tiếng Việt. Họ sử dụng kiến trúc của mô hình Tacotron2 và đề xuất phần thay thế của mình trong bước Character Embedding. Thay vì mã hóa ký tự như kiến trúc Tacotron2 thông thường, họ đưa vào mô hình âm vị tiếng Việt. Đồng thơi, họ cũng công bố một công cụ chuyển đổi văn bản tiếng Việt thành chuỗi âm vị từ sự kết hợp của hai bộ

14 âm vị tiếng Việt và tiếng Anh. Kết quả chứng minh rằng phương pháp này có thể áp dụng cho nhiều ngôn ngữ trong khi vẫn giữ được kết quả tốt từ kiến trúc đang là State-of-the-art của thời điểm đó là Tacotron2.

Hình 1. 1 Ví dụ minh hóa biến đổi văn bản đầu vào theo mức âm vị và mức ký tự Trong công bố, tác giả chuẩn bị một bộ dữ liệu được đặt tên là Olli-Speech- 1.6. Bộ dữ liệu này bao gồm 45 giờ với dữ liệu chất lượng cao được thu một nghệ sĩ nữ người miền Nam. Tần số lấy mẫu là 22050 kHz và đơn kênh tín hiệu. Văn bản trong bộ dữ liệu được tải về từ các trang báo mạng như Tuổi trẻ, VnExpress, … Các bước tiền xử lý được dùng để chuẩn hóa văn bản đầu vào. Mô hình được đánh giá dựa trên thang đo MOS từ 105 người bao gồm cả nam và nữ. Điểm số thu được chứng minh hiệu năng tốt hơn mô hình cơ bản ban đầu.

Linguistics MOS

Baseline 3.52 ± 0.56

Propose method 3.74 ± 0.64

Bảng 1-11. Thang đo MOS của hệ thống đề xuất so với mô hình ban đầu

1.4.4. Vietnamese Speech Synthesis with End-to-end Model.

Nghiên cứu này được thực hiện bởi các thầy giáo và sinh viên trường Đại học Khoa học Tự nhiên, Thành phố Hồ Chí Minh và được đăng trên tạp chí IEEE [29] vào tháng 2 năm 2021. Đây cũng là công trình có kết quả tốt nhất hiện tại của các nghiên cứu về tiếng Việt [29]. Tác giả sử dụng Tacotron2 [30] và WaveGlow [10] cho hệ thống tổng hợp tiếng Việt End-to-end. Trước đó, công cụ Vinorm được sử dụng để chuẩn hóa văn bản, xử lý các ký tự số, ký tự đặc biệt, các từ viết tắt, từ ngữ không đọc được và các từ địa phương. Và công cụ Viphoneme để chuyển đổi từ tiếng Việt sang định dạng grapheme – đơn vị nhỏ nhất của hệ thống chữ viết và từ grapheme sang Bảng chữ cái ngữ âm quốc tế (IPA).

15 Trong bài báo, tác giả có sử dụng âm thanh đầu vào với với tần số lấy mẫu là 22050 Hz, loại bỏ các khoảng lặng ở đầu và cuối câu, sau đó thêm một giây khoảng lặng ở cuối mỗi âm thanh để giúp mô hình nhận dạng được phần kết thúc của câu được tốt hơn. Dữ liệu được tiền xử lý truyền vào biến thể mô hình Tacotron2 với sự thay đổi phần Character Embedding thành Phoneme Embedding cho tác giả đã chuẩn hóa văn bản đầu vào.

Nhóm nghiên cứu sử dụng bộ dữ liệu trong thử nghiệm này được cung cấp bởi InfoRe Jsc, cũng là Big Corpus trong Hội nghỉ về xử lý giọng nói và ngôn ngữ tiếng Việt (VLSP) năm 2019. Dữ liệu này bao gồm 22 giờ dữ liệu với 13462 câu nói của giọng nữ miền Bắc. Sau khi loại bỏ nhiễu còn khoảng 11460 câu vì chứa nhiều nhiễu hay do người đọc ngắt nghỉ không đúng chỗ ảnh hưởng đến chất lượng đào tạo. Sau khoảng 10 ngày huấn luyện sử dụng kiến trúc Tacotron2, mô hình khởi tạo mel-spectrogram đã hoàn thành. Phổ vừa được sinh ra sẽ đi qua mô hình WaveGlow được công bố là có khả năng tạo ra kết quả tốt với nhiều ngôn ngữ trong đó có Tiếng Việt. Cuối cùng, hệ thống gọi đến các API giảm nhiễu để tăng chất lượng âm thanh.

Kết quả với 20 người đánh giá của nghiên cứu Vietnamese Speech Synthesis with End-to-end Model and Text Normalization trên thang đo MOS được thể hiện ở bảng dưới

Model MOS

Tacotron2 + WaveGlow 3.97

Groundtruth 4.43

Bảng 1-12. So sánh Tacotron2 + WaveGlow với GT trong tiếng Việt

Hệ thống này với ưu điểm là sử dụng các bước tiền xử lý, hậu xử lý rất tốt, giúp cho âm thanh được tư nhiên [29]. Từ điển lớn được triển khai, hệ thống nhận ra các từ có nhiều các phát âm khác nhau trong các bối cảnh ngôn ngữ khác nhau. Tác giả sử dụng Viphoneme là công cụ chuyển đổi ngôn ngữ văn bản tiếng Việt thành chuỗi đầu vào hợp lý cho Tacotron2, mô hình học được hội tụ nhanh hơn so với cách tiếp cận thông thường [29]. Cuối cùng, tác giả có sử dụng thêm các API làm mịn giọng nói và cải thiện chất lượng của âm thanh. Hạn chế của nghiên cứu sẽ xuất phát từ bộ dữ liệu có chất lượng chưa cao, nhiều nhiễu.

16

1.4.5. Tổng hợp tiếng Việt có cảm xúc với các chất giọng khác nhau và

có biểu lộ cảm xúc.

Nghiên cứu chính là luận án tiến sĩ của thầy Lê Xuân Thành – Trường Đại học Bách Khoa Hà Nội. Trong nghiên cứu này, tác giả đã xây dựng bộ ngữ liệu về cảm xúc cho tiếng Việt mang tên BKEmo. BKEmo bao gồm 4 cảm xúc cơ bản: bình thường, buồn, vui và tức giận. Sau đó tác giả tiến hành phân tích đánh giá sự ảnh hưởng của các tham số đến khả năng biểu đạt cảm xúc trong tiếng Việt. Cuối cùng, hệ thống tích hợp cảm xúc vào tiếng Việt được thực hiện bằng mô hình Fujisaki – mô hình xây dựng dựa trên nền tảng tâm lý học và sinh học của quá trình tạo nên F0 – một trong hai tham số tác giả thực hiện đánh giá và phân tích. Công cụ Praat được sử dụng để biến đổi thời lượng phát âm, cường độ phát âm. Mô hình sẽ lấy các bộ tham số từ các câu có nội dung và cảm xúc tương ứng để tổng hợp thành câu đã được tích hợp cảm xúc.

Dựa trên phương pháp đó, tác giả thực hiện đánh giá bằng cả phương pháp chủ quan và khách quan. Trong 15 câu đánh giá với đầy đủ 4 cảm xúc và đầy đủ giọng nam và nữ. Kết quả đánh giá theo ma trận nhầm lẫn như sau:

BT Tức Vui Buồn

BT 511 24 14 201

Tức 144 335 257 14

Vui 166 196 356 32

Buồn 298 21 17 414

Bảng 1-13. Ma trận nhầm lẫn tổng hợp cả giọng nam và giọng nữ cho 15 câu Bên cạnh đánh giả chủ quan, tác giả sử dụng phương pháp đánh giá khách Bên cạnh đánh giả chủ quan, tác giả sử dụng phương pháp đánh giá khách quan thông qua đo lường khoảng cách phổ giữa tín hiệu của câu nói tự nhiên có cảm xúc và tín hiệu của câu nói tổng hợp tương ứng với cảm xúc đó. Tác giả thực hiện đánh giá với 3 cảm xúc: buồn, vui và tức giận.

Một phần của tài liệu Tổng hợp tiếng việt có cảm xúc bằng học máy (Trang 26 - 31)

Tải bản đầy đủ (PDF)

(73 trang)