Trên thế giới có khá nhiều ngôn ngữ được tổng hợp thành công với chất lượng khá tốt như tiếng Anh, tiếng Pháp,… Ở Việt Nam, vấn đề xử lý tiếng nói mới được chú trọng và nghiên cứu trong
KHÁI QUÁT VỀ CÁC NGHIÊN CỨU TỔNG HỢP TIẾNG VIỆT 1.1 Tổng quan về xử lý ngôn ngữ tiếng Việt
Các nghiên cứu về tổng hợp tiếng Việt
Trong nước, nhiều tập thể đã đạt được kết quả nghiên cứu đáng chú ý về tổng hợp tiếng Việt, bao gồm Viện Công nghệ Thông tin, Khoa Công nghệ Thông tin, và Trung tâm MICA - Đại học Bách khoa Hà Nội Nhiều đề tài tốt nghiệp, thạc sĩ, và tiến sĩ tại các trường đại học cũng đã đóng góp vào lĩnh vực này Nghiên cứu về xử lý ngôn ngữ đã được theo đuổi từ lâu bởi các tổ chức như Đại học Bách khoa Hà Nội và Đại học Khoa học Tự nhiên thành phố.
Hồ Chí Minh, Đại học Bách khoa Đà Nẵng, Trường Đại học Công nghệ, Viện Ứng dụng Công nghệ, Viện Công nghệ Thông tin, và Công ty Lạc Việt đã tham gia vào đề tài cấp Nhà nước “Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng Việt” trong giai đoạn 2001-2004 thuộc chương trình quốc gia KC-01 Ngoài ra, nhóm nghiên cứu tại Canada do tiến sĩ Lê Tang dẫn dắt cũng đóng góp quan trọng cho lĩnh vực này.
Vietvoice là phần mềm tổng hợp tiếng Việt, được phát triển với sự hỗ trợ của các cán bộ và nghiên cứu sinh Việt Nam tại Viện Khoa học và Công nghệ Tiên tiến Nhật Bản (JAIST).
Xử lý ngôn ngữ và tổng hợp tiếng nói tiếng Việt là nhiệm vụ quan trọng chỉ có thể thực hiện tốt bởi người Việt Hiện tại, một số sản phẩm tổng hợp tiếng Việt như VietVoice, vnVoice, VieTTS và VnSpeech đã được phát triển bởi người Việt trong và ngoài nước, đạt được những kết quả bước đầu Tuy nhiên, mục tiêu cuối cùng vẫn là nâng cao chất lượng tổng hợp cho người dùng Sau nhiều năm nghiên cứu và tìm hiểu, chúng tôi hướng tới việc xây dựng hệ thống tổng hợp tiếng Việt chất lượng cao, đặc biệt chú trọng vào việc cải thiện chất lượng thanh điệu.
CƠ SỞ LÝ THUYẾT VỀ XỬ LÝ TIẾNG NÓI 2.1 Quá trình phát âm
Đặc tính âm học của tiếng nói
2.2.1 Âm hữu thanh và âm vô thanh
2.2.1.1 Âm hữu thanh Âm hữu thanh được tạo ra từ các dây thanh bị căng đồng thời, chúng rung động ở chế ộ dãn, khi không khí t ng lên làm thanh môn mở ra và sau ó thanh đ ă đ môn xẹp xuống do không khí chạy qua
Dây thanh tạo ra sóng âm có dạng tuần hoàn hoặc gần như tuần hoàn, ảnh hưởng đến âm thanh phát ra Phổ của âm hữu thanh chứa nhiều thành phần hài, tương ứng với các bội số của tần số cộng hưởng, được gọi là tần số cơ bản (pitch).
Âm vô thanh được tạo ra khi dây thanh không cộng hưởng, bao gồm hai loại cơ bản là âm xát và âm tắc Âm xát, như âm "s", hình thành khi có sự co thắt tại một số điểm trong đường đi của âm thanh, khiến không khí qua điểm co thắt tạo ra chuyển động hỗn độn giống như nhiễu ngẫu nhiên Thông thường, điểm co thắt xảy ra gần miệng, do đó sự cộng hưởng của tuyến âm ít ảnh hưởng đến đặc tính của âm xát Ngược lại, âm tắc, ví dụ như âm "p", được hình thành khi tuyến âm đóng lại tại một số điểm, làm tăng áp suất không khí và giải phóng đột ngột, tạo ra kích thích nhất thời Kích thích này có thể xảy ra với hoặc không có sự cộng hưởng của dây thanh, tương ứng với âm tắc hữu thanh hoặc vô thanh.
Tín hiệu tiếng nói là biểu hiện tự nhiên của thông tin ngôn ngữ, được cấu thành từ các âm vị khác nhau Âm vị là đơn vị nhỏ nhất trong ngôn ngữ, với số lượng âm vị thường dưới 50, tùy thuộc vào từng ngôn ngữ cụ thể Các âm vị được phân chia thành hai loại chính: nguyên âm và phụ âm.
Nguyên âm là âm hữu thanh được tạo ra bằng sự cộng hưởng của dây thanh khi dòng khí được đẩy lên qua thanh môn Khoang miệng được tạo lập thành nhiều hình dạng khác nhau, tạo thành các nguyên âm riêng biệt Số lượng các nguyên âm phụ thuộc vào từng ngôn ngữ, tạo nên sự đa dạng trong cách phát âm và phân biệt các ngôn ngữ khác nhau.
Phụ âm được hình thành từ dòng khí hỗn loạn phát ra gần các điểm co thắt của đường dẫn âm thanh Tính chất hữu thanh hay vô thanh của phụ âm phụ thuộc vào sự dao động của dây thanh, tạo ra cộng hưởng Dòng không khí tại vòm miệng tạo ra phụ âm tắc, trong khi phụ âm xát được phát ra từ vị trí co thắt lớn nhất.
Trong giao tiếp, thời gian nói và thời gian nghỉ thường xuyên đan xen Tỷ lệ phần trăm thời gian nói so với tổng thời gian nói và nghỉ được gọi là tỷ suất thời gian Giá trị này thay đổi tùy thuộc vào tốc độ nói, từ đó cho phép phân loại thành các kiểu nói nhanh, nói chậm hoặc nói bình thường.
2.2.5.2 Hàm năng lượng thời gian ngắn
Hàm năng lượng thời gian ngắn của tiếng nói được xác định bằng cách chia tín hiệu thành nhiều khung, mỗi khung bao gồm một mẫu Các khung này sau đó được xử lý thông qua một cửa sổ với dạng hàm cụ thể.
Hàm năng lượng ngắn tại mẫu thứ đưm ợc tính theo công thức sau:
Có ba loại cửa sổ phổ biến được sử dụng trong phân tích tín hiệu âm thanh: cửa sổ Hamming, cửa sổ Hanning và cửa sổ chữ nhật Trong phân tích hàm năng lượng thời gian ngắn, âm thanh hữu thanh thường có năng lượng lớn hơn so với âm thanh vô thanh.
Dạng sóng của tiếng nói bao gồm hai phần chính: phần gần giống nhiễu với biên độ biến đổi ngẫu nhiên và phần có tính chu kỳ với các tín hiệu lặp lại gần như tuần hoàn Phần tín hiệu chu kỳ chứa các thành phần tần số có dạng điều hòa, trong đó tần số thấp nhất được gọi là tần số cơ bản, tương ứng với tần số dao động của dây thanh Tần số cơ bản này có sự khác biệt giữa các người nói khác nhau, và dưới đây là một số giá trị tần số cơ bản tương ứng với giới tính và độ tuổi.
Bảng 2.1: Giá trị tần số F0 phụ thuộc người nói Giá trị tần số cơ bản Ng ời nói ư
Trong tín hiệu tiếng nói, mỗi đỉnh có biên độ lớn nhất trong một khoảng tần số nhất định được gọi là formant Formant không chỉ được xác định bởi tần số mà còn bởi biên độ và dải thông Về mặt vật lý, các formant tương ứng với các tần số cộng hưởng của tuyến âm Trong xử lý và tổng hợp tiếng nói, việc xác định các tham số formant cho từng âm vị là rất quan trọng, do đó, việc đánh giá và ước lượng các formant trở nên cần thiết.
Tần số formant của âm thanh phụ thuộc vào giới tính người nói và các âm vị liên quan Nó cũng bị ảnh hưởng bởi các âm vị trước và sau đó Cấu trúc tự nhiên của tần số formant có mối liên hệ chặt chẽ với hình dạng và kích thước của tuyến âm Trong phổ tín hiệu tiếng nói, thường có khoảng 5 formant, nhưng chỉ 3 formant đầu tiên có ảnh hưởng quan trọng đến các đặc tính của âm vị, trong khi các formant còn lại có ảnh hưởng rất ít.
Tần số formant đặc trưng cho các nguyên âm biến đổi tùy thuộc vào người nói trong điều kiện phát âm cụ thể Mặc dù phạm vi tần số formant của mỗi nguyên âm có thể chồng lấp lên nhau, nhưng vị trí giữa các formant vẫn không đổi do sự xê dịch của chúng diễn ra song song.
Biểu diễn tín hiệu tiếng nói
Tín hiệu có thể được biểu diễn trên miền thời gian hoặc miền tần số, hoặc kết hợp cả hai Trong miền thời gian, tín hiệu tiếng nói được coi là ổn định trong khoảng thời gian ngắn (5-100ms), nhưng lại không ổn định khi xét trong khoảng thời gian dài hơn (0,5s) do sự thay đổi âm thanh Để phân tích tín hiệu tiếng nói và xác định các đặc trưng riêng cho từng âm, cần có các phương pháp biểu diễn tín hiệu hiệu quả.
2.3.1 Tín hiệu tiếng nói trên miền thời gian
Hình 2.2 – Biểu diễn tín hiệu tiếng nói trên miền thời gian
Trong miền thời gian, tín hiệu tiếng nói được thể hiện qua đồ thị biên độ tại các thời điểm khác nhau Mặc dù trong tự nhiên tín hiệu này là liên tục, nhưng khi được xử lý trong máy tính, tín hiệu tiếng nói đã được số hóa, dẫn đến việc nó trở thành rời rạc cả về mặt thời gian lẫn tần số.
2.3.2 Tín hiệu tiếng nói trên miền tần số
Tín hiệu tiếng nói không chỉ bao gồm một tần số duy nhất mà là sự kết hợp của nhiều tần số khác nhau, với tần số cao nhất có thể vượt quá 10 kHz Mỗi thành phần tần số này có mức độ tham gia khác nhau Việc biểu diễn tín hiệu tiếng nói trong miền thời gian không đủ thông tin để phân tích các thành phần tần số, vì vậy cần sử dụng dạng biểu diễn trong miền tần số, hay còn gọi là phổ tín hiệu.
Ví dụ về phổ tín hiệu tiếng nói cho trên hình 2.3
Hình 2.3 – Biểu diễn tín hiệu tiếng nói trên miền tần số 2.3.3 Tín hiệu tiếng nói trên miền thời gian và tần số kết hợp
Trong nghiên cứu tiếng nói, việc biểu diễn tín hiệu nhằm thu thập thông tin là rất quan trọng Một trong những phương pháp phổ biến là biểu diễn tín hiệu trên miền kết hợp thời gian và tần số Phương pháp này cho phép biểu diễn tín hiệu trên miền tần số thông qua các đoạn tín hiệu ổn định trong khoảng thời gian ngắn Các giá trị biên độ được thể hiện bằng màu sắc, giúp dễ dàng nhận diện các đặc điểm của tín hiệu Hình 2.3 minh họa cho phương pháp biểu diễn này.
Mô hình tạo tiếng nói
Để đơn giản hóa quá trình phân tích và nghiên cứu bộ máy phát âm, người ta phân chia nó thành hai phần chính: nguồn âm và hệ thống áp ứng.
• Hệ thống đáp ứng bao gồm thanh môn, tuyến âm, môi và mũi Việc mô hình hoá này sử dụng hàm truyền ạt trong biến đ đổi Z
Âm hữu thanh phát ra từ nguồn âm có dạng sóng tuần hoàn đặc trưng, được mô phỏng bởi phản ứng của bộ lọc thông thấp với hai điểm cực thực và tần số cắt khoảng 100 Hz.
Hình 2.5 – Mô hình hoá nguồn âm đối với âm hữu thanh
Trong ó đ α β, là các hằng số đặc trưng cho nguồn âm với α