Mô hình Tilt

Một phần của tài liệu Nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm VnVoice (Trang 63)

CHẤT LƢỢNG GIỌNG TỔNG HỢP

3.1.3.2.Mô hình Tilt

Đơn vị cơ bản trong mô hình tilt là sự kiện ngữ điệu. Các sự kiện ngữ điệu cơ bản là các trọng âm pitch và biên thanh điệu. Trọng âm pitch (kí hiệu a) là độ trệch F0 kết hợp với các âm tiết thường dùng bởi người nói cho độ nhấn vào từ hay âm tiết. Trong mô hình Tilt, biên thanh điệu (b) trệch ở các cạnh cụm ngữ điệu cũng giống như nghe thấy tín hiệu kết thúc cụm. Sự kiện a kết hợp với sự kiện b khi trọng âm pitch gần với biên thanh điệu. Có sự khác nhau các loại trọng âm và biên thanh điệu: việc chọn trọng âm pitch và biên thanh điệu cho phép người nói tạo ra các giai điệu ngữ điệu khác nhau. Các kiểu này có thể là câu hỏi, câu trần thuật.

Hình 3.5: Trình bày biểu diễn sơ đồ F0, mối liên hệ sự kiện ngữ điệu và đoạn trong mô hình Tilt. Các phần thích hợp về mặt ngôn ngữ tương ứng với các sự kiện ngữ điệu chính là các vòng trong hình vẽ. Các sự kiện này được đánh nhãn cho trọng âm pitch và biên b liên kết trung tâm âm tiết nhưng một số âm tiết không có các sự kiện.

Mô hình Tilt sử dụng tập các tham số liên tục. Các tham số này coi là tham số chung tilt được xác định bằng các xem hình dáng cục bộ sự kiện của đường F0.

Mô hình tilt được xây dựng từ một mô hình đơn giản hơn, mô hình rise/fall/connection (RFC). Trong mô hình RFC, mỗi sự kiện được mô hình hóa bởi các phần rise và fall. Mỗi phần có biên độ và trường độ, hai tham số dùng để xác định vị trí của sự kiện trong phát âm và chiều cao F0 của sự kiện. Hình 3.6 biểu diễn trọng âm pitch tiêu biểu với ba tham số được đánh dấu.

Hình 3.6: Cách phân tích các tham số trong mô hình Tilt. Các tham số RFC cho một phát âm:

 Biên độ rise (Hz)

 Trường độ rise (giây)

 Biên độ fall (Hz)

 Trường độ fall (giây)

 Vị trí (giây)

 Chiều cao F0 (Hz)

Một số sự kiện không có các phần rise và fall, trong những trường hợp như vậy thì phần biên độ và trường độ đặt là 0. Tham số vị trí có thể xác định theo hai cách: hoặc là khoảng cách từ bắt đầu phát âm hoặc là bắt đầu nguyên âm của âm tiết. Cách sau có ý nghĩa về ngôn ngữ hơn nhưng biên của nguyên âm thường không có giá trị nên vẫn thường dùng cách đầu.

Trong khi mô hình RFC có thể mô tả chính xác đường F0, nhưng máy móc thì không thể mô hình hóa tham số RFC cho mỗi đường F0. Vì vậy, rất khó hiệu chỉnh các tham số theo ý muốn. Chẳng hạn, có 2 tham số biên độ cho mỗi sự kiện, khi đó dễ cảm giác chỉ có một.

Biểu diễn Tilt giúp giải quyết các vấn đề này bằng cách biến đổi biên độ và trường độ thành 3 tham số tilt:

 Biên độ (Hz): tổng độ lớn biên độ rise và fall

 Trường độ (s): tổng trường độ rise và fall

 Tilt: số chiều mà nhấn mạnh trên đường dạng event, độc lập với trường độ và biên độ.

Các tham số vị trí và chiều cao F0 tương tự như ở trên.

Biểu diễn tilt tốt hơn biểu diễn RFC vì nó cần ít tham số hơn và vẫn giữ nguyên độ chính xác. Quan trọng hơn nữa, các tham số tilt có ý nghĩa hơn về mặt ngôn ngữ học.

Trong mô tả mô hình Tilt sử dụng phân tích số hạng để miêu tả quá trình sinh biểu diễn tilt từ đường F0, và tổng hợp để miêu tả quá trình sinh đường F0 từ sự miêu tả tilt.

Mô hình Tilt đã sử dụng trong hệ tổng hợp tiếng Anh Festival [24].

Với tiếng Việt thì chưa có nghiên cứu nào sử dụng mô hình Tilt trong việc mô hình hóa ngữ điệu.

Một phần của tài liệu Nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm VnVoice (Trang 63)