Mô hình hoá sự phụ thuộc ngữ cảnh và gom cụm ngữ cảnh

Một phần của tài liệu Luận văn thạc sĩ ứng dụng mô hình markov ẩn xây dựng hệ thống tổng hợp tiếng nói tiếng việt (Trang 32 - 35)

Chương 2 TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN DỰA TRÊN MÔ HÌNH

2.3. Giai đoạn huấn luyện mô hình

2.3.5. Mô hình hoá sự phụ thuộc ngữ cảnh và gom cụm ngữ cảnh

Sự thể hiện của các tham số âm thanh như phổ, nguồn kích thích, và trường độ trong tiếng nói tự nhiên bị ảnh hưởng bởi các yếu tố ngữ âm, ngữ điệu và ngôn ngữ học. Các yếu tố làm ảnh hưởng đến các đặc trưng âm học của một âm vị được gọi là ngữ cảnh của âm vị đó. Để có được tiếng nói tổng hợp chất lượng cao thì cần biểu diễn được tập hợp rất lớn các ngữ cảnh khác nhau. Các ngữ cảnh được sử dụng rộng rãi cho tổng hợp tiếng nói bao gồm [3]:

• Các âm vị kế cận với âm vị đang xét. Thông thường, hai âm vị ở bên trái và bên phải của âm vị hiện tại được gọi là ngữ cảnh ngữ âm học.

• Loại âm vị (phụ âm/nguyên âm/âm xát/âm bật, hữu thanh/vô thanh).

• Vị trí của âm vị, âm tiết, từ, cụm từ trong các đơn vị ở mức cao hơn (ví dụ như vị trí của âm vị trong âm tiết).

• Số lượng âm vị, âm tiết, từ, cụm từ trong các đơn vị ở mức cao hơn (ví dụ như số lượng âm vị trong âm tiết).

• Vị trí âm tiết được nhấn trọng âm đối với các ngôn ngữ có trọng âm (ví dụ tiếng Anh), hoặc thanh điệu đối với các ngôn ngữ có thanh điệu (ví dụ tiếng Việt).

• Vai trò ngôn ngữ học, ví dụ từ loại của từ là danh/động/tính/đại từ.

Mỗi âm vị được gắn một nhãn tích hợp tất cả các thông tin ngữ cảnh liên quan đến nó, được gọi là nhãn ngữ cảnh đầy đủ (full-context label). Để xử lý độ phức tạp về ngữ cảnh, một mô hình HMM riêng biệt phải được sử dụng cho từng tổ hợp các ngữ cảnh có thể xảy ra, gọi là mô hình HMM phụ thuộc ngữ cảnh (context-dependent).

Tuy nhiên, tổng số các tổ hợp có thể có của các yếu tố này tăng lên theo cấp số nhân với số lượng ngữ cảnh hiện có (khoảng 50). Lượng dữ liệu huấn luyện thường không đủ để tính toán một cách đáng tin cậy tất cả các mô hình HMM phụ thuộc ngữ cảnh vì rất hiếm khi có đủ dữ liệu để bao phủ tất cả các tổ hợp ngữ cảnh. Bên cạnh đó có sự biến đổi lớn về số lần xuất hiện của mỗi âm vị phụ thuộc ngữ cảnh. Để khắc phục vấn đề này, gom cụm (clustering) ngữ cảnh dùng cây quyết định được sử dụng phổ biến để nhóm các trạng thái HMM và chia sẻ các tham số mô hình giữa các trạng thái trong mỗi cụm [3].

Một ví dụ về việc phân cụm ngữ cảnh dựa trên cây quyết định được thể hiện trong hình 2.7. Cây quyết định là một cây nhị phân. Mỗi nút (trừ các nút lá) có một câu hỏi liên quan đến bối cảnh, chẳng hạn như R-silence? ("Là âm vị hiện tại ở bên phải R của silence?") hoặc L-vowel? ("Là âm vị hiện tại ở bên trái L của vowel?"), và hai nút con đại diện cho các câu trả lời "Có" và "Không" cho câu hỏi. Các nút lá có sự phân bố đầu ra của trạng thái. Bằng cách sử dụng cây quyết định dựa trên nhóm ngữ cảnh, các tham số mô hình của từng đơn vị tiếng nói đối với các ngữ cảnh nhập nhằng có thể đạt được, vì bất kỳ ngữ cảnh nào cũng đều đến được một trong các nút lá theo hướng đi xuống theo cấu trúc cây, bắt đầu từ nút gốc sau đó chọn nút tiếp theo tùy thuộc vào câu trả lời về ngữ cảnh hiện tại.

Hình 2.7. Một ví dụ về phân cụm ngữ cảnh dựa trên cây quyết định [3].

Quá trình phát triển cây dựa trên tiêu chí độ dài mô tả cực tiểu (minimum description length - MDL) [3], quá trình này thể hiện sự cân bằng giữa độ phức tạp của mô hình và độ tăng xác suất của dữ liệu huấn luyện, được tóm tắt như sau:

• Tập hợp các mô hình HMM dựa vào ngữ cảnh với phân phối Gaussian đơn trên mỗi trạng thái được huấn luyện theo tiêu chí cực đại hoá xác suất như đã mô tả trong Phần 2.3.1(b).

• Phân bố ước lượng của tất cả các trạng thái đã được nhóm được tập hợp lại và đặt tại nút gốc của cây, dữ liệu huấn luyện được tính toán với giả thiết rằng tất cả các trạng thái đã được gắn (ví dụ: các tham số mô hình được chia sẻ giữa các các trạng thái).

• mỗi nút lá, khả năng dữ liệu huấn luyện cho phép tăng tối đa khi nút lá được tách thành hai nút bằng cách sử dụng câu hỏi.

• Trong số tất cả các nút lá, nút đạt được độ dài mô tả cực tiểu của mô hình khi được tách thành hai nút bằng cách sử dụng câu hỏi tại bước 3.

• Nút được chọn được chia thành hai nếu độ dài mô tả của mô hình sau khi tách nhỏ hơn với độ dài trước đó. Ngược lại, quá trình phát triển cây bị dừng lại.

• Lặp lại các bước 3, 4, và 5 cho đến khi quá trình phát triển cây bị dừng lại.

Cần lưu ý rằng, một cây được xây dựng cho từng chỉ số trạng thái để tạo ra cấu trúc chia sẻ tham số. Ngoài ra, các cây riêng biệt cũng được xây dựng cho các tham số phổ, kích thích, và trường độ bởi vì mỗi tham số sẽ có độ phụ thuộc vào ngữ cảnh của riêng nó.

Một phần của tài liệu Luận văn thạc sĩ ứng dụng mô hình markov ẩn xây dựng hệ thống tổng hợp tiếng nói tiếng việt (Trang 32 - 35)

Tải bản đầy đủ (PDF)

(65 trang)