Chọn lựa các đặc trưng

Một phần của tài liệu mô hình hóa trường độ âm tiết tiếng việt nâng cao chất lượng tổng hợp tiếng nói (Trang 37 - 41)

CHƯƠNG 2 ĐỀ XUẤT MÔ HÌNH TRƯỜNG ĐỘ ÂM TIẾT

2.3.1.1Chọn lựa các đặc trưng

Qua các phân tích ở trên ảnh hưởng đến trường độ của âm tiết có nhiều yếu tố, các yếu tố đó có độ ảnh hưởng khác nhau đến trường độ.

Với đầu vào của hệ thống là một câu văn bản, thành phần xử lý ngôn ngữ tự nhiên sẽ chuyển đổi câu thành một dãy các âm tiết được phát âm. Các thuộc tính đặc trưng cho âm tiết trong ngữ cảnh câu được chọn bao gồm các thuộc tính có khả năng liên hệ ảnh hưởng đến các thông số ngữ điệu của âm tiết trong câu và giá trị các thuộc tính này phải xác định được một cách tự động.

Đối với một âm tiết riêng biệt ta có các yếu tố đặc trưng cấu tạo hình vị gồm: phụ âm đầu, âm đệm (bán nguyên âm đầu), âm chính (nguyên âm), âm cuối (phụ âm hoặc bán nguyên âm cuối) và dấu thanh (). Các yếu tố này tác động trực tiếp đến các tính chất âm học của âm tiết trong đó có các tính chất về cường độ và trường độ. Biểu diễn hình vị (con chữ) không hoàn toàn tương ứng 1-1 với âm vị, ví dụ cùng là a nhưng trong từ “hoàn” có biểu diễn âm vị khác với trong từ “tách”. Do đó không thể sử dụng biểu diễn hình vị các thành phần của âm tiết trong việc mô hình hóa trường độ.

Với các phân tích ở trên, các âm tiết xung quanh có ảnh hưởng lớn đến trường độ của âm tiết. Do đó cần phải đưa các thông tin này vào trong việc huấn luyện. Nhiều yếu tố ảnh hưởng trường độ, nhưng việc đưa các yếu tố này vào trong mạng neuron đòi hỏi nhiều cân nhắc và thử nghiệm. Bởi vì không phải cứ đưa nhiều thông tin vào là có thể đạt đến độ chính xác cao. Vấn đề nằm ở việc mã hóa và lựa chọn các thông số một cách hợp lý.

Dựa vào các nghiên cứu và phân tích ở trên, vector đặc trưng cho trường độ của âm tiết được xây dựng với các thuộc tính như sau:

• Thông tin hình vị về bản thân âm tiết: thanh điệu và 4 thành phần.

• Thông tin về âm tiết liền trước, liền sau

• Vị trí của âm tiết trong từ

• Vị trí của âm tiết trong đoạn. Một đoạn ở đây được định nghĩa là được phân tách bằng các dấu câu. Ví dụ như “,”, “!”, “.”, “?”. Lựa chọn ra các đặc trưng là một công việc quan trọng đối với kết quả của bài toán. Các đặc trưng có thể có nhiều nhưng những đặc trưng có mức độ ảnh hưởng cao đến trường độ, và cần đưa vào làm tham số cho mạng có thể không nhiều. Và cũng không phải là đưa càng nhiều đặc trưng vào càng tốt. Để có thể đưa ra được quyết định về các đặc trưng nào sẽ được đưa vào làm tham số cho mạng, thử nghiệm sẽ được tiến hành qua việc thử huấn luyện mạng Neuron với các tham số khác nhau, qua sự thay đổi này thì sẽ xác định được các yếu tố quyết định đến trường độ.

0..8 tương ứng với 6 thanh của tiếng việt (riêng thanh sắc và thanh nặng được chia thành 2 trường hợp)

Bảng 2-5 Các tham số được đưa vào thử nghiệm

STT Đặc trưng Nội dung

01 Thanh điệu của âm tiết 0..8 tương ứng với 6 thanh của tiếng việt (riêng thanh sắc và thanh nặng được chia thành 2 trường hợp)

02 Chiều dài đoạn Độ dài của đoạn chứa âm tiết

STT Đặc trưng Nội dung

04 Vị trí trong đoạn Vị trí tương đối của âm tiết trong đoạn, được tính bằng vị trí của âm tiết trong Phrase chia cho độ dài của câu

05 Vị trí từ âm tiết đến cuối câu

Vị trí tương đối của âm tiết tính từ vị trí của âm tiết trong câu đến cuối câu

06 Thanh điệu âm liền trước

Từ 0..8 07 Thanh điệu âm liền sau Từ 0..8

08 Phụ âm đầu b, ch, c, d, đ, gh, gi, g, h, kh, k, l, m, ngh, ng, nh, n, ph, p, q, r, s, th, tr, t, v, x, ỉ

09 Âm đệm o, u, ỉ

10 Âm chính a, ă, õ, e, ê, ia, iờ, i, o, ô, ơ, ua, uụ, u, ưa, ươ, ư, ya, yờ, y, ỉ

11 Phụ âm cuối ch, c, m, ng, nh, n, p, t, i, y, o, u, ỉ 12 Âm vị cuối của âm liền

trước

ch, c, m, ng, nh, n, p, t, i, y, o, u, ỉ 13 Âm vị đầu của âm liền

sau

b, ch, c, d, đ, gh, gi, g, h, kh, k, l, m, ngh, ng, nh, n, ph, p, q, r, s, th, tr, t, v, x, ỉ

14-17 Âm tiết liền sau 4 thành phần của âm tiết liền sau 18-21 Âm tiết liền trước 4 thành phần của âm tiết liền trước 22 Số lượng âm vị của âm

tiết

1..4 tương ứng với số lượng âm vị của âm tiết đó. (adsbygoogle = window.adsbygoogle || []).push({});

23 Số lượng âm vị của âm tiết liền sau

1..4 tương ứng với số lượng âm vị của âm tiết đó.

24 Số lượng âm vị của âm tiết liền trước

1..4 tương ứng với số lượng âm vị của âm tiết đó.

25 Vị trí trong từ 1..4

26 Cuối đoạn? 0 nếu là đầu đoạn, 0.25 nếu là giữa đoạn và 1 nếu là cuối đoạn.

Qua quá trình huấn luyện thử nghiệm, các tham số đều được thử nghiệm qua mạng Neuron, số lượng tham số được thay đổi đối với các lần huấn luyện khác nhau.

Một số các tham số có độ ảnh hưởng không thật sự lớn đến trường độ đã được rút khỏi danh sách tham số. Và danh sách các tham số đặc trưng được sử dụng cho bài toán như ở Bảng 2-6 Các thuộc tính của vector đặc trưng

Vector đặc trưng được lựa chọn bao gồm 14 thuộc tính như trong bảng:

Bảng 2-6 Các thuộc tính của vector đặc trưng

STT Đặc trưng Nội dung

01 Thanh điệu của âm tiết 0..8 tương ứng với 6 thanh của tiếng việt (riêng thanh sắc và thanh nặng được chia thành 2 trường hợp)

02 Chiều dài đoạn Độ dài của đoạn chứa âm tiết

03 Vị trí trong đoạn Vị trí tương đối của âm tiết trong đoạn, được tính bằng vị trí của âm tiết trong Phrase chia cho độ dài của Phrase

04 Thanh điệu âm liền trước Từ 0..8 05 Thanh điệu âm liền sau Từ 0..8

06 Phụ âm đầu b, ch, c, d, đ, gh, gi, g, h, kh, k, l, m, ngh, ng, nh, n, ph, p, q, r, s, th, tr, t, v, x, ỉ

07 Âm đệm o, u, ỉ

08 Âm chính a, ă, õ, e, ê, ia, iờ, i, o, ô, ơ, ua, uụ, u, ưa, ươ, ư, ya, yờ, y, ỉ

09 Phụ âm cuối ch, c, m, ng, nh, n, p, t, i, y, o, u, ỉ 10 Âm vị cuối của âm liền

trước

ch, c, m, ng, nh, n, p, t, i, y, o, u, ỉ 11 Âm vị đầu của âm liền

sau

b, ch, c, d, đ, gh, gi, g, h, kh, k, l, m, ngh, ng, nh, n, ph, p, q, r, s, th, tr, t, v, x, ỉ

12 Số lượng âm vị của âm

tiết 1..4 tương ứng với số lượng âm vị của âmtiết đó. 13 Vị trí trong từ 1..4

STT Đặc trưng Nội dung

1 nếu là cuối đoạn.

Một phần của tài liệu mô hình hóa trường độ âm tiết tiếng việt nâng cao chất lượng tổng hợp tiếng nói (Trang 37 - 41)