Mã hóa các đặc trưng

Một phần của tài liệu mô hình hóa trường độ âm tiết tiếng việt nâng cao chất lượng tổng hợp tiếng nói (Trang 41 - 44)

CHƯƠNG 2 ĐỀ XUẤT MÔ HÌNH TRƯỜNG ĐỘ ÂM TIẾT

2.3.1.2Mã hóa các đặc trưng

a) Lý do tham số hóa:

Sau khi các đặc trưng được lựa chọn, thì cần mã hóa các đặc trưng này dưới dạng số liệu, vì mạng neuron chỉ có thể nhận dạng được. Các giá trị đầu vào và đầu ra đều được co về trong khoảng (0,1). Sở dĩ phải làm như vậy là vì:

 Hàm kích hoạt cho mạng Neuron sử dụng là hàm Sigmoid. Hàm này có đặc tính:

Khoảng giá trị đầu ra của hàm Sigmoid là (0-1). Và với đầu vào trong khoảng đó thì đầu ra sẽ thay đổi gần như tuyến tính.

 Trong nhiều yếu tố ảnh hưởng, thì có yếu tố có giá trị lớn, có yếu tố có giá trị nhỏ, do đó nếu như để nguyên các giá trị này làm đầu vào cho mạng thì những đặc trưng có giá trị lớn đó sẽ lấn áp các đặc trưng có giá trị nhỏ. Độ chính xác của kết quả sẽ bị ảnh hưởng nhiều.

Ví dụ: thông tin về chiều dài của câu chứa âm tiết có thể lên đến 30, tuy nhiên thông tin về vị trí của âm tiết trong từ có dải biến động từ 1-4, và tất cả các thông tin này cùng được đưa vào mạng, tại các neuron sẽ tiến hành tính tổng các tham số đầu vào. Do đó tham số về chiều dài của đoạn sẽ có giá trị lớn lấn áp các tham số khác. Nên tất cả cần được đưa về khoảng 0-1 để đảm bảo sự công bằng giữa các đặc trưng.

b) Các phương pháp mã hóa đối với đặc trưng

 Mỗi đặc trưng có cách mã hóa khác nhau, phụ thuộc vào các yếu tố của đặc trưng đó.

- Đối với thanh điệu: Giá trị của thanh điệu thay đổi trong khoảng 1- 8. Do đó:

- Đối với vị trí của âm tiết trong đoạn:

- Đối với chiều dài của đoạn:

Trong cơ sở dữ liệu huấn luyện thì chiều dài lớn nhất của một đoạn là 25. Đối với các đoạn có chiều dài lớn hơn 25 thì sẽ được xem như có giá trị là 1.

- Vị trí của âm tiết trong từ:

- Đối với các thành phần của âm tiết thì gặp khó khăn hơn trong việc chuẩn hóa giá trị. Một phương pháp thường được dùng đó là dựa vào vị trí tương đối của âm vị trong bảng các âm vị để làm giá trị chuẩn hóa.

Tuy nhiên phương pháp này đạt kết quả không được tốt qua các đợt thử nghiệm. Khi tiến hành thử nghiệm với phương pháp mạng chỉ có thể huấn luyện được với một kích thước dữ liệu nhỏ. Khi lượng mẫu huấn luyện lên đến vài nghìn thì việc huấn luyện khó có thể hội tụ và độ chính xác không cao.

Lý do giải thích cho điều này đó là do các âm vị đó có các đặc tính khác nhau. Ví dụ “t”, và “v” hai âm vị này khác nhau. Nhưng khi được chuẩn hóa thành giá trị số thì ta thu được hai giá trị xấp xỉ bằng nhau 0.93 và 0.96. Do hai giá trị quá gần nhau nên không tạo ra được sự khác biệt nhiều trong việc huấn luyện mạng Neuron. Hơn nữa có những âm vị có thuộc tính gần giống nhau nhưng lại có khoảng cách xa nhau nên giá trị chuẩn hóa được lại khác nhau.

Dựa vào các nghiên cứu về mặt ngữ âm của âm tiết[2].. Các nhóm âm vị được phân tách nhỏ thành các nhóm khác nhau. Âm vị trong các nhóm này có cùng tính chất, khẩu hình miệng khi phát âm.

Bảng 2-7 Phân nhóm các âm vị Nhóm Ký hiệu NUL NUL CSN NG, NJ, t, m, n CSU th, tr, c, k, p, CFU f, x, s, ss, h, CFV z, G, v, zr, CSV d, b, CFL l, SV w, VF i, e, ie, VM M, 7, m7, VB u, o, uo, VMC 7x,aX, VFC EX VBC OX,

Khi đó thì giá trị được sử dụng sẽ là vị trí của nhóm của âm vị đó trong danh sách các nhóm có thể đứng ở các vị trí khác nhau (âm đầu, âm đệm, âm chính, và âm cuối).

- Về thông tin của âm trước liền trước và âm tiết liền sau. Các nghiên cứu khác [3]. thường sử dụng toàn bộ 4 thành phần của âm tiết. Tuy nhiên qua việc thử nghiệm đối với các đặc trưng đó, việc sử dụng toàn bộ các thành phần của âm tiết trước và sau là không thật sự cần thiết. Các thông tin này được đưa vào dưới dạng thành phần cuối cùng của âm tiết liền trước và thành phần đầu tiên của âm tiết liền sau. Cách thức chuẩn hóa đối với thành phần cuối

cùng của âm tiết liền trước cũng giống như đối với các thành phần khác của âm tiết.

- Riêng đối với thành phần đầu tiên của âm tiết liền sau, số lượng nhóm là 14 nhóm, nên để có thể giãn được các giá trị sau chuẩn hóa, thành phần này sẽ được mã hóa bằng 2 node. Mỗi node sẽ có 4 mức ứng với {0, 0.33, 0.67, 1}. Ví dụ với một nhóm có vị trí là 5 trong danh sách, giá trị của 2 node tương ứng sẽ là 0.33, 0.

Một phần của tài liệu mô hình hóa trường độ âm tiết tiếng việt nâng cao chất lượng tổng hợp tiếng nói (Trang 41 - 44)