Lựa chọn kiến trúc mạng

Một phần của tài liệu mô hình hóa trường độ âm tiết tiếng việt nâng cao chất lượng tổng hợp tiếng nói (Trang 50 - 52)

L NU NU NU NU NU NU NU SV CFV

2.3.2.2Lựa chọn kiến trúc mạng

Sử dụng dữ liệu đã được mã hóa dưới dạng các số trong khoảng (0,1) để huấn luyện cho mạng. Tất cả các dữ liệu đó được đưa vào một tập huấn luyện, thông tin trong tập huấn luyện gồm các cặp giá trị đầu vào và đầu ra tương ứng. Mạng Neuron sẽ hiệu chỉnh trọng số của mạng để tối thiểu hóa lỗi trên mạng.

Hàm kích hoạt được lựa chọn cho các Neuron trong mạng là hàm Sigmod.

Hình 2-25 Hàm kích hoạt Sigmoid

Trong đó x là tổng tất cả các giá trị đầu vào của Neuron của mỗi Neuron. Hàm này đối với các giá trị đầu vào khác nhau đều đưa ra kết quả đầu ra trong khoảng

Trong quá trình huấn luyện mạng Neuron, các kiến trúc khác nhau được thử nghiệm, số lượng lớp, số lượng Neuron trong mỗi lớp được thay đổi với mục đích đạt được độ chính xác cao nhất.

. Số lượng Neuron đầu vào chính là số lượng thành phần của Vector đặc trưng, với 15 đầu vào. Đầu ra của mạng là một Neuron với giá trị của neuron là trường độ của âm tiết. Mạng Neuron có nhiệm vụ tìm ra phương thức ánh xạ tối ưu giữa vector đầu vào 15 chiều và đầu ra một chiều.

Các nghiên cứu với mạng Neuron đã chỉ ra rằng, với một mạng Neuron có hai lớp ẩn giữa đầu vào và đầu ra có khả năng nhận diện bất kỳ hàm liên tục với các giá trị tham số dưới dạng Vector [5].. Lớp đầu tiên là đầu vào, lớp thứ hai và thứ ba là các lớp ẩn, lớp cuối cùng là đầu ra. Lớp thứ hai (lớp ẩn đầu tiên) của mạng có số Neuron nhiều hơn số Neuron của lớp đầu vào, và có thể được hiểu như là sẽ phát hiện các đặc trưng mang tính cục bộ từ không gian các giá trị đầu vào. Lớp thứ ba (lớp ẩn thứ hai) có số lượng Neuron ít hơn so với số lượng Neuron của lớp đầu vào, và có thể được hiểu theo cách nào đó sẽ phát hiện và nắm giữ được các đặc trưng toàn cục của hệ thống. [6].

Dựa vào các nghiên cứu trước đó cộng với việc thử nghiệm kiến trúc mạng Neuron bao gồm một lớp ẩn, cuối cùng kiến trúc được lựa chọn cho mạng là mạng dẫn tiến 4 lớp. Gồm một lớp Neuron đầu vào, 2 lớp ẩn và một lớp đầu ra.

Số lượng Neuron ở hai lớp ẩn được thay đổi trong nhiều lần thử nghiệm khác nhau, tuy nhiên sau nhiều lần thử nghiệm, việc thay đổi một số lượng nhỏ các Neuron trong hai lớp ẩn không làm ảnh hưởng nhiều đến kết quả dự đoán của mạng sau huấn luyện. Và độ chính xác đạt được có sự thay đổi không lớn. Số lượng Neuron cho các lớp được lựa chọn lần lượt là:

• Lớp các Neuron đầu vào: 15 neuron

• Lớp ẩn thứ nhất: 30 neuron

• Lớp ẩn thứ hai: 8 neuron

Một phần của tài liệu mô hình hóa trường độ âm tiết tiếng việt nâng cao chất lượng tổng hợp tiếng nói (Trang 50 - 52)