.1 Cấu trúc mơ hình CNN3 lớp phức hợp

Một phần của tài liệu Nhận dạng tiếng nói tiếng việt bằng phương pháp học sâu (Trang 72 - 75)

Kết quả các thông số epoch khác nhau trong việc huấn luyện mơ hình lần lượt là: 10, 20, 30 epoch. Kết quả đạt được như sau:

Với epoch 10 đạt độ tin cậy (Accuracy): 91,56% Với epoch 20 đạt độ tin cậy (Accuracy): 93,80% Với epoch 30 đạt độ tin cậy (Accuracy): 94,29%

73

Các thông số huấn luyện của mạng nơ-ron tích chập được trình bày chi tiết trong Bảng 4.3 như sau:

Layer Parameter

Conv2D 64 kernels (7x7)

MaxPooling2D Size 3x3, strides 2x2

Conv2D 128 kernels (5x5) MaxPooling2D Size 2x2 Conv2D 256 kernels (2x2) MaxPooling2 Size 2x2 Flatten Dense 200 units Dropout Rate = 0.2 Dense Softmax

Bảng 4.3 Bảng chi tiết thông số của mơ hình

Mơ hình được train bởi hàm tối ưu là Adam với tốc độ học (learning rate) là 0.0001, beta_1=0.9, beta_2=0.999. Tỉ lệ huấn luyện và kiểm thử là 8:2 hoặc 9:1.

Sau khi huấn luyện xong mơ hình sử dụng thư viện Matplotlib [22] để hiển thị kết quả huấn luyện một cách trực quan đối với tập huấn luyện và kiểm thử. Mơ hình sau khi huấn luyện được lưu lại nhằm mục đích tái sử dụng sau này.

Phương thức dự đoán đối với một âm thanh giọng nói bất kỳ:

➢ Mẫu âm thanh dự đoán được chia thành mỗi 250 frames, sử dụng phương pháp trích rút đặc trưng được mô tả ở trên, rồi đưa vào mạng CNN. Nhãn của tập tin được chọn bởi chiến thuật majority voting.

➢ Kết quả hiển thị giới tính sẽ nằm ở giá trị đầu tiên và vùng miền sẽ là giá trị sau đó.

Với bộ dữ liệu Vivos Corpus [23] khi nhận dạng trên tập kiểm thử cho kết quả nhận dạng khá tốt về giới tính, tuy nhiên khả năng nhận dạng giọng nói của từng vùng miền còn hạn chế, cụ thể:

74

❖ Độ chính xác khi nhận dạng giọng nói từng vùng miền là 14 mẫu/37 mẫu chính xác.

Kết quả đánh giá thực nghiệm được trình bày trong Bảng 4.4

Phương pháp Độ chính xác % (Accuracy) Giới tính Vùng miền

CNN + Log-Mel Spectrogram 86.48% 37.84%

Bảng 4.4 Bảng kết quả đánh giá

Qua kết quả kiểm thử trên có thể nhận thấy rằng hệ thống nhận dạng khá tốt về giới tính, tuy nhiên kết quả nhận dạng giọng nói vùng miền chưa cao bởi các đặc điểm riêng của giọng nói vùng miền. Tiếng Việt là ngơn ngữ có thanh điệu và có nhiều phương ngữ khác nhau. Chính sự đa dạng của các phương ngữ tạo nên thách thức đối với các hệ thống nhận dạng tự động tiếng Việt.

Như vậy để nâng cao khả năng nhận dạng vùng miền yêu cầu dữ liệu đầu vào phải đủ lớn và đảm bảo đủ bao quát được các đặc trưng vùng miền nhất định, khi đó tỉ lệ nhận dạng vùng miền sẽ tăng lên.

Hình 4.1 Kết quả đánh giá hiển thị trên website

75

Một phần của tài liệu Nhận dạng tiếng nói tiếng việt bằng phương pháp học sâu (Trang 72 - 75)

Tải bản đầy đủ (PDF)

(96 trang)