.4 Bảng kết quả đánh giá

Một phần của tài liệu Nhận dạng tiếng nói tiếng việt bằng phương pháp học sâu (Trang 74 - 75)

Qua kết quả kiểm thử trên có thể nhận thấy rằng hệ thống nhận dạng khá tốt về giới tính, tuy nhiên kết quả nhận dạng giọng nói vùng miền chưa cao bởi các đặc điểm riêng của giọng nói vùng miền. Tiếng Việt là ngơn ngữ có thanh điệu và có nhiều phương ngữ khác nhau. Chính sự đa dạng của các phương ngữ tạo nên thách thức đối với các hệ thống nhận dạng tự động tiếng Việt.

Như vậy để nâng cao khả năng nhận dạng vùng miền yêu cầu dữ liệu đầu vào phải đủ lớn và đảm bảo đủ bao quát được các đặc trưng vùng miền nhất định, khi đó tỉ lệ nhận dạng vùng miền sẽ tăng lên.

Hình 4.1 Kết quả đánh giá hiển thị trên website

75

Hình 4.2 Cấu trúc mơ hình CNN – VGG16

Kết quả các thông số epoch khác nhau trong việc huấn luyện mơ hình lần lượt là: 10, 20, 30 epoch. Kết quả đạt được như sau:

Với epoch 10 đạt độ tin cậy (Accuracy): 67,45 % Với epoch 20 đạt độ tin cậy (Accuracy): 69,09 % Với epoch 30 đạt độ tin cậy (Accuracy): 71,27 %

Với bộ dữ liệu Vivos Corpus [24] khi nhận dạng trên tập kiểm thử cho kết quả nhận dạng giới tính và giọng nói của từng vùng miền chưa cao, cụ thể như sau:

❖ Độ chính xác khi nhận dạng giới tính là 21 mẫu/37 mẫu chính xác.

❖ Độ chính xác khi nhận dạng giọng nói từng vùng miền là 7 mẫu/37 mẫu chính xác.

Kết quả đánh giá thực nghiệm được trình bày trong Bảng 4.5

Phương pháp Độ chính xác % (Accuracy) Giới tính Vùng miền

VGG-16 56,75% 18,92%

Một phần của tài liệu Nhận dạng tiếng nói tiếng việt bằng phương pháp học sâu (Trang 74 - 75)

Tải bản đầy đủ (PDF)

(96 trang)