Bảng 4.4 cho thấy tỷ lệ WER đối với hai mô hình ngôn ngữ:
mô hình 5-gram và mô hình 5-gram có kết hợp tiền tố khi sử dụng histogram pruning với các beam width khác nhau. Phương pháp histogram pruning được chọn bởi khối lượng tính toán sẽ là cố định dù dùng bất cứ mô hình ngôn ngữ nào. Do đó, thời gian tính toán sẽ gần như tương đương.
Bảng 4.4: Kết quả tỷ lệ từ lỗi đối với mô hình ngôn ngữ và mô hình ngôn ngữ kết hợp tiền tố
Mô hình Beam width
50 100 500 1000
5-gram 27.3 24.8 17.0 15.1
5-gram với mô hình tiền tố 20.1 17.5 14.4 13.6
Bảng kết quả 4.4 cho thấy sự cải thiện đáng kể trên tất cả các beam width khác nhau. Điều này chứng minh khả năng loại bỏ những nhánh không khả thi từ sớm của mô hình ngôn ngữ kết hợp tiền tố . Tuy nhiên có thể thấy, nó đặc biệt hiệu quả đối với các beam width thấp. Ở mức beam width là 1000, mô hình kết hợp tiền tố cải thiện được 10% (từ 15.1% xuống còn 13.6%) trong khi ở mức 50, mức cải thiện đạt xấp xỉ 26% (từ 27.3%
xuống còn 20.1%). Có hiện tượng trên là bởi khi beam width đủ lớn thì mô hình ngôn ngữ thông thường sẽ vẫn có được những phương án chấp nhận được và không khác nhiều so với mô hình ngôn ngữ kết hợp tiền tố.
Khi kết hợp cả cải tiến cắt nhánh kết hợp và mô hình ngôn ngữ, ta có được thuật toán tốt hơn ở cả không gian tìm kiếm lẫn thời gian tính. Ở bộ test dễ với thời gian tính toán đủ lâu, độ chính xác tổng hợp hai cải tiến này giúp cải thiện từ 5% tới 10% so với với các giải thuật đơn cải tiến và hơn từ 15% đến 20% so với giải thuật PBS ban đầu.
0 1 2 3 4 5
ã106 14
16 18 20 22 24 26
Số lượng tiền tố đã tìm
Worderrorrate
Tổng hợp cải tiến Cải tiến cắt nhánh
Cải tiến ngôn ngữ PBS
Hình 4.3: Biểu đồ hiệu quả không gian tìm kiếm khi kết hợp hai cải tiến
Hai biểu đồ cho thấy hiệu quả của tổng hợp cải tiến ở phương diện khối lượng tính toán không cao bằng hiệu quả tìm kiếm khi đường của giải thuật tổng hợp sát hơn so với hai đường còn lại.
Điều này có thể giải thích bởi khối lượng tính toán thêm vào để có thể cập nhật mô hình ngôn ngữ tiền tố ở mỗi bước.
0 20 40 60 80 100 120
15 20 25
Thời gian tính (giây)
Worderrorrate
Tổng hợp cải tiến Cải tiến cắt nhánh
Cải tiến ngôn ngữ PBS
Hình 4.4: Biểu đồ hiệu quả thời gian tính khi kết hợp hai cải tiến
Kết luận và hướng phát triển
Đóng góp đầu tiên của luận văn là đưa ra được phương thức tìm kiếm tiền tố beam khống chế sai số cho xác suất đầu ra đặc biệt với trường hợp độ rộng beam ( ) nhỏ. Ngoài ra, giải thuậtk đề xuất chuẩn hóa tham số k trở thành số lượng lời giải được giữ lại trong tìm kiếm; điều này giúp giải thuật có thể áp dụng các phương pháp cắt nhánh rõ ràng và hiệu quả hơn.
Sau đó, tác giả đã áp dụng các kỹ thuật được sử dụng tìm kiếm beam để nâng cao tính chính xác cũng như hiệu quả tìm kiếm. Bên cạnh đó, chúng tôi đã đề xuất giải thuật có khả năng áp dụng mô hình ngôn ngữ kết hợp tiền tố giúp nhanh chóng loại bỏ các nhánh không thỏa mãn trong quá trình tìm kiếm beam. Kết quả thử nghiệm trên các tập dữ liệu chuẩn cho thấy thuật toán đề xuất của chúng tôi cho kết quả đánh giá tốt hơn về độ chính xác cũng như thời gian tính toán so với thuật toán ban đầu trên các bộ dữ liệu thử nghiệm. Những kết quả này hứa hẹn khả năng phát triển hơn cho bước đoạn định văn bản của mô hình nhận diện tiếng nói trực tiếp.
Hiện tại, chúng tôi mới khai thác sơ qua các kỹ thuật tìm kiếm trong tìm kiếm beam và kết hợp đơn giản mô hình ngôn ngữ n-gram với tiền tố. Các nghiên cứu tiếp theo sẽ tiếp tục thứ nghiệm các giải thuật tìm kiếm khác nhau cũng như các cách kết hợp nhiều loại mô hình ngôn ngữ khác nhau.
Với tính chất và khối lượng của một Luận văn tốt nghiệp, chắc chắn tác giả khó tránh khỏi những thiếu sót, hạn chế trong việc trình bày các giải pháp và kiến nghị. Vì vậy, tác giả mong
nhận được nhiều ý kiến đóng góp của các thầy cô giáo, bạn bè và đồng nghiệp để đề tài có điều kiện hoàn thiện hơn.