Kết luận, các nội dung và phạm vi nghiên cứu chính của luận văn

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu áp dụng mô hình mạng nơ ron end to end cho nhận dạng tiếng nói tiếng việt (Trang 31 - 34)

Qua các phân tích tổng quan về tình hình nghiên cứu ở trên cho thấy, các nghiên cứu trên các ngôn ngữ có thanh điệu như tiếng Việt vẫn còn hạn chế. Một số vấn đề cấp thiết đối với nhận dạng tiếng Việt có thể chỉ ra như sau: 1) Các nghiên cứu về tiếng Việt với tập từ vựng lớn phát âm liên tục còn rất hạn

chế. Có rất ít nghiên cứu nào tập trung vào việc mô hình hóa, phân tích và đánh giá ảnh hưởng của thanh điệu trong hệ thống nhận dạng tiếng Việt từ vựng lớn phát âm liên tục. Từ các kết quả nghiên cứu đã công bố trên các ngôn ngữ Mandarin, Cantonese, Thái cho thấy việc mô hình hóa thanh điệu hoặc sử dụng thông tin thanh điệu để xây dựng hệ thống nhận dạng đều đã làm tăng chất lượng của hệ thống. Tuy nhiên, với tiếng Việt thì các nghiên cứu mới chỉ dừng lại ở việc sử dụng các mô hình truyền thống như HMM hay NN với đặc trưng thanh điệu đã được chỉnh sửa làm đầu vào. Các tiếp cận này mặc dù đã sử dụng đến thông tin thanh điệu nhưng mới ở mức đơn giản đó là sử dụng bộ âm vị có thanh điệu, hoặc sử dụng đặc trưng thanh diệu đã chỉnh sửa. Lý do là các nghiên cứu đã tập trung vào giải quyết các vấn đề khác như tính toán đặc trưng, xây dựng dữ liệu, kế thừa tài nguyên từ các ngôn ngữ khác, xây dựng mô hình ngôn ngữ, áp dụng mô hình HMM, NN hoặc mô hình lai ghép HMM-NN,…

2) Có rất ít nghiên cứu nào tập trung vào việc nghiên cứu phương pháp mô hình hóa đúng bản chất đứt gãy của đặc trưng thanh điệu cho tiếng Việt. Trong khi vấn đề này đã được nghiên cứu thành công cho tiếng Mandarin bằng

cách sử dụng mô hình MSD-HMM. Đặc trưng thanh điệu trong các nghiên cứu đã công bố cho tiếng Việt thường được áp dụng các kỹ thuật làm trơn để bổ sung các giá trị “nhân tạo” cho những đoạn bị đứt gãy trên miền vô thanh và sau đó được mô hình hóa bằng các mô hình HMM hoặc NN như một loại đặc trưng liên tục kết hợp với đặc trưng ngữ âm. Như vậy cần có nghiên cứu để đánh giá và so sánh phương pháp sử dụng đặc trưng thanh điệu đã làm trơn và đặc trưng thanh điệu thô theo đúng bản chất của nó. Chưa có nhiều nghiên cứu đưa ra các phương pháp tăng cường chất lượng cho cả đặc trưng ngữ âm và đặc trưng thanh điệu dựa theo đặc tính của tiếng Việt.

3) Tính đến nay với nhận dạng tiếng nói tiếng Việt, mới chỉ có mô hình MSD- HMM là mô hình hóa đặc trưng thanh điệu đúng theo bản chất vật lý của nó và bước đầu được áp dụng.

4) Một trong những xu thế về học máy gần đây đó là việc ứng dụng mạng nơ-

ron, đặc biệt là mạng nơ-ron học sâu (deep learning). Nhưng cho đến nay, chưa có nghiên cứu nào được công bố việc áp dụng mô hình E2E cho nhận dạng tiếng nói tiếng Việt, dù đã có rất nhiều nghiên cứu trên các ngôn ngữ phổ thông như tiếng Anh, tiếng Quan thoại.

Từ các vấn đề thực tế trên dẫn đến luận văn sẽ tập trung nghiên cứu

một số nội dung chính như sau:

1) Nghiên cứu mô hình thanh điệu cho nhận dạng tiếng Việt phát âm liên tục từ vựng lớn dựa trên bộ âm vị có thông tin thanh điệu.

2) Nghiên cứu để trả lời cho hai câu hỏi: (1) Mô hình E2E làm việc ra sao và làm thế nào để áp dụng E2E cho nhận dạng tiếng Việt? (2) Thông tin về thanh điệu ảnh hưởng như thế nào khi áp dụng mô hình E2E cho nhận dạng tiếng nói tiếng Việt?

Phạm vi nghiên cứu của luận văn

1) Đối tượng nghiên cứu của luận văn là tiếng nói phát âm liên tục, tức là tiếng nói được phát âm một cách tự nhiên và không có bất cứ điều kiện nào về khoảng cách giữa hai âm tiết liên tục.

2) Kích thước từ vựng là không giới hạn (từ vựng lớn), nghĩa là hệ thống nhận dạng dựa trên các mô hình của luận văn có khả năng nhận dạng tất cả các từ có thể có của tiếng Việt.

Chương 2: Mô hình mạng nơ-ron học sâu End-to-End cho nhận dạng tiếng nói

Giới thiệu về các thành phần cơ bản trong hệ thống nhận dạng tiếng nói từ vựng lớn. Mô hình dựa trên mạng nơ-ron học sâu (Deep Neural Network - DNN) cho nhận dạng tiếng nói. Ưu điểm của mô hình dựa trên mạng nơ-ron và phân loại mô hình mạng nơ-ron DNN.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu áp dụng mô hình mạng nơ ron end to end cho nhận dạng tiếng nói tiếng việt (Trang 31 - 34)

Tải bản đầy đủ (PDF)

(69 trang)