KẾT LUẬN VÀ KIẾN NGHỊ

Một phần của tài liệu Nghiên cứu một số phương pháp trong nhận dạng tiếng nói (Trang 101 - 105)

Trong thời gian thực hiện luận văn cao học, học viên đã thực hiện các công việc sau:

Tìm hiểu lý thuyết

Các vấn đề lý thuyết sau đây đã được tìm hiểu:

1) Lý thuyết chung về nhận dạng tiếng nóị Nguyên tắc chung của hệ thống nhận dạng tiếng nói, lý thuyết về các phương pháp trích trọn đặc tính phổ của tiếng nóị Lý thuyết về mô hình ngôn ngữ và phương pháp giải mã, tìm kiếm trong nhận dạng tiếng nói

2) Ngôn ngữ tiếng Việt, hệ thống âm vị tiếng Việt, phương pháp phát âm, các đặc điểm riêng biệt của tiếng Việt, phương pháp xây dựng cơ sở dữ liệu tiếng nói tiếng Việt.

3) Mô hình Markov ẩn. Xích Markov và liên hệ của nó với mô hình Markov ẩn. Các bài toán cơ bản của mô hình Markov ẩn, các giải pháp cho ba bài toán này cũng như phương pháp chứng minh các công thức của các bài toán nàỵ

4) Tìm hiểu các hệ thống nhận dạng theo các phương pháp CSLU và HTK thông qua các bộ công cụ. Qua tìm hiểu xây dựng hệ thống nhận dạng HMM/ANN của CSLU và hệ thống nhận dạng CD-HMM của HTK, một số đặc điểm của hai phương pháp này được tổng kết và so sánh.

Các công việc đã thực hiện

1) Nghiên cứu phương pháp gán nhãn cơ sở dữ liệụ Gán nhãn là một khâu quan trọng trong xây dựng cơ sở dữ liệụ Luận văn là cơ sở tài liệu hướng dẫn gán nhãn bằng tiếng Anh, các đặc điểm ngôn ngữ tiếng Việt. Luận văn đã trình bày một cách hệ

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnụedụvn

thống phương pháp gán nhãn tiếng Việt bằng tay trên cơ sở đọc biểu đồ phổ và biểu đồ sóng của phát âm.

2) Nghiên cứu xây dựng hệ thống nhận dạng mười chữ số tiếng Việt liên tục dùng hệ thống nhận dạng HMM/ANN của CSLỤ Hệ thống sử dụng cơ sở dữ liệu mười chữ số, dùng đơn vị nhận dạng cơ bản là âm vị phụ thuộc ngữ cảnh.

Nghiên cứu nâng cao khả năng nhận dạng của hệ thống. Các thử nghiệm đã được tiến hành để so sánh độ chính xác nhận dạng của các hệ thống nhận dạng khác nhau:

- Xác định số lượng các category của các nguyên âm. Một nguyên âm được chia thành ba category cho hệ thống nhận dạng, khả năng nhận dạng tốt hơn.

- Âm đóng /tc/,/chc/ bổ sung vào phiên âm các từ “tám”, “chín” cho kết quả nhận dạng cao hơn.

- Các phương pháp trích trọn đặc tính được thử nghiệm và phương pháp trích trọn đặc tính PLP với 12 hệ số PLP, năng lượng và giá trị delta của chúng đem lại kết quả nhận dạng tốt nhất khi kết hợp với kỹ thuật xử lý CMS.

Kết quả hệ thống nhận dạng mười chữ số tiếng Việt liên tục tốt nhất dùng mạng HMM/ANN là 97,14% độ chính xác ở mức từ và 90,41% ở mức câụ

Các kiến nghị và hƣớng nghiên cứu tiếp theo

1) Xây dựng một cơ sở dữ liệu tiếng Việt

Cho đến hiện nay chưa có một cơ sở dữ liệu tiếng Việt nào đầy đủ và chất lượng tốt. Việc xây dựng một cơ sở dữ liệu tiếng nói tốt đang trở thành một nhu cầu cấp thiết để thúc đẩy công việc nghiên cứu nhận dạng tiếng Việt. Cơ sở dữ liệu cần phải được

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnụedụvn

xây dựng với tiêu chuẩn cao, trên cơ sở đó việc nghiên cứu nhận dạng mới đem lại kết quả tốt. Các tiêu chí để xây dựng cơ sở dữ liệu này xin được đề nghị như sau:

- Cơ sở dữ liệu bao gồm nhiều giọng nói của nhiều người khác nhau, số người nói có thể là từ 200 – 300 ngườị Người nói có giọng của các miền khác nhau Bắc, Trung, Nam.

- Số lượng từ trong bộ từ điển phải lớn, có thể bao gồm tất cả các âm tiết tiếng Việt. Cơ sở dữ liệu cần thiết phải bao phủ được về mặt ngữ nghĩa, cú pháp, ngôn điệu càng nhiều càng tốt.

- Cơ sở dữ liệu bao gồm các câu phát âm liên tục được thu âm trong phòng thí nghiệm với chất lượng thu âm cao từ tần số 16kHz/s, lấy mẫu 16bit trở lên.

- Cơ sở dữ liệu phải bao gồm hai tập dữ liệu: tập dữ liệu huấn luyện và tập dữ liệu kiểm trạ Tập dữ liệu huấn luyện phải chứa được hết các từ trong bộ từ điển. Tập dữ liệu kiểm tra phải chứa các giọng nói không có trong tập dữ liệu huấn luyện.

- Các câu trong cơ sở dữ liệu phải đảm bảo có sự cân bằng ngữ âm. Có nghĩa là ngữ cảnh của các âm vị càng cân bằng với nhau càng nhiều càng tốt.

- Phương pháp phát âm của người nói là người nói đọc sẵn theo văn bản đã được chuẩn bị trước.

2) Nghiên cứu nhận dạng thanh điệu tiếng Việt.

Trên thế giới số lượng các ngôn ngữ có thanh điệu không nhiều: tiếng Hán, tiếng Quảng Đông, tiếng Việt, tiếng Thái, tiếng Nhật... Các nghiên cứu về thanh điệu với các ngôn ngữ nước ngoài như tiếng Anh, tiếng Pháp là rất ít. Nghiên cứu về nhận dạng thanh điệu chủ yếu do các tác giả Trung Quốc tiến hành, nhưng rất ít các bài báo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnụedụvn

về vấn đề nàỵ Hệ thống nhận dạng tiếng Việt bao gồm hai quá trình song song: nhận dạng các từ không thanh điệu và nhận dạng thanh điệụ Để xây dựng hệ thống nhận dạng tiếng Việt hoàn chỉnh, nhất thiết phải tiến hành nghiên cứu nhận dạng thanh điệu tiếng Việt. Đây là một bài toán khó và mới chỉ có một bài báo về nhận dạng thanh điệu từ rời rạc được thực hiện [Cường]. Nhiều vấn đề nghiên cứu còn ở phía trước với nhận dạng thanh điệụ

3) Xây dựng hệ thống nhận dạng với kích thước lớn.

Cho tới thời điểm hiện nay, chưa có hệ thống nhận dạng tiếng Việt nào với kích thước lớn được công bố. Đây cũng là mục đích mà các hệ thống nhận dạng tiếng Việt cần phải vươn tớị Trên cơ sở dữ liệu tiếng Việt tốt, bài toán nhận dạng thanh điệu tiếng Việt được giải quyết thì công việc xây dựng hệ thống nhận dạng tiếng Việt có kích thước lớn có đủ điều kiện được xây dựng và đây cũng là ước mơ của những người nghiên cứu nhận dạng tiếng Việt.

Một lần nữa Học viên xin được cảm ơn PGS. TS Lƣơng Chi Mai đã tận tình giúp đỡ, hướng dẫn trong thời gian thực hiện đề tài, cảm ơn sự giúp đỡ của gia đình, bạn bè và các đồng nghiệp trong thời gian quạ

Thái Nguyên, ngày 29 tháng 11 năm 2012 Người thực hiện

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnụedụvn

Một phần của tài liệu Nghiên cứu một số phương pháp trong nhận dạng tiếng nói (Trang 101 - 105)

Tải bản đầy đủ (PDF)

(113 trang)