Mô hình ngữ âm:
Xong bƣớc này ta sẽ thu đƣợc file –hmm chính là thông số cần thiết thứ hai đƣa vào bộ ngôn ngữ.
5.2.3. Xây dựng từ diển:
Từ điển đƣợc chứa trong file huanluyen.dict. Nó chứa nội dung về cách phát âm của một từ trong bộ huấn luyện.
Mỗi dòng trong tập tin này là cách định nghĩa cách đọc của một từ.
Trong tiếng Việt, cách đọc và cách viết một từ gần nhƣ là gắng liền với nhau. Do đó ta xây dựng bộ từ điển theo nhƣ cách đánh Telex trong Unikey thƣờng gặp.
38
Ví dụ: từ “quay trái” trong bộ từ điển đƣợc định nghĩa cách đọc nhƣ sau: <s> QUAY TRASI </s>
Xong bƣớc này ta đƣợc thông số cuối cùng là –dict để đƣa vào bộ ngôn ngữ.
5.3. Kết quả thử nghiệm:
Vì lần đầu tiên làm quen với công cụ và chƣa có nhiều kinh nghiệm trong việc thu âm và huấn luyện nên thời gian để xây dựng chƣơng trình demo không nhiều lắm. Mặc dù vậy, chƣơng trình đã nhận dạng đƣợc một số câu lệnh rất chính xác nhƣ:
QUAY TRÁI
QUAY PHẢI
TRỞ LẠI
QUAY TRÁI CHÍN MƢƠI ĐỘ
QUAY PHẢI CHÍN MƢƠI ĐỘ
TRỞ LẠI CHÍN MƢƠI ĐỘ Số lƣợng câu đúng: đạt trên 80 %
39
6
40
6.1. Kết quả đạt được
Sau quá trình tìm hiểu và nghiên cứu phƣơng pháp nhận dạng giọng nói Tiếng Việt, đồ án này đã đạt đƣợc những mục tiêu đề ra nhƣ sau:
a. Tìm hiểu các khái niệm có liên quan đến hệ nhận dạng tiếng nói, từ đó hiểu và vận dụng đƣợc một số yếu tố quan trọng trong việc sử dụng công cụ hỗ trợ.
b. Tìm hiểu phƣơng pháp cài đặt công cụ hỗ trợ nhận dạng giọng nói SPHINX. Trong đó bao gồm việc chi tiết hóa từng bƣớc cài đặt và thực hiện. Các bƣớc xây dựng mô hình huấn luyện.
c. Xây dựng mô hình mô phỏng nhận dạng giọng nói Tiếng Việt trên máy tính sử dụng mô hình âm học đƣợc huấn luyện bằng công cụ Sphinx, chƣơng trình nhận dạng các câu lệnh cơ bản trong điều khiển xe lăn thông minh.
6.2. Những hạn chế:
Do đây là một đề tài tƣơng đối khó, mặt khác những kiến thức về xử lý tiếng nói, tín hiệu số và các mô hình toán học bản thân chƣa đƣợc trang bị từ trƣớc mà phải tự tìm hiểu nên còn nhiều hạn chế và thiếu sót.
Thời gian làm quen với hệ điều hành UBUNTU 12.04 và xây dựng mô hình huấn luyện mất khá nhiều thời gian nên dữ liệu huấn luyện còn tƣơng đối hạn chế.
Bộ từ vựng còn quá ít so với tất cả các từ đơn của Tiếng Việt. Để có đƣợc bộ từ vựng lớn hơn đòi hỏi mất rất nhiều công sức và thời gian trong việc thu âm dữ liệu, xây dựng mô hình phiên âm chính xác.
Mô hình ngôn ngữ còn hạn chế, hệ thống nhận dạng đƣợc độ chính xác khá cao đối với bản thân tôi. Tuy nhiên đối với ngƣời khác thì mô hình vẫn có thể nhận dạng đƣợc nhƣng độ chính xác không cao.
41
6.3. Hướng nghiên cứu và phát triển
Nhận thấy kết quả thu lại cũng khá khả quan nên với kết quả này, đồ án này là bƣớc đệm khá tốt để hƣớng đến đề tài luận văn sắp tới:
Xây dựng bộ từ vựng, mô hình ngôn ngữ với độ chính xác cao hơn.
Mở rộng quy mô bộ từ vựng của mô hình ngữ âm, rộng rãi hơn, đa dạng giọng nói hơn nhằm mục đích xây dựng một hệ nhận dạng tiếng nói có độ chính xác cao với bất kì ngƣời nào.
Ứng dụng một số câu lệnh nhận dạng đƣợc để đƣa vào điều khiển xe lăn thông minh