SENT: CALL_V NAME_N
SENT: DIAL_V DIGIT
Từ vựng ứng với các nhãn trong ngữ pháp đƣợc cung cấp thông quá file “.voca” nhƣ sau: % CALL_V GOIJ g oij % DIAL_V BAASM b aas m % NAME_N KHASNH kh as nh HAF h af THAAFY th aaf y DDAJT dd aj t LINH l i nh % DIGIT KHOONG kh oo ng MOOJT m ooj t
Nhƣ vậy, Julian sẽ đƣơc giới hạn nghe các câu lệnh dạng “Gọi Hà”, “Gọi Khánh” … hoặc “Bấm không” “Bấm Một” mà không chấp nhận các kết quả khác. Điều này nằm trong mong muốn sử dụng của ngƣời dùng. Nhƣ vậy, với 3 file hmmdefs, mygram.grammar, mygram.voca, Julian có thể thực hiện việc nhận dạng. Nhƣng trƣớc khi chạy Julian, cần phải cấu hình để engine nhận đúng các file nguồn đã tạo. Cụ thể nhƣ sau:
## Grammar definition file (DFA and dictionary)
-dfa mygram.dfa -v mygram.dict
## Acoustic HMM file
-h hmm3/hmmdefs
-smpFreq 48000 # sampling rate (Hz)
Hình 5.6 cấu hình cho Julian (file julian.jconf)
Cuối cùng, bắt đầu chạy Julian với dòng lệnh sau:
$julian -input mic -C julian.jconf
5.4. Đánh giá kết quả và hƣớng phát triển 5.4.1. Kết quả 5.4.1. Kết quả
Với vốn từ bao gồm các từ /GỌI/ /BẤM/ /HÀ/ /KHÁNH/ /THẦY/ /ĐẠT/ /LINH/ /KHÔNG/ /MỘT/ /HAI/ /BA/ /BỐN/ /NĂM/ /SÁU/ /BẢY/ /TÁM/ /CHÍN/ /MƢỜI/, chƣơng trình cho độ chính xác 86% trong điều kiện yên lặng và câu lệnh phát ra rõ ràng.
Nếu mở rộng số lƣợng từ vựng lên có thể đáp ứng đƣợc các ứng dụng lệnh bằng giọng nói cơ bản.
5.4.2. Nhận xét
Mặc dù đã nhận dạng tƣơng đối chính xác các từ vựng trên, tuy nhiên vốn từ vựng mà chƣơng trình sử dụng còn ít, chƣa kiểm tra đƣợc độ chính xác khi phát triển với số lƣợng từ vựng lớn.
Một vấn đề khác là đề tài chỉ mới dùng lại ở bƣớc xây dựng mô hình HMM ở mức monophone mà chƣa xây dựng đƣợc ở mức triphone, nên độ chính xác chƣa cao.
5.5.Khó khăn và hƣớng phát triển
Đối với việc xây dựng chƣơng trình nhận dạng cho tiếng Việt, khó khăn lớn nhất là chƣa có những công trình nghiên cứu mang tính chuẩn mực về ngữ âm của tiếng Việt, do đó khi áp dụng vào HTK, bản thân nhóm thực hiện cũng áp dụng các kỹ thuật ở mức cảm tính, chƣa đảm bảo đƣợc sự chính xác.
Ngoài ra, chính vì đây cũng là một lĩnh vực khá mới mẻ ở nƣớc ta nên rất ít để tài nghiên cứu sâu về lĩnh vực này, vì vậy mà việc thực hiện bắt đầu từ các đề tài dành cho tiếng Anh, một ngôn ngữ khá khác biệt với tiếng Việt, nên một số công cụ chỉ chính xác cho tiếng Anh.
Hƣớng phát triển của chƣơng trình là tăng số lƣợng từ vựng, xây dựng đƣợc bộ từ điển phát âm chuẩn và chính xác theo âm học (rất quan trọng vì khi phát triển số lƣợng từ lớn, không thể phiên âm bằng tay mà phải làm tự động), xây dựng đƣợc mô hình triphone để tăng độ chính xác. Sau khi đạt đƣợc độ chính xác mong muốn, có thể tiếp tục huấn luyện với nhiều giọng khác nhau, tạo thành một chƣơng trình nhận dạng độc lập ngƣời nói, tăng tính khả dụng của chƣơng trình.
TÀI LIỆU THAM KHẢO
Tiếng Việt:
[1] Đinh Lê Thƣ - Nguyễn Văn Huệ, Cơ cấu ngữ âm Tiếng Việt, NXB Giáo Dục,1998 Việt, NXB Giáo Dục,1998
[2] Thái Hùng Văn, Luận án thạc sĩ, khoa Công nghệ thông tin, Đại học Khoa học Tự nhiên, 2000 tin, Đại học Khoa học Tự nhiên, 2000
[3] Đỗ Xuân Đạt – Võ Văn Tuấn, Luận văn tốt nghiêp khoa Công nghệ thông tin,Đại học Khoa học Tự nhiên, 2003 Công nghệ thông tin,Đại học Khoa học Tự nhiên, 2003
[4] Đặng Thái Dƣơng – Hà Giang Hải, luận văn tốt nghiệp khoa CNTT, ĐH Khoa học tự nhiên, 2004 khoa CNTT, ĐH Khoa học tự nhiên, 2004
Tiếng Anh:
[5] X. Huang – Spoken Language Processing: A Guide to
Theory, Algorithm and System Development
[6]Foundations of Statistical Natural Language Processing" by Manning & Schütze. Chapter 9, “Markov Models” Manning & Schütze. Chapter 9, “Markov Models”