Bài viết này mô tả phương pháp xây dựng hệ thống nhận dạng tiếng Việt nói trên thiết bị di động Android, sử dụng bộ công cụ CMUSphinx. Kết quả cho thấy hệ thống đã nhận dạng tốt dãy chữ số tiếng Việt phát âm liên tục.
ng nói: -lowerf 200.00 Đặt tần số tín hiệu tiếng nói: -upperf 3500.00 Sử dụng hai tham số lowerf upperf sử dụng cho việc giảm nhiễu trình nhận dạng: -dither yes Đặt số thành phần hỗn hợp Gauss sử dụng để mơ hình hình trạng thái mơ hình Markov ẩn: $CFG_FINAL_NUM_DENSITIES = 8; #(mặc định = 256) = để phù hợp với thiết bị di động Số trạng thái ràng buộc mơ hình Markov ẩn: $CFG_N_TIED_STATES = 200; (giá trị mặc định = 1000) Giá trị chọn để phù hợp với tổng thời gian ghi âm file liệu ghi âm đầu vào tổng số liệu định nghĩa từ điển trước Mơ hình nhận dạng lớn giá trị lớn, phải phù hợp giá trị q lớn so với mơ hình nhận dạng xây dựng gây khó khăn q trình nhận dạng sau, tức gây sai hỏng 186 Nhận dạng tiếng Việt nói thiết bị di động kết nhận dạng Do phải chỉnh nhiều lần kiểm thử kết để nhận giá trị phù hợp cho tham số Cấu hình tham số để chạy song song trình xử lí nhằm tăng tốc cho q trình huấn luyện: $CFG_QUEUE_TYPE = "Queue"; $CFG_NPART = 4; # Số luồng xử lí Forward-Backward $DEC_CFG_NPART = 4; # Số luồng xử lí giải mã Các tham số đường dẫn đến file liệu âm đầu vào/đầu ra/giải mã việc huấn luyện phải chỉnh sửa cách tỉ mỉ xác Bên file có tham số nhằm ánh xạ xác phần liệu âm tiết/âm vị âm với phần liệu mã hóa từ điển Ngồi ra, vài tham số hàm hệ thống nhận dạng chỉnh sửa giá trị truyền vào cho phù hợp đưa kết nhận dạng xác Các tham số (cũng tham số khác) nghiên cứu, chỉnh sửa, kiểm thử nhiều lần để tìm giá trị thích hợp Các giá trị đưa kết mà nghiên cứu với kết nhận dạng chấp nhận thời điểm này, tiếp tục nghiên cứu chỉnh sửa kĩ lưỡng thời gian tới 2.3 Kết nghiên cứu 2.3.1 Mơi trường thử nghiệm Dựa nghiên cứu trình bày phần trên, xây dựng ứng dụng nhận dạng chuỗi số tiếng Việt phát âm liên tục điện thoại thông minh cài đặt hệ điều hành Android Hệ thống thử nghiệm thiết bị Samsung Galaxy Mini S5570, Samsung Galaxy Young S5360 & LG Optimus One P500, Lenovo s560, Lenovo A3000, số thiết bị khác cài đặt hệ điều hành Google Android Ứng dụng chạy ổn định kết nhận dạng môi trường tiếng ồn 2.3.2 Đánh giá kết đạt Do tiếng nói bị ảnh hưởng nhiều yếu tố như: tốc độ nói (nhanh, chậm ), âm điệu (âm trầm, âm bổng ), giọng người nói (nam hay nữ), ngữ điệu (lên cao, xuống thấp), trạng thái người nói (giận dữ, vui vẻ ), phát âm chuẩn/không chuẩn người nói (nói ngọng, nói méo tiếng ), ảnh hưởng nhiễu từ môi trường (độ ồn môi trường xung quanh ) nên kết nhận dạng đánh giá nhiều mức khác Với môi trường nhiễu, độ ồn thấp, người nói có tiếng nói bình thường người Việt (khơng ngọng, khơng méo tiếng ) tốc độ nói vừa phải, hệ thống cho kết nhận dạng xác đến 90% số mà người dùng đọc vào Với môi trường khác bị ảnh hưởng yếu tố gây cản trở cho việc nhận dạng (độ ồn cao, người nói nhanh/chậm, có ngữ điệu, hay nói ngọng, nói méo tiếng ) độ xác giảm dần theo mức độ ảnh hưởng môi trường 187 Nguyễn Hải Dương, Nguyễn Hồng Quang Kết luận Việc xây dựng ứng dụng nhận dạng tiếng Việt nói thiết bị di động cài đặt hệ điều hành Google Android kết cho nghiên cứu đưa Kết báo chứng minh cho việc sử dụng kĩ thuật nhận dạng tiếng nói cho tiếng Việt việc giao tiếp Người - Máy tiếng Việt nói đặt biệt chạy thiết bị di động - thiết bị có cấu hình thấp lại có tính ưu việt cao sống thường ngày Một đặc điểm riêng biệt thiết bị di động tính cá nhân hóa, tức thiết bị thường sử dụng người Vì khả nhận dạng người nói tối ưu hệ thống nhận dạng tiếng nói cho người nói nhu cầu cấp thiết Những nghiên cứu tiếp tục thực thời gian tới TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] T T Vu, D T.Nguyen, M C Luong, J-P Hosom, 2005 Vietnamese large vocabulary continuous speech recognition In Interspeech 2005, Lisbon, Portugal V B Le, D D Tran, E Castelli, L Besacier, J-F Serignat, 2005 First steps in building a large vocabulary continuous speech recognition system for Vietnamese, RIVF 2005, Can Tho, Vietnam Q Vu, K Demuynck, D V Compernolle, 2006 Vietnamese Automatic Speech Recognition: the FlaVoR Approach ISCSLP 2006, Kent Ridge, Singapore GS.TSKH Bạch Hưng Khang, 2008 Tổng hợp Nhận dạng tiếng Việt Phòng nhận dạng cơng nghệ tri thức, Viện Công nghệ thông tin, Hà Nội Nguyen Hong Quang, P Nocera, E Castelli, Trinh Van Loan, 2008 A Novel Approach in Continuous Speech Recognition for Vietnamese, an Isolating Tonal Language Proceedings of the INTERSPEECH, Brisbane, Australia, pp 1149-1152 Nguyen Hong Quang, TRINH Van Loan, LE The Dat, 2010 Automatic Speech Recognition for Vietnamese using HTK system RIVF 2010 - IEEE RIVF International Conference on Computing and Communication Technologies (RIVF 2010), Hanoi, Vietnam Building language models CMUSPhinx Document, 07/2015 Building the acoustic model.CMUSPhinx Document, 07/2015 ABSTRACT Vietnamese speech recognition on mobile phone In recent years, great progress has been made to develop automatic speech recognition technology Speech recognition systems with increasingly improved accuracy are being used Work with the Vietnamese language also had initial success However, speech recognition systems have not yet been built or deployed on a server The same system will have limited features on mobile devices but thus far the device is not capable of exchanging data with a Server In this paper, a way to use a Vietnamese automatic speech recognition system in Android mobile devices is proposed making use of a CMUSphinx toolkit The results show that the system recognizes very well Vietnamese digits with continuous pronunciation Keywords: Speech Recognition, Vietnamese speech, Mobile devices, Hidden Markov Model, CMUSphinx Toolkits 188 ... Máy tiếng Việt nói đặt biệt chạy thiết bị di động - thiết bị có cấu hình thấp lại có tính ưu việt cao sống thường ngày Một đặc điểm riêng biệt thiết bị di động tính cá nhân hóa, tức thiết bị thường... ứng dụng nhận dạng tiếng Việt nói thiết bị di động cài đặt hệ điều hành Google Android kết cho nghiên cứu đưa Kết báo chứng minh cho việc sử dụng kĩ thuật nhận dạng tiếng nói cho tiếng Việt việc.. .Nhận dạng tiếng Việt nói thiết bị di động kết nhận dạng Do phải chỉnh nhiều lần kiểm thử kết để nhận giá trị phù hợp cho tham số Cấu hình tham số