1. Trang chủ
  2. » Luận Văn - Báo Cáo

NGHIÊN cứu NHẬN DẠNG TIẾNG nói TIẾNG VIÊṬ và ỨNG DỤNG TRONG MOBILE GAME

92 533 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 92
Dung lượng 11,11 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  NGUYỄN MINH PHÁT NGHIÊN CỨU NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT VÀ ỨNG DỤNG TRONG MOBILE GAME LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS VŨ ĐỨC LUNG TP HCM, NĂM 2017 LỜI CAM ĐOAN Tôi xin cam đoan số liệu kết nghiên cứu luận văn trung thực chưa sử dụng để bảo vệ học vị Mọi giúp đỡ cho việc thực luận văn cảm ơn thơng tin trích dẫn luận văn rõ nguồn gốc rõ ràng phép công bố Tôi xin chịu trách nhiệm cơng trình nghiên cứu riêng mình! TP Hồ Chí Minh, tháng năm 2017 Học viên Nguyễn Minh Phát LỜI CẢM ƠN Đầu tiên, em xin chân thành cảm ơn thầy PGS TS Vũ Đức Lung, người hướng dẫn tận tình, tạo điều kiện thuận lợi để em hoàn thành tốt luận văn Đồng thời em xin gửi lời biết ơn sâu sắc đến gia đình, bạn bè nhà trường ln giúp đỡ tạo điều kiện cho em suốt trình học tập thực luận văn Em cảm ơn Khoa nghiên cứu khoa học đại học Carnegie Mellon, đặc biệt giáo sư Raj Reddy, người đứng đầu dự án mã nguồn mở phát triển nhận dạng giọng nói CMUSphinx Nhờ đóng góp vơ to lớn giáo sư, em thực việc nghiên cứu Mặc dù cố gắng hoàn thành luận văn phạm vi khả cho phép, thời gian có hạn kinh nghiệm nghiên cứu khoa học chưa nhiều nên luận văn nhiều thiếu sót, mong nhận ý kiến góp ý q Thầy/Cơ anh chị học viên TP Hồ Chí Minh, tháng năm 2017 Học viên Nguyễn Minh Phát TÓM TẮT LUẬN VĂN Hiện cơng nghệ xử lý tiếng nói phát triển ứng dụng nhiều lĩnh vực, độ xác hệ thống xử lý ngày cải thiện Các ứng dụng lĩnh vực xử lý tiếng nói đa dạng: nhận dạng tiếng nói, xác thực người nói qua giọng nói, tổng hợp tiếng nói…và đạt nhiều thành tựu thực tế Để nhận dạng tiếng nói, ta cần phải xây dựng hệ thống gọi hệ nhận dạng tiếng nói tự động Hệ nhận dạng chuyển đổi chuỗi tín hiệu âm thành chuỗi từ Đã có nhiều nhóm nghiên cứu giới phát triển thành cơng hệ nhận dạng tiếng nói cho số ngôn ngữ phổ biến tiếng Anh, tiếng Pháp, tiếng Nhật,… Ở Việt Nam có nhiều cơng trình nghiên cứu thử nghiệm hạn chế Có nhiều phương pháp nhận dạng tiếng nói thống kê bao gồm: mơ hình Markov ẩn, mạng nơ-ron, sử dụng sở tri thức Trong luận văn chủ yếu nghiên cứu phương pháp xử lý tiếng nói, rút trích đặc trưng tiếng nói MFCC (Mel-scale Frequency Cepstral Coefficient) LPC (Linear Predictive Coding), mơ hình Markov ẩn, mơ hình âm học, âm vị áp dụng cho tiếng Việt Luận văn tìm hiểu kiến trúc hệ thống nhận dạng tiếng nói qua cơng cụ CMU Sphinx kết hợp với Engine game Cocos2d-x, để xây dựng Video game 2d có khả nhận dạng tiếng nói tiếng Việt lệnh điều khiển Game tảng hệ điều hành Windows phone Do mức độ phức tạp vấn đề nhận dạng tiếng nói tiếng Việt thời gian hạn chế, luận văn bước nghiên cứu ban đầu cho việc tích hợp nhận dạng tiếng nói tiếng Việt vào Video game MỤC LỤC : TỔNG QUAN 1.1 TÌNH HÌNH TRONG VÀ NGỒI NƯỚC 1.2 MỤC ĐÍCH VÀ MỤC TIÊU ĐỀ TÀI 1.2.1 MỤC ĐÍCH 1.2.2 MỤC TIÊU : CƠ SỞ LÝ THUYẾT VỀ NHẬN DẠNG TIẾNG NÓI 2.1 MỘT SỐ ĐẶC ĐIỂM CỦA TIẾNG VIỆT 2.2 BIỂU DIỄN TÍN HIỆU TIẾNG NĨI 2.3 HỆ NHẬN DẠNG TIẾNG NÓI 2.3.1 Tổng quan 2.3.2 Các hệ nhận dạng tiếng nói 10 2.3.2.1 Nhận dạng từ liên tục tách biệt 10 2.3.2.2 Nhận dạng phụ thuộc người nói độc lập với người nói 11 2.4 XỬ LÝ NHIỄU 11 2.4.1 Một số loại nhiễu môi trường thực 11 2.4.2 Một số phương pháp xử lý nhiễu 12 2.5 RÚT TRÍCH ĐẶC TRƯNG TÍN HIỆU TIẾNG NĨI 13 2.5.1 Giới thiệu 13 2.5.2 Tiền khuếch đại (pre-emphasis) 14 2.5.3 Tách từ (end-point detection) 14 2.5.4 Phân đoạn thành khung (Frame Blocking) 15 2.5.5 Lấy cửa sổ khung tín hiệu (Windowing) 16 2.5.6 Rút trích đặc trưng 17 2.5.6.1 Rút trích đặc trưng với MFCC (Mel-scale Frequency Cepstral Coefficient) 17 2.5.6.2 Rút trích đặc trưng với LPC (Linear Predictive Coding) 22 2.5.7 Dò tìm lượng (energy detection) 28 2.6 GAUSSIAN MIXTURE MODEL 28 2.7 MƠ HÌNH MARKOV ẨN 30 2.7.1 Giới thiệu 30 2.7.2 Chuỗi Markov 30 2.7.3 Tham số mơ hình Markov ẩn 31 2.7.4 Ba tốn mơ hình Markov ẩn 33 2.7.4.1 Thuật tốn lan truyền xi 34 2.7.4.2 Thuật toán lan truyền ngược 34 2.7.4.3 Thuật toán lan truyền xuôi – ngược 35 2.7.4.4 Thuật toán Viterbi 35 2.7.4.5 Thuật toán Baum-Welch 36 2.7.5 MƠ HÌNH HMM TRONG NHẬN DẠNG TIẾNG NÓI 37 2.7.5.1 HMM nhận dạng tiếng nói 37 2.7.5.2 Hai vấn đề HMM nhận dạng 39 2.7.5.3 Các thành phần hệ thống nhận dạng tiếng nói dựa HMM 39 2.7.5.4 Nhận dạng tiếng nói với HTK Sphinx 41 : CÔNG CỤ HỖ TRỢ HUẤN LUYỆN VÀ NHẬN DẠNG TIẾNG NÓI 43 3.1 TỔNG QUAN CMU Sphinx 43 3.2 HUẤN LUYỆN VÀ NHẬN DẠNG GIỌNG NÓI VỚI CMU SPHINX 44 3.2.1 Giới thiệu 44 3.2.2 Mơ hình HMM nhận dạng tiếng nói với Sphinx4 44 3.2.3 Các thành phần CMU Sphinx 45 3.2.3.1 Thiết bị đầu cuối - Frontend 46 3.2.3.2 Biểu đồ tìm kiếm - Search graph 47 3.2.3.3 Bộ giải mã - Decoder 47 3.2.3.4 Bộ ngôn ngữ - Linguist 48 3.2.4 Các xử lý CMU Sphinx 49 3.2.4.1 Huấn luyện 49 3.2.4.2 Nhận dạng 49 3.2.5 KẾT LUẬN 50 3.2.5.1 Ưu điểm 50 3.2.5.2 Nhược điểm 51 3.3 POCKETSPHINX 52 3.4 SPHINX VỚI NGÔN NGỮ TIẾNG VIỆT 52 3.4.1 Tổng quan 52 3.4.2 Corpus 52 3.4.2.1 Giới thiệu 52 3.4.2.2 Tầm quan trọng Corpus hệ nhận dạng giọng nói 53 : ENGINE GAMES COCOS2D-X 54 4.1Tổng quan Cocos2d-x 54 4.2 Các đối tượng Cocos2d-x 55 4.2.1 Director 55 4.2.2 Scene 56 4.2.3 Layer 56 4.2.4 Scene Graph 56 4.2.5 Sprite 57 4.2.6 Action 57 4.2.7 Parent Child Relationship 57 4.2.8 Touch 57 4.2.9 Physics 57 4.2.10 Network 57 : XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM 58 5.1 CÀI ĐẶT CMUSphinx 58 5.1.1 Chuẩn bị gói cài đặt 58 5.1.2 Cài đặt 58 5.1.2.1 Cài đặt Sphinxbase 59 5.1.2.2 Cài đặt sphinxtrain 59 5.1.2.3 Cài đặt pocketsphinx 59 5.2 XÂY DỰNG BỘ NGÔN NGỮ 60 5.2.1 Giới thiệu 60 5.2.2 Xây dựng từ điển 60 5.2.3 Xây dựng mơ hình ngơn ngữ 60 5.2.3.1 Chuẩn bị tập tin văn 61 5.2.3.2 Xây dựng từ vựng 61 5.2.3.3 Xây dựng mơ hình ngơn ngữ 61 5.2.4 Xây dựng mơ hình âm học 62 5.2.4.1 Chuẩn bị liệu 62 5.2.4.2 Thiết lập định dạng âm huấn luyện 65 5.3 CẤU HÌNH SPHINX 66 5.3.1 Cấu hình thư mục huấn luyện 66 5.3.2 Điều chỉnh tham số huấn luyện 67 5.3.3 Thực thi huấn luyện 68 5.4 CÀI ĐẶT COCOS2D-X 69 5.4.1 Mơi trường lập trình cho tảng khác 69 5.4.2 Yêu cầu cài đặt tối thiểu cho Windows phone 70 5.5 SỬ DỤNG KẾT QUẢ HUẤN LUYỆN 71 5.5.1 Các yêu cầu cài đặt hệ thống 72 5.5.2 Thông tin hệ thống 72 5.5.3 Mơ hình chương trình thử nghiệm 73 5.6 THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 73 5.7 KẾT QUẢ ĐẠT ĐƯỢC VÀ HƯỚNG PHÁT TRIỂN 74 5.7.1 KẾT QUẢ ĐẠT ĐƯỢC: 74 5.7.2 HƯỚNG PHÁT TRIỂN: 75 TÀI LIỆU THAM KHẢO 76 i DANH MỤC BẢNG Bảng 2.1: Các giá trị đặc trưng cho tham số phân tích LPC 27 Bảng 5.1 Thơng số cấu hình 68 Bảng 5.2 Danh sách lệnh huấn luyện nhận dạng 73 Bảng 5.3 Kết kiểm tra trực tiếp sử dụng điện thoại 74 ii DANH MỤC HÌNH Hình 2.1: Chia tín hiệu thành khung cửa sổ Hình 2.2: Các khung cửa sổ liền spectrogram tương ứng Hình 2.3 Sơ đồ nhận dạng tiếng nói 10 Hình 2.4 Q trình rút trích đặc trưng 13 Hình 2.5: Minh họa việc tính tốn lượng thời gian ngắn 15 Hình 2.6 Phân đoạn tiếng nói thành khung chồng lấp 15 Hình 2.7: Tín hiệu trước sau nhân với cửa sổ Hamming 16 Hình 2.8 Các bước rút trích đặc trưng MFCC 17 Hình 2.9: Mel – spaced filterbank với 20 hệ số mel – spectrum 18 Hình 2.10 Minh họa bước biến đổi MFCC 18 Hình 2.11 Biểu đồ thang tần số Mel theo tần số thực 20 Hình 2.12 Băng lọc tần số Mel 21 Hình 2.13 Đưa tín hiệu vào băng lọc tần số Mel 21 Hình 2.14: Sơ đồ xử lý LPC dùng trích chọn đặc trưng tiếng nói 23 Hình 2.15 Mẫu tiếng nói dự báo tuyến tính 24 Hình 2.16 Mơ hình GMM 29 Hình 2.17 Hàm mật độ GMM có phân phối Gauss 29 Hình 2.18 Chuỗi Markov với trạng thái (S1 đến S5) 31 Hình 2.19: Mơ hình HMM trái phải với trạng thái 33 Hình 2.20 Thuật tốn lan truyền xi – ngược 35 Hình 2.21 Ước lượng Baum - Welch 37 Hình 2.22 Rút trích đặc trưng tiếng nói 40 Hình 2.23 Mơ hình máy nhận dạng tiếng nói với HMM 41 Hình 2.24 Nhận dạng tiếng nói với HTK 42 Hình 3.1 Mơ hình tổng qt q trình huấn luyện nhận dạng tiếng nói 43 Hình 3.2 Kiến trúc hệ thống Sphinx4 45 Hình 3.3 Kiến trúc thành phần Frontend 46 Hình 3.4 Chuỗi xử lý thành phần Frontend 46 Hình 3.5 Quá trình nhận dạng 50 Hình 3.6 Tổng quan Corpus 53 Hình 4.1: Kiến trúc engine game Cocos2d-x 54 Hình 4.2: Liên kết native games web games 54 Hình 4.3: Sử dụng JavaScript cho native games web games 55 Hình 4.4 : Quản lý hình game (scene) 55 Tập tin feat.params -lowerf CFG_LO_FILT -upperf CFG_HI_FILT -nfilt CFG_NUM_FILT -transform CFG_TRANSFORM -lifter CFG_LIFTER -feat CFG_FEATURE -svspec CFG_SVSPEC -agc CFG_AGC -cmn CFG_CMN -varnorm CFG_VARNORM Tập tin sphinx_train.cfg # Configuration script for sphinx trainer $CFG_VERBOSE = 1; the screen -*-mode:Perl-*- # Determines how much goes to # These are filled in at configuration time $CFG_DB_NAME = "poker"; # Experiment name, will be used to name model files and log files $CFG_EXPTNAME = "$CFG_DB_NAME"; # Directory containing SphinxTrain binaries $CFG_BASE_DIR = "/home/nmphat/poker"; $CFG_SPHINXTRAIN_DIR = "/usr/local/lib/sphinxtrain"; $CFG_BIN_DIR = "/usr/local/libexec/sphinxtrain"; $CFG_SCRIPT_DIR = "/usr/local/lib/sphinxtrain/scripts"; … 5.3.2 Điều chỉnh tham số huấn luyện Thơng tin cấu hình nằm tập tin sphinx_train.cfg Một số cấu hình quan trọng: Cấu hình định dạng tập tin âm dùng huấn luyện $CFG_WAVFILES_DIR = "$CFG_BASE_DIR/wav"; $CFG_WAVFILE_EXTENSION = 'wav'; $CFG_WAVFILE_TYPE = 'mswav'; # one of nist, mswav, raw Điều chỉnh loại mơ hình (huấn luyện HMM liên tục, bán liên tục), bỏ dấu # trước mơ hình cần huấn luyện: $CFG_HMM_TYPE = '.cont.'; # Sphinx 4, PocketSphinx #$CFG_HMM_TYPE = '.semi.'; # PocketSphinx #$CFG_HMM_TYPE = '.ptm.'; # PocketSphinx (larger data sets) 67 Cấu hình tham số mật độ CFG nhận giá trị 4, 8, 16, 32, 64 tùy theo độ lớn liệu: # Single stream features - Sphinx $CFG_FEATURE = "1s_c_d_dd"; $CFG_NUM_STREAMS = 1; $CFG_INITIAL_NUM_DENSITIES = 1; $CFG_FINAL_NUM_DENSITIES = 8; die "The initial has to be less than the final number of densities" if ($CFG_INITIAL_NUM_DENSITIES > $CFG_FINAL_NUM_DENSITIES); } Cấu hình số lượng senone để huấn luyện mơ hình Số lượng senone lớn, sphinx phân biệt âm xác Mặt khác, có q nhiều senone, mơ hình khơng đủ tổng qt để nhận dạng tiếng nói vơ hình Nghĩa số từ lỗi tăng cao liệu chưa huấn luyện Đó lý quan trọng để khơng nên huấn luyện q mức mơ hình Trường hợp có q nhiều senone mơ hình phát sinh cảnh báo lỗi # Number of tied states (senones) to create in decision-tree clustering $CFG_N_TIED_STATES = 1000; Theo nghiên cứu nhóm CMUSphinx cấu hình dựa theo bảng sau: Bảng 5.1 Thơng số cấu hình 5.3.3 Thực thi huấn luyện Để bắt đầu trình huấn luận, thực chuyển đến thư mục huấn luyện (thư mục poker) lệnh :  cd poker Gõ lệnh huấn luyện:  sphinxtrain run 68 Lệnh duyệt qua phần yêu cầu, phát sinh thư mục bwaccumdir, feat, logdir, model_parameters, model_architecture, result, trees qmanager bên thư mục poker Trong q trình huấn luyện khơng bỏ qua thơng báo lỗi Q trình huấn luyện xuất thông báo dạng: Baum welch starting for Gaussian(s), iteration: (1 of 1) 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Normalization for iteration: Current Overall Likelihood Per Frame = 30.6558644286942 Convergence Ratio = 0.633864444461992 Baum welch starting for Gaussian(s), iteration: (1 of 1) Kết thúc trình huấn luyện, thu tập tin poker.html tập tin ghi nhận trình huấn luyện Kết thúc trình huấn luyện, mơ hình âm học (acoustic model) lưu thư mục model_parameters/poker.cd_cont_1000, bao gồm tập tin sau:  mdef  feat.params  mixture_weights  means  noisedict  transition_matrices  variances 5.4 CÀI ĐẶT COCOS2D-X 5.4.1 Môi trường lập trình cho tảng khác Hệ điều hành Mac OS X 10.7+, Xcode 5.1+ Ubuntu 12.10+, CMake 2.6+ Windows 7+, VS 2013+ Tất tảng cần Python 2.7.5 NDK r10c+ để build game tảng Android Windows Phone/Store 8.1 Visual Studio 2013 Update 4+ Visual Studio 2015 69 JRE JDK 1.6+ cần thiết cho game chạy web Supported Build iOS 5.0+ iPhone / iPad games Android 2.3+ Android games Windows Phone 8+ cho Windows Phone games OS X v10.6+ Mac games Windows 7+ Win games 5.4.2 Yêu cầu cài đặt tối thiểu cho Windows phone Hệ điều hành Windows 8.0/8.1 Engine Cocos2d-x v2.2.6 (đối với v3.0 trở viết lại sử dụng C++ 11) Visual Studio 2012+ Windows Phone SDK 8.0 Python 2.7.5 Để build game Windows phone, cần phải tạo Microsoft account dùng để đăng kí Windows Phone Developer Tải Cocos2d-x về, sau giải nén ta thư mục có cấu trúc sau: Hình 5.5 Cấu trúc thư mục Cocos2d-x Mở cocos2d-wp8.vc2012.sln Click chuột phải vào cpp-tests project, chọn Set as StartUp Project Chọn Emulator Device để build TestCpp project Nếu bạn chọn Device cần phải connect với điện thoại qua USB Nếu thứ hoạt động, thứ hoạt động ta bắt đầu New Project 70 5.5 SỬ DỤNG KẾT QUẢ HUẤN LUYỆN Các tập tin mơ hình POKER thu kết thúc trình huấn luyện sau tạo SphinxTrain: mdef feat.params mixture_weights means noisedict transition_matrices variances Sử dụng tập tin project Poker thực hệ điều hành Windows Trong project Poker, thư mục Assets tạo thư mục models, thư mục models tạo thư mục có tên dict, hmm, lm Chép tập tin poker.dic vào thư mục dict Chép tất tập tin mdef, feat.params, mixture_weights, means, noisedict, transition_matrices, variances vào thư mục hmm Chép tập tin poker.lm.dmp vào thư mục lm Sử dụng libs sphinx nhận dạng: Giải nén pocketsphinx-5prealpha sphinxbase tải về, vào pocketsphinx5prealpha\src để chép libpocketsphinx, vào sphinxbase\src để chép libsphinxbase , sau đưa vào project poker để hỗ trợ q trình nhận dạng  Thiết lập đường dẫn đến mơ hình âm học, từ điển mơ hình ngơn ngữ MyPocketRecordnizer::GetInstance()->Initialize("\\Assets\\models\\hmm", "\\Assets\\models\\dict\\poker.dic",\\Assets\\models\\lm\\poker.lm.dmp");  Sử dung microphone nguồn âm để nhận dạng MyWasapiAudio::GetInstance()->StartAudioCapture();  Bắt đầu trình xử lý MyPocketRecordnizer::GetInstance()->StartProcessing(); 71 5.5.1 Các yêu cầu cài đặt hệ thống Yêu cầu phần mềm:  Visual Studio 2013  Thư viện libpocketsphinx  Thư viện libsphinxbase  Ngơn ngữ lập trình sử dụng chủ yếu: C, C++, C# Dùng Engine game Cocos2d-x để xây dựng game 2d đánh Long-Hổ (DragonTiger) tảng Windows phone Sử dụng phần mềm Visual Studio để thực công việc sau:  Giả lập máy chủ Server để giao tiếp với Client sử dụng công nghệ Websocket Về ứng dụng phía Client cho phép người chơi tạo phòng, phòng có tối đa người chơi  Tạo project tên Poker có cấu trúc nội dung hình bên dưới: Hình 5.6 Cấu trúc nội dung thư mục project Poker Trong đó: o Thư mục Assets chứa tất tập tin thu sau huấn luyện o Tập tin từ điển poker.dict o Tập tin mơ hình ngơn ngữ poker.lm 5.5.2 Thơng tin hệ thống Chương trình thử nghiệm xây dựng hệ thống với thông số sau: - Máy laptop Lennovo W530 - Bộ xử lý intel Core i7-3720QM 2.60GHz 72 - 8GB Ram - Hệ điều hành Windows 10 Professional 64bit - Card âm onboard - Micro dùng để thu âm kèm theo máy 5.5.3 Mơ hình chương trình thử nghiệm Bộ ngoại vi Tín hiệu tiếng nói Đặc trưng Bộ ngơn ngữ Bộ giải mã Mơ hình âm học Kết nhận dạng Mơ hình ngơn ngữ Từ điển Điều khiển video game Hình 5.7 Sơ đồ hoạt động chương trình thử nghiệm Ban đầu, tín hiệu tiếng nói qua micro đưa vào ngoại vi, tín hiệu tham số hóa thành dãy đặc trưng chuyển vào cho giải mã Bộ ngôn ngữ chuyển đổi mô hình ngơn ngữ, thơng tin phát âm từ điển thơng tin cấu trúc âm mơ hình âm học vào đồ thị tìm kiếm giải mã Bộ giải mã xác định chuỗi đặc trưng gần giống đồ thị tìm kiếm so với đặc trưng giọng nói cung cấp ngoại vi cho kết nhận dạng 5.6 THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ Hiện luận văn xây dựng thành cơng chương trình thử nghiệm nhận dạng điều khiển chức Game thông qua giọng nói bao gồm lệnh liệt kê bảng 5.2 Bảng 5.2 Danh sách lệnh huấn luyện nhận dạng STT 10 Các lệnh Chơi Đánh Tạo phòng Phòng Phòng hai Đặt long Đặt hổ Đặt đơi Đặt xong Một nghìn Số người tham gia thu âm: tác giả Số lần thu âm dành cho liệu huấn luyện 100 100 100 100 100 100 100 100 100 100 73 11 12 13 14 15 16 17 18 Hai nghìn Năm nghìn Mười nghìn Hai mươi nghìn Năm mươi nghìn Một trăm nghìn Hai trăm nghìn Năm trăm nghìn 100 100 100 100 100 100 100 100 Bảng 5.3 Kết kiểm tra trực tiếp sử dụng điện thoại Đánh Chơi Tạo phòng Phòng Phòng hai Một nghìn Hai nghìn Năm nghìn Mười nghìn Hai chục nghìn Năm chục nghìn Một trăm nghìn Hai trăm nghìn Năm trăm nghìn Đặt long Đặt hổ Đặt đôi Đặt xong Số lần thử nghiệm 10 % Kết nhận dạng T F T F T T T T T T T T T T T T T T T T T T F T T T T F T T F T T T T T T T T T T F T T T T T T T T T F T T F T T F T T F T T F T T F T T T T T F T T T T T T T T F T T T T T T T T T T T T F T T T F T T T F T T T T F T T T F T T T F T T T T F T T F T T T T T F T T T T T T T T T T T T F T T T T T T T T T T T T T T F T T T F T T F T T T F T T T T T T T T T T T 80 100 80 90 90 70 70 90 90 80 80 80 70 100 90 90 70 100 5.7 KẾT QUẢ ĐẠT ĐƯỢC VÀ HƯỚNG PHÁT TRIỂN 5.7.1 KẾT QUẢ ĐẠT ĐƯỢC: Dựa lý thuyết trò chơi, phương pháp nhận dạng mẫu tiếng Việt, mơ hình ngơn ngữ thuật tốn tìm kiếm để tăng cường khả nhận dạng, luận văn nghiên cứu ứng dụng thử nghiệm nhận dạng tiếng nói tiếng Việt điều khiển Video Game, luận văn thực số công việc sau:  Giúp người chơi giải trí, nâng cao trải nghiệm người dùng Game Nâng cao hiệu chơi Game, giúp đơn giản hóa thao tác chơi  Nghiên cứu thực huấn luyện mô hình âm học theo âm vị, áp dụng cho tiếng Việt 74  Nghiên cứu tiếng nói, phương pháp xử lý tiếng nói, rút trích đặc trưng  Nghiên cứu sử dụng kiến trúc hệ thống nhận dạng tiếng nói qua cơng cụ CMUSphinx  Xây dựng thành cơng chương trình thử nghiệm nhận dạng tiếng nói tiếng Việt việc điều khiển Video Game giọng nói điện thoại 5.7.2 HƯỚNG PHÁT TRIỂN:  Tăng cường thêm khả xử lý Server để chơi nhiều người  Khảo sát thêm đặc điểm ngữ âm tiếng Việt quan sát ảnh phổ để rút trích đặc trưng ảnh hưởng đến điệu, nhằm nâng cao độ xác việc nhận dạng điệu  Tìm hiểu thêm thuật tốn xử lý nhiễu, tiền xử lý hiệu chỉnh để tăng cường khả nhận dạng tiếng nói tiếng Việt mơi trường có nhiều tạp âm khác  Tìm hiểu thêm mơ hình ngơn ngữ thuật tốn tìm kiếm tối ưu để tăng tốc độ nhận dạng tiếng nói cách xác  Tăng cường khả nhận dạng tiếng nói tiếng Việt cách thu nhiều mẫu hơn, thu âm với nhiều người theo vùng miền (Bắc, Trung, Nam), thu âm theo độ tuổi, thu âm theo giới tinh  Tìm hiểu tích hợp mơ đun nhận dạng tiếng nói tiếng Việt cho video game tảng khác Android, iOS,… 75 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Đặng Hồi Bắc (2006), Xử lý tín hiệu số, Học viện Cơng nghệ Bưu Viễn thơng [2] Đặng Ngọc Đức, Nguyễn Tiến Dũng, Lương Chi Mai (2011), Mơ hình phiên âm tiếng Việt mức âm vị, Institute of Information Technology, Vietnamese Academy of Science and Technology [3] Huỳnh Thanh Giàu (2012), Nghiên cứu nhận dạng tiếng nói tiếng Việt ứng dụng thử nghiệm điều khiển máy tính, Luận văn Thạc sĩ, Đại học Lạc Hồng [4] Cao Xuân Hạo (1998), Tiếng Việt - vấn đề ngữ âm, ngữ pháp, ngữ nghĩa, NXB Giáo dục [5] Phạm Minh Nhựt (2009), Định danh người nói độc lập văn bản mơ hình thống kê, Luận văn thạc sĩ, Đại học Khoa Học Tự Nhiên TP.HCM [6] Nguyễn Cao Quí (2013), Ứng dụng mơ hình Markov ẩn để nhận dạng tiếng nói FPGA, Tạp chí khoa học, Đại học Cần Thơ Tiếng Anh: [7] Phan Dinh Duy, Vu Duc Lung, Nguyen Quang Duy Trang, and Nguyen Cong Toan “Speech Recognition on Robot Controller Implemented on FPGA”, Journal of Automation and Control Engineering Vol 1, No 3, September 2013 [8] Ekaterina Verteletskaya, Boris Simak (2010), Enhanced spectral subtraction method for noise reduction with minimal speech distortion, IWSSIP - 17th International Conference on Systems, Signals and Image Processing [9] Gannert T (2007), A Speaker Verification System under the Scope: Alize, Master’s Thesis, KTH Computer Science and Communication, Sweden [10] Gordon E.Pelton, Voice Processing, McGraw Hill, 1992 [11] Huang, Acero, Hon (2001), Spoken Language Processing, Prentice-Hall [12] Jinyu Li, Member, Li Deng, Yifan Gong, Reinhold Haeb-Umbach (2014), “An Overview of Noise-Robust Automatic Speech Recognition” IEEE Trans audio, speech, and language processing, Vol 22, pp 745-777 [13] B.H Juang and L.R Rabiner (1991), Hidden Markov Models for Speech Recognition, Speech Research Department, AT&T Bell Laboratories 76 [14] S-M Kamruzzaman, A-N-M Rezaul Karim, S Islam, E Haque, “Speaker Identification using MFCC-Domain Support Vector Machine”, International Journal of Electrical and Power Engineering, Vol 1, pp 274-278, 2007 [15] Lawrence Rabiner, Biing Hwang Juang (1993), Fundamental of Speech Recognition, ISBN 0-13-285826-6 [16] Lawrence R Rabiner (1989), A Tutorial on Hidden Markov Models and Selected Application in Speech Recognition, Proceedings of the IEEE, Vol.77, No.2 [17] Vu Duc Lung, Phan Dinh Duy, Nguyen Vo An Phu, and Nguyen Hoang Long (2013), Speech Recognition in Human-Computer Interactive Control, University of Information technology, Vietnam National University HCMC [18] J MacQueen, “Some methods for classification and analysis of multivariate observations”, In proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability, Berkeley, University of California Press, Vol 1, 1967, pp 281-297 [19] Reynolds D.A., Rose R.C (1995), “Robust Text-independent Speaker Identification Using Gaussian Mixture Speaker Models” IEEE Transactions on Speech and Audio Processing, vol 3, no 1, pp 72-83 [20] Steve Young et all, “The HTK Book”, the Cambridge University Engineering Department, July 2002 [21] Sphinx-4 Documentation: [22] Cocos2d-x : 77 PHỤ LỤC Cách chơi Long – Hổ Long Hổ trò chơi phổ biến sòng sòng châu Á, đặc biệt Việt Nam Những người chơi trò nhiều cộng đồng người Hoa Hiện tại, trang casino trực tuyến mở trò có hạn chế, trò chưa phát triển phổ biến mạng Nhưng bên Campuchia (Tại cửa Mộc Bài) người chơi Long Hổ chiếm tỉ lệ lớn Căn điểm số mà định thắng thua, điểm số giống “hòa” -Trong Long Hổ K lớn nhất, A nhỏ nhất, ví dụ: K đỏ K đen đơi (hòa), cược Long Hổ bị thua nửa tiền cược -Trò chơi long hổ có ba phương pháp đặt cược: Long (Dragon), Hổ (Tiger), Đôi (Tie) -Tỷ lệ thắng trò chơi long đền 1, hổ đền 1, hòa đền BẢNG PHIÊN ÂM TIẾNG VIỆT DƯỚI DẠNG MÃ ASCII Âm vị STT IPA Chữ Ví dụ Mơ tả ASCII Âm đầu b b b ba phụ âm tắc, hai môi, hữu thanh, không bật hơi, xuất âm tiết khơng có âm đệm d dd đ đẩy phụ âm tắc, đầu lưỡi lợi, hữu thanh, không bật t t t tùng phụ âm tắc, đầu lưỡi răng, vô thanh, không bật t’ th th thích phụ âm tắc, vơ thanh, bật hơi, đầu lưỡi J tr tr trăng phụ âm tắc, đầu lưỡi vòm miệng, vơ thanh, khơng bật c ch ch phụ âm tắc, vô thanh, mặt lưỡi, không bật k (trước i, e, ê) keo c (trước u, ư, a, o, ) cảnh q (trước u) quậy k k phụ âm tắc, vô thanh, gốc lưỡi, không bật m m m mềm phụ âm vang mũi, hai môi, xuất âm tiết khơng có âm đệm n n n nóng phụ âm vang mũi, đầu lưỡi lợi nh nh nhà phụ âm vang mũi, mặt lưỡi ng ng (trước u, ư, o, ô, ơ, a, ă, â) ngủ ngh (trước i, e, ê) nghỉ 10 11 12 13 f V phụ âm vang mũi, gốc lưỡi f ph phê phụ âm xát, vô thanh, môi răng, xuất âm tiết khơng có âm đệm v v vội phụ âm xá, hữu thanh, môi răng, xuất âm tiết khơng có âm đệm 14 15 s z x d x xa d dễ gi giỏi g (trước i) phụ âm xát, vơ thanh, đầu lưỡi lợi phụ âm xát, hữu thanh, đầu lưỡi lợi 16 l l l phụ âm vang bên, đầu lưỡi 17 § s s sơn phụ âm xát, vô thanh, dầu lưỡi vòm miệng, uốn lưỡi r r rằm phụ âm xát, hữu thanh, đầu lưỡi vòng miệng, uốn lưỡi kh kh phụ âm xát, vô thanh, gốc lưỡi g g (trước u, ư, o, ô, ơ, a, ă, â) găm gh (trước i, e, ê) ghế phụ âm xát cuối lưỡi, hữu hòa 18 19 20 X Y 21 h h h 22 p p p phụ âm tắc, hai mơi, u (còn lại) có cấu tạo giống ngun âm /u/, có độ mở hẹp, phát âm cực trầm, tròn mơi, thuộc hàng sau 23 w w pi Âm đệm Am đệm o (trước nguyên hoa âm rộng a, ă, e) hủy Âm y (đứng sauAm u) suy 24 25 i i i (còn lại) tính ee ê chê 26 e e chè 27 ea a (trước ch, nh) sách u u sung 28 29 e u o oo ô 30 o o 31 oa o (trước c, ng) Phụ âm xát, vô thanh, họng nguyên âm đơn dài, hàng trước, hẹp, không tròn mơi, có tính bổng, trước /k, / bị rút ngắn nguyên âm đơn, dài, hàng trước, hẹp, không mơi, có tính chất bổng, trước /k, / bị rút ngắn nguyên âm đơn, dài, hàng trước, rộng, khơng tròn mơi, có tính chất bổng ngun âm đơn, ngắn Gần thể ngắn nguyên âm đơn, dài, hàng sau, hẹp, tròn mơi, có âm sắc trầm Đứng trước /k, / bị rút ngắn cô nguyên âm đơn, dài, hàng sau, hẹp, tròn mơi, có âm sắc trầm Thể dài không đứng trước /k, / nguyên âm đơn, dài, hàng sau, rộng, tròn mơi, có âm sắc trầm Thể dài khơng đứng trước /k, / cọc nguyên âm đơn, ngắn 39 (khi só âm cuối) ưa (khi khơng có âm cuối) trưa ươ (khi có âm cuối) lười wa ngun âm hàng sau, hẹp, khơng tròn mơi ngun âm đơi yếu dần, hàng sau, khơng tròn mơi, yếu tố đầu ngun âm hàng sau, hẹp, khơng tròn môi Yếu tố sau nguyên âm hàng sau, hẹp, khơng tròn mơi Âm cuối 40 p Pc p mập phụ âm cuối, 41 t tc t chật phụ âm cuối, 42 m mz m câm phụ âm cuối vang, mũi, môi 43 n nz n nản phụ âm cuối vang, mũi, đầu luỡi ch (đứng sau i, e, ê, a) c (trường hợp lại) cục nh (đứng sau i, e, ê, a) vành ng (trường hợp lại) vàng o (đứng sau e, a) leo u (trường hợp lại) cứu y (đứng sau nguyên âm ngắn a, â) bay i (trường hợp lại) cài 44 k 45 46 47 kc ngz -w -j uz iz Tên điệu Ký hiệu Sắc S phụ âm cuối ồn, mặt lưỡi phụ âm cuối vang, mũi, mặt lưỡi bán nguyên âm cuối vang, môi bán nguyên âm cuối vang, lợi Huyền F Hỏi R Ngã X Nặng J ... trí ứng dụng nhận dạng giọng nói tiếng Việt Video Game cần thiết, giúp người khuyết tật có thêm phương tiện để giải trí Luận văn Nghiên cứu nhận dạng tiếng nói Tiếng Viê ̣t ứng dụng mobile game ... dạng tiếng nói ứng dụng việc huấn luyện, nhận dạng tiếng nói tiếng Việt Nghiên cứu cách xây dựng mơ hình ngơn ngữ, ngữ âm cho tiếng Việt Tìm hiểu nghiên cứu công cụ hỗ trợ huấn luyện, nhận dạng tiếng. .. xử lý tiếng nói phát triển ứng dụng nhiều lĩnh vực, độ xác hệ thống xử lý ngày cải thiện Các ứng dụng lĩnh vực xử lý tiếng nói đa dạng: nhận dạng tiếng nói, xác thực người nói qua giọng nói, tổng

Ngày đăng: 23/12/2018, 06:19

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w