Nghiên cứu phát triển hệ thống nhận dạng tiếng việt cho ứng dụng danh bạ trên thiết bị di động Nghiên cứu phát triển hệ thống nhận dạng tiếng việt cho ứng dụng danh bạ trên thiết bị di động Nghiên cứu phát triển hệ thống nhận dạng tiếng việt cho ứng dụng danh bạ trên thiết bị di động luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
PHẠM QUANG DUY BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - PHẠM QUANG DUY KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA NGHIÊN CỨU PHÁT TRIỂN HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT CHO ỨNG DỤNG DANH BẠ TRÊN ĐIỆN THOẠI DI ĐỘNG LUẬN VĂN THẠC SỸ KHOA HỌC KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA CLC2017A Hà Nội – 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - PHẠM QUANG DUY NGHIÊN CỨU PHÁT TRIỂN HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT CHO ỨNG DỤNG DANH BẠ TRÊN ĐIỆN THOẠI DI ĐỘNG LUẬN VĂN THẠC SỸ KHOA HỌC KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Mạc Đăng Khoa Hà Nội – 2018 Luận văn thạc sỹ 2018 LỜI CẢM ƠN Đ u ti n t i xin c g i lời c m n ch n thành tới Viện nghi n cứu qu c t MICA n i tạo i u kiện cho t i th c luận văn Ti p n t i xin c m n trung t m kh ng gi n mạng VIETTEL n i t i làm việc tạo i u kiện gi p t i việc hoàn thành hệ th ng mà t i tr nh ày luận văn thạc sỹ T i xin ch n thành c m n TS Mạc Đăng Kho , ng ời th y ng ời h ớng ẫn gi p t i su t thời gi n qu Th m n t i c th hoàn thành luận văn t i xin ch n thành c m th y Nguyễn Việt S n c ng toàn th c c ộ viện nghi n cứu qu c t MICA gi p t i qu tr nh làm luận văn viện nghi n cứu qu c t MICA T i xin g i lời c m n tr n tr ng n nh Nguyễn Qu c o c ng tập th thành vi n nh m Voic trung t m kh ng gi n mạng VIETTEL n gi m c trung t m c ng toàn th nh ch m trung t m gi p h tr t i qu tr nh t i hoàn thành luận văn thạc sỹ Cu i c ng t i xin g i lời c m n tới c Tr n Th Thanh H i ng ời h ớng ẫn t i t c n sinh vi n ại h c h tr gi p t i n t i hoàn thành luận văn Phạm Quang Duy Phạm Quang Duy iii Luận văn thạc sỹ 2018 DANH MỤC HÌNH ẢNH H nh 1: S v cấu tạo phận phát âm ng ời(Huang et al., 2001a) .5 H nh 2: Bi u dạng sóng s khởi u lời n i ―It’s tim ‖ H nh 3: Phổ lời n i ―It’s tim ‖(Hu ng t l 2001 ) H nh 4: Cấu trúc hệ nhận dạng ti ng nói(Jurafsky and Martin, 2000) .11 H nh 5: Ví dụ mơ hình Markov (B.H Juang, Lawrence R Rabiner, 2005) 13 H nh : Mơ hình HMM t ―six‖ (Jurafsky and Martin, 2000) .16 H nh : Mơ hình Markov ẩn cho t v ng s (Jurafsky and Martin, 2000) 17 H nh : Quá trình nhận dạng chu i văn n t tín hiệu ti ng nói(Jurafsky and Martin, 2000) 17 H nh 9: Mơ hình phi n mạng Neuron 18 H nh 1: Hình nh ứng dụng Google Assistant .23 H nh 2: Hình nh ứng dụng Siri .24 H nh 3: Ứng dụng Alice 25 H nh 4: Ứng dụng ig y tr n iện thoại Samsung 25 H nh 5: Ứng dụng cotana 26 H nh 6: Ứng dụng danh bạ Google Contact .29 H nh 1: Ki n trúc Sphin4 (Huang et al., 1993) 32 H nh 2:VD Search Graph (Huang et al., 1993) 32 H nh 3: Phân b d liệu ti ng n i th o ộ dài câu 34 H nh : Màn h nh ăng nhập ăng ký tài kho n ứng dụng voicetrans 35 H nh 5: Màn hình hoạt ộng ứng dụng Voicetrans 35 H nh 6: Quy trình thu thập d liệu 37 H nh 7: S ờng i t m ki m trình nhận dạng 39 H nh 1: Bi u use case v chức ph n m m Voice Contact 41 H nh 2:S trình t (Sequence Diagram) ứng dụng Voice Contact 43 H nh 3: S quy trình ph n m m Voice Contact 44 H nh 4 : Hình nh hoạt ộng ứng dụng Voice Contact 45 H nh 5: Màn hình chi ti t danh bạ 46 H nh 1: S trình tạo mơ hình ngơn ng cơng cụ CMUclmk .55 Phạm Quang Duy iv Luận văn thạc sỹ 2018 DANH MỤC BẢNG B ng 1.1:Cấu tạo âm ti t ti ng Việt (Bùi Tất T B ng 3.1: C c c u văn n m 1997) c lấy t báo với thời gi n t ng ứng .34 B ng 3.2: B ng phân b ng ời nghi âm theo vùng mi n 36 B ng 3.3: Th nghiệm k t qu với s l B ng 3.4: K t qu nh gi ng thời gian training khác 38 ộ nhận dạng 40 B ng 4.1: Tỷ lệ lệnh thành công 47 Phạm Quang Duy v Luận văn thạc sỹ 2018 DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ HMM : GMM : DNN : Deep Neural Network CMU : Carnegie Mellon University CME : Minimum Classification Erro DTW : Dynamic Time Warping ASR : Automatic Speech Recognition MMI : Maximum Mutual Information MLLR : Maximum Likelihood Linear Regression PMC : Parallel Model Combination ATIS : Air Travel Information Service Phạm Quang Duy Hidden Markov Model Gaussian Mixture Model vi Luận văn thạc sỹ 2018 MỤC LỤC LỜI CẢM ƠN iii DANH MỤC HÌNH ẢNH iv DANH MỤC BẢNG v DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ vi MỤC LỤC vii MỞ ĐẦU Chƣơng TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI VÀ NHẬN DẠNG TIẾNG NÓI .5 1.1 Ti ng nói bi u diễn ti ng nói 1.2 Ti ng Việt ng âm ti ng Việt 1.3 Nhận dạng ti ng nói .10 1.3.1 Mơ hình chung hệ th ng nhận dạng ti ng nói 10 1.3.2 C c ph ng ph p c n 12 1.3.2.1 Gaussian Mixture Model – Hidden Markov Model (GMM-HMM) 1.3.2.2 Deep Neural Network (DNN) 18 1.3.2.3 L a ch n mô hình phù h p cho tốn 19 1.3.3 Giới thiệu cơng cụframework sẵn có cho nhận dạng ti ng nói 20 1.4 Nhận dạng ti ng nói cho ti ng Việt .20 1.5 K t luận 21 Chƣơng NHẬN DẠNG TIẾNG NÓI TRÊN THIẾT BỊ DI ĐỘNG VÀ ỨNG DỤNG CHO DANH BẠ .23 2.1 Ứng dụng nhận dạng ti ng nói cho danh bạ iện thoại .23 2.1.1 Mục tiêu ứng dụng 23 2.1.2 Một s s n phẩm t ng t c tr n th giới 23 2.1.3 Tổng k t .26 Phạm Quang Duy vii Luận văn thạc sỹ 2018 2.2 Ph n tích xuất gi i pháp .27 2.2.1 Các vấn c n ph i gi i quy t .27 2.2.2 Đ xuất gi i pháp 28 Chƣơng XÂY DỰNG MƠ HÌNH NHẬN DẠNG TIẾNG VIỆT CHO ỨNG DỤNG DANH BẠ 30 3.1 Công cụ CMU SphinX 30 3.2 Xây d ng c sở d liệu huấn luyện .33 3.2.1 Xây d ng d liệu t xt văn n 33 3.2.2 Xây d ng ph n m m thu âm d liệu ti ng n i tr n iện thoại .34 3.3 Xây d ng mơ hình âm h c 38 3.4 Thích nghi t Chƣơng i n nhận dạng cho ứng dụng danh bạ 39 XÂY DỰNG ỨNG DỤNG DANH BẠ ĐIỆN THOẠI TƢƠNG TÁC BẰNG TIẾNG NÓI TIẾNG VIỆT .41 4.1 Phân tích 41 4.2 Thi t k 42 4.3 Tri n khai .45 4.4 Th nghiệm Chƣơng nh giá 47 KẾT LUẬN 49 TÀI LIỆU THAM KHẢO 51 PHỤ LỤC 53 Phạm Quang Duy viii Luận văn thạc sỹ 2018 MỞ ĐẦU Nhận dạng ti ng nói n y c nghiên cứu phát tri n nhi u công ty nh nhi u trung tâm nghiên cứu khác Hiện công nghệ nhận dạng ti ng n i c nh ng thành t u ng k Ví dụ nh s kiện Google I/O 20181, ph n m m Google assitant tr nh iễn kh giao ti p với nhân viên khách hàng hoàn toàn t ộng ti ng nói Đ làm c i u cơng nghệ nhận dạng ti ng nói Google có th nói ạt c mức chất l ng t ng ng với ộ hi u lời nói củ ng ời Ngoài Googl ch ng t c th tìm thấy nhi u hệ th ng nhận dạng ti ng n i kh c c giới thiệu ứng dụng nhi u lĩnh v c nh IBM Watson Speech to Text2,Nuance Dragon3, Ngoài ti ng Anh, công nghệ nhận dạng ti ng n i c nghiên cứu phát tri n mạnh mẽ với ngôn ng phổ bi n nh Nhật, Hàn , Trung, Pháp Công nghệ nhận dạng ti ng việt c bắt u nghiên cứu phát tri n t nh ng năm 2000 với nhi u nghiên cứu t c c n v khác nh Viện CNTT, viện Hàn lâm KH&CN Việt Nam, AILab ại h c KHTN ĐHQG thành ph HCM, Viện NCQT MICA Đại h c Bách Khoa Hà Nội G n y c thêm s tham gia nghiên cứu phát tri n s n phẩm tập oàn c ng ty c ng nghệ lớn n ớc nh Vi tt l FPT Tiêu bi u s n phẩm củ ội ngũ FPT AI4 c th ng mại h c nh gi kh c o Thời buổi n y iện thoại th ng minh trở thành vật không th thi u với m i chúng ta.Trong vài năm g n y việc ứng dụng cơng nghệ nhận dạng ti ng nói thi t b i ộng ngày trở nên phổ bi n, với nhi u s n phẩm c phát tri n bới hang công nghệ lớn nh Google Voice search, Google Assistant5, Apple Siri6 , Samsung Bixby Tuy nhiên, cơng nghệ nhận dạng ti ng nói ứng dụng thi t b i ộng h y h t theo ki n trúc Client-Server.Rất hệ th ng hoạt ồng hoàn toàn thi t b i ộng, hệ th ng nhận dạng th ờng nặng chi m tài nguyên Tuy nhiên hệ th ng nhận dạng nh lại c nh c i m lớn ph i k t n i mạng https://events.google.com/io/ https://www.ibm.com/watson/services/speech-to-text/ https://www.nuance.com/dragon.html https://speech.openfpt.vn/ https://assistant.google.com/#?modal_active=none https://www.apple.com/siri/ https://www.samsung.com/vn/apps/bixby/ Phạm Qu ng Duy Luận văn thạc sỹ 2018 thi t b i ộng ặc biệt Việt N m c ớc phí 3G cao, nên với nh ng tác vụ th ờng xun khơng th s dụng 3G liên tục v s rv r g y r c c vấn b o mật tính ri ng t Với b i c nh trên, luận văn Tri n kh i thi t b c Việc ph i g i d liệu i với ng ời dùng c th c với hai mục tiêu chính: c hệ th ng nhận dạng ti ng Việt vận hành hoàn toàn i ộng (chạy offline không c n k t n i internet) Ứng dụng tích h p nhận dạng ti ng nói cho ứng dụng danh bạ iện thoại i ộng g i iện tác vụ c n thi t s dụng th ờng xuyên, Với thi t b tác gi tập trung phát tri n hệ th ng nhận dạng danh bạ ti ng nói y ứng dụng phù h p cho toán nhận dạng offline n u nhận dạng online t n tài nguyên mạng ứng dụng hoạt ộng liên tục.Vấn c n c n gi i quy t toán (1) hiệu chạy tr n iện thoại i ộng với tài nguyên hạn ch ộ xác c n thi t củ ch ng tr nh; (2) vấn v nhận dạng danh bạ, với danh bạ m i ng ời m i kh c nh u ng ời l u ài ng ời l u ngắn, tên riêng, vi t tắt phức tạp làm th hệ th ng chạy ổn nh ạt xác Ngồi vấn lớn khác, hệ th ng ph i hoạt ộng với nhi u gi ng nói khác nhi u vùng mi n khác Luận văn tập trung ph n tích c c ph nhận ạng t l ng ph p nhận ạng ph n tích m h nh ch n m h nh nhận ạng G ussi n Mixtur Mo l – Hidden Markov Model (GMM-HMM) cho việc ph t tri n hệ th ng nhận ạng T c gi tập trung ph n tích m h nh nhận ạng t i n thích nghi s c nh n s nh (t n ài t n ngắn kh c nh u) t c gi n th c nhận ạng tr n tr ờng Đ ph t tri n hệ th ng nhận ạng thập liệu với kho ng 20 ng ời h tr v ng mi n kh c nh u k t qu Phạm Qu ng Duy ng ph p t n ng c o ộ x c củ k t qu nhận ạng Với c c vấn ph t tri n ứng ụng ri ng ổ sung th m tr ờng g i iện y u c u ng ời tr ờng văn ụng ph v nh ng nhập x c liệu ạng v ng mi n t c gi th c thu c th thu thập c c gi ng kh c nh u c c thu thập c kho ng 105 liệu ti ng n i Luận văn thạc sỹ 2018 hình cho phép nhập t xt ng ời dùng ấn l u t xt iện s u i n c nạp vào t tên danh bạ g i phục vụ việc g i iện gi ng nói 4.4 Thử nghiệm đánh giá Ph n m m danh bạ t ng t c ằng ti ng nói phát tri n khuôn khổ luận văn c cài ặt th nghiệm nhằm nh gi mức ộ p ứng với yêu c u ặt v mặt (1) Chức năng; (2) Hiệu (3) Chất l ng Th nhiệm c ti n hành với 10 ng ời dùng bao gồm c nam lẫn n với gi ng Bắc, Trung Nam Th nghiệm c ti n hành 2thi t b i ộng với c c cài ặt gi ng K ch b n th nghiệm nh s u: - Danh bạ mặc nh c nhập sẵn danh sách liên hệ M i ng ời th nghiệm s dụng ph n m m lệnh G i Hủy g i tới 10 ng ời ngẫu nhiên danh bạ K t qu c o ạc d a tiêu chí i Có th c thành cơng hay khơng lệnh i u n ii Thời gian ph n hồi iii Mức ộ chi m dụng tài nguyên ph n m m K t qu th nghiệm nh s u V chức năng: Tỷ lệ i u n thành cơng gi ng nói t 80% n 88% Các gi ng mi n Bắc có tỷ lệ thành cơng cao nhất, mi n Nam Trung có k t qu thấp h n K t qu t t i u kiện nh th ờng, không ồn, g n nh t m thấy tức cho k t qu x c Tuy nhi n i u kiện ồn nhiễu k t qu nhận dạng hay b nh m thi u xác Phạm Qu ng Duy 47 Luận văn thạc sỹ 2018 Bảng 4.1: Tỷ lệ lệnh thành công Tỷ lệ thành công thi t b Tỷ lệ thành công thi t thứ (Sony Xperia Z4) b thứ hai Galaxy S6) Nam mi n Bắc 88 % 87% N mi n Bắc 85% 85% Nam mi n Nam 80% 82% Nam mi n Trung 82% 84% V hiệu năng: Thời gian khởi ộng ứng dụng kho ng 10-15 giây tùy máy Thời gian nhận dạng s u n giây sau câu nói Độ chi m dụng tài nguyên: Dung l ng ứng dụng kho ng 25Mb Khi khởi chạy tiêu t n kho ng 30Mb Ram Phạm Qu ng Duy 48 (Samsung Luận văn thạc sỹ 2018 Chƣơng 5.KẾT LUẬN Ti ng nói củ ng ời vơ phức tạp ặc biệt khác vùng mi n kh c nh u o việc máy tính hi u ti ng nói tốn phức tạp.Tuy nhiên luận văn củ m nh t i c gắng c i thiện ộ xác, c i thiện t c ộ t i nhận dạng cho ứng dụng tr n iện thoại nhằm ạt hiệu qu cao cho ứng dụng H n n a hệ th ng nhận dạng tr n iện thoại i ộng việc phát tri n ứng dụng g i iện danh bạ cịn có nhi u ti m v s dụng nh th c lệnh c b n, ứng dụng i u n máy móc, ứng dụng nhà thông minh s n phẩm liên quan tới giao ti p máy tính H n n a thời ại internet phát tri n có th k t h p với nhận dạng onlin nâng cao chất l ng nhận dạng hệ th ng Bộ nhận dạng phục vụ nhận dạng keyword nhận dạng online nhận dạng lệnh, gi ng nh c c s n phẩm OK Google Alexan củ Am zon ng th c nh th Tóm tắt c c c ng tr nh ch ng t i th c luận văn nh ng hạn ch cách ti p cận t ng l i c mô t nh s u: - Luận văn làm c: Xây d ng thành c ng c sở d liệu vùng mi n với d liệu ti ng nói thu thập t 20 ng ời h tr kho ng 105 d liệu phục vụ toán training d liệu sau Xây d ng thành công hệ th ng nhận dạng gi ng nói ti ng Việt Với d liệu cho t nội suy bổ sung thêm d liệu, với s dụng l ng d liệu phù h p m b o ộ x c m b o ung l ng chi m dụng tài nguyên hệ th ng nhận dạng phù h p tr n iện thoại i ộng Tri n kh i c hệ th ng nhận dạng có th chạy hoàn toàn thi t b i ộng, với ộ chi m dụng tài nguyên thấp ộ trễ ph n hồi nhỏ Đ xuất ph ng ph p nhận dạng t i n thích nghi n ng c o ộ xác hệ th ng nhận dạng - Xây ng thành c ng ứng ụng Voic Cont ct tr n iện thoại i ộng Ứng ụng chạy tr n n n t ng An roi c chức lu n lắng ngh t kh iện n s iện thoại nhập t n tr ớc - Nh ng hạn ch luận văn: Hệ th ng nhận dạng hoạt ộng ch Phạm Qu ng Duy 49 g i t t i u kiện ti ng ồn Luận văn thạc sỹ 2018 - Thời gian khởi ộng ứng dụng c n kh l u i u kiện ph n cứng iện thoại di dộng phổ bi n dạng - Ứng dụng chạy t n nhi u hiệu củ H ớng ti p cận t ng l i : S dụng mạng n ron C i thiện v ung l iện thoại c i thiện ộ xác hệ th ng nhận ng nhận dạng phù h p với nhi u ph n cứng h n Nâng cao hiệu ứng dụng , c i thiện t c ộ khởi ộng thành ứng dụng tiện ích cho m i ng ời dạng onlin h n trở Có th vận dụng hệ th ng nhận dạng k t h p với hệ th ng nhận ạt ộ x c c o h n vận dụng vào nhi u s n phẩm ứng dụng Phạm Qu ng Duy 50 Luận văn thạc sỹ 2018 TÀI LIỆU THAM KHẢO Balentine, B and D Morgan (1999) How to Build a Speech Recognition Application, Enterprise Integration Group B.H Juang, Lawrence R Rabiner (2005) B.H Juang, Lawrence R Rabiner, "Automatic Speech Recognition – A Brief History of the Technology Google Search Bùi Tất T m (1997) C sở ngôn ng h c ti ng Việt (Nhà xuất b n Giáo dục Hà Nội) Đoàn Thiện Thuật (1977) Ng âm ti ng Việt Helander, M (1997) Handbook (Amsterdam, North-Holland.) Hoàng Phê (1994) T of Human-Computer Interaction i n ti ng Việt (Nhà xuất b n Giáo dục, Hà Nội) Huang, X., Alleva, F., Hwang, M.-Y., and Rosenfeld, R (1993) An Overview of the SPHINX-II Speech Recognition System In HUMAN LANGUAGE TECHNOLOGY: Proceedings of a Workshop Held at Plainsboro, New Jersey, March 21-24, 1993, (Association for Computational Linguistics), p Huang, X., Acero, A., and Hon, H.-W (2001b) Spoken Language Processing: A Guide to Theory, Algorithm and System Development (Prentice Hall PTR) Jurafsky, D., and Martin, J.H (2000) Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition (Upper Saddle River, NJ, USA: Prentice Hall PTR) 10 Nguyễn Gi Đ nh, and Tr n Th nh L ng (2004) Thuật toán ki m tra âm ti t ti ng việt d a luật cấu tạo âm ti t (Tạp chí khoa h c Đại h c Hu , s 25) 11 Nguyen Hong Quang, Pascal Nocera, and Eric Castelli (2008) Tone recognition of vietnamese continuous speech using hidden markov model (Communications and Electronics, 2008 ICCE 2008 Second International Conference on IEEE) 12 Nguyen Quoc Bao, Vu Tat Thang, and Luong Chi Mai, C.M (2016) A Combination of Deep Neural Networks for Acoustic modeling of Vietnamese LVCSR p Phạm Qu ng Duy 51 Luận văn thạc sỹ 2018 13 Nguyễn Qu c Dũng Ng pháp ti ng Việt (Trung t m Đào tạo T xa, Hu : 1995) 14 Nguyen Tuan (2009) Advances in acoustic modeling for vietnamese (Asian L ngu g Proc ssing 2009 IALP’09 Int rn tion l Conf r nc on IEEE) 15 Quoc Cuong Nguyen, Pham Thi Ngoc Yen, and Eric Castelli (2001) Shape vector characterization of Vietnamese tones and application to automatic recognition (Automatic Speech Recognition and Understanding, 2001 ASRU’O IEEE Workshop on IEEE) 16 Rabiner, L.R (1990) Readings in Speech Recognition A Waibel, and K.-F Lee, eds (San Francisco, CA, USA: Morgan Kaufmann Publishers Inc.), pp 267–296 17 Russell, S., and Norvig, P IN ARTIFICIAL INTELLIGENCE 975 18 Sadaoki Furui (2005) View of 50 Years of Progress in Speech and Speaker Recognition Research 19 Schmandt, C (1994) Voice Communication with Computers (New York, Van Nostrand Reinhold.) 20 Shmyrev, N (2018a) Training an acoustic model for CMUSphinx 21 Shmyrev, N (2018b) Building an application with sphinx4 22 Tran, T.-A.-X (2016) Acoustic gesture modeling Application to a Vietnamese speech recognition system phdthesis Université Grenoble Alpes 23 Vu Ngoc Thang (2009) Vietnamese large vocabulary continuous speech recognition (ASRU 2009 IEEE Workshop on IEEE) 24 Vu Tat Thang, Nguyen, D.T., Luong, M.C., and Hosom, J (2005) Vietnamese Large Vocabulary Continuous Speech Recognition 25 Benesty, Jacob, M Mohan Sondhi, and Yiteng Huang, eds (2008) Springer Handbook of Speech Processing (Berlin Heidelberg: Springer-Verlag) Phạm Qu ng Duy 52 Luận văn thạc sỹ 2018 PHỤ LỤC HUẤN LUYỆN MƠ HÌNH NHẬN DẠNG TIẾNG NĨI VỚI CMU SPHINX Sphinx chạy t t hệ i u hành Linux, o thuận tiện ta cài ặt cấu h nh ch ng tr nh tr n U untu - hệ i u hành d tr n Linux nh ng dễ s dụng thuận tiện h n 1.1 Cài đặt gói Sphinx cần thiết Đ c c ch ng tr nh huấn luyện chạy t i tất c gói c n thi t c, c n ph i lên trang chủ Sphinx ch ng vào c ng th mục: Các gói bao gồm: - th viện nhận dạng vi t ngôn ng C - g i th viện n n, h tr c c th viện c n thi t cho gói khác -4 - gói h tr nhận dạng vi t java - công cụ xây d ng mơ hình ngơn ng - cơng cụ huấn luyện mơ hình ng âm 1.2 Cài đặt gói hỗ trợ Ngồi ra, ta c n t i thêm gói khác nh bison, autoconf, automake, libtool c ch gõ t ng ứng câu lệnh sudo apt-get install bison 1.3.Xây dựng từ điển ph Công cụ huấn luyện Sphinx ch h tr cho Unicode nên ta s ng ph p sau chocác ký t không thuộc b ng mã ASCII: + Các ký t thuộc b ng m ASCII + C c th nh iệu c thay th ki u gõ Telex c ký hiệu ký t S, F, R, X, J kho ng trắng + Đ tiện l i cho việc nhập liệu, m i âm v có bàn phím 1.4 Xây dựng mơ hình ngôn ngữ Phạm Qu ng Duy dụng 53 u c tổ h p t ký hiệu sẵn Luận văn thạc sỹ 2018 nh 0.1: Sơ đồ trình tạo mơ hình ngơn ngữ cơng cụ CMUclmk Cơng cụ ng b n, tath c c c tạo mô hình ngơn ng CMUclmk Đ chuẩn b tệp tin văn ớc sau: Bước 1: Chuẩn b tệp tin văn n c chuy n hóa thành tất c ký t không thuộc mã ASCII ki u gõ telex VD: HÔM NAY LÀ THỨ HAI NGÀY MAI LÀ THỨ BA Sẽ c chuy n hóa thành HOOM NAY LAF THUWS HAI NGAYF MAI LAF THUWS BA Bước 2: Xây d ng t v ng Phạm Qu ng Duy 54 Luận văn thạc sỹ 2018 Bộ t v ng tập tin vocab , chứa tất c t ti ng tập tin văn n N c tạo CMUclmk c ng tạo mơ hình ngơn ng Tạo t v ng lệnh sau : text2wfreq < dhbk.txt > dhbk.wfreq wfreq2vocab < dhbk.wfreq > dhbk.vocab Ta thu c tập tin dhbk.wfreq chứa danh sách tất c t (ti ng) kèm theo s l n xuất củ n văn n Tập tin t v ng dhbk.vocab chứa tất c t văn n c x p theo thứ t alphabet Bước 3: Phát sinh mơ hình ngơn ng Mơ hình ngơn ng c nh dạng rp Đ tạo mơ hình này, s dụng lệnh sau: text2idngram -vocab dhbk.vocab -idngram dhbk.idngram < dhbk.txt idngram2lm -vocab_type -idngram dhbk.idngram -vocab dhbk.vocab -arpa dhbk.arpa Đ nh dạng u ARPA cho mơ hình N-gram backoff có cấu tr c nh s u: \data\ ngram 1=n1 ngram 2=n2 ngram N=nN \1-grams: p w [bow] \2-grams: p Phạm Qu ng Duy 55 Luận văn thạc sỹ 2018 w1 w2 [bow] \N-grams: p w1 wN \end\ Tập tin có ph n mở N-gram 85 chi u dài M i ph n bắt u t khóa \data\, liệt kê s l c liệt kê theo m i dịng u với t khóa \N-gr m; ng N-gr m S u c nhóm lại thành t ng ph n theo N chi u ài … M i dòng N-gram bắt u với log rit (c s 10) củ i u kiện xác suất p N-gr m theo sau t w1, w2, wN tạo nên N-gr m T khóa \end\là k t thúc bi u diễn mơ hình Tuy nhiên ta s dụng c tệp tin ph i chuy n v dạng nh phân công cụ sphinxbase qua câu lệnh sau: sphinx_lm_convert -i dhbk.arpa -o dhbk.lm.DMP 1.5.Xây dựng mô hình âm học: Mơ hình âm h c bao gồm bi u diễn th ng kê âm riêng biệt tạo nên m i t mơ hình ngôn ng hay ng pháp M i âm riêng biệt t ng ứng với âm v Q trình huấn luyện mơ hình âm h c c s dụng công cụ sphinxtrain(Shmyrev, 2018a) Chuẩn b d liệu: - Tạo th mục huấn luyện, mang tên dhbk Trong tạo th mục etc, wav S u tạo tập tin nh cấu trúc sau: Phạm Qu ng Duy 56 Luận văn thạc sỹ 2018 etc | _ dhbk.dic - t i n âm v , âm ti t | _ dhbk.phone - tập tin chứa danh sách âm v | _ dhbk.lm.DMP - Mơ hình ngơn ng | _ dhbk.filler - Danh sách kho ng lặng | _ dhbk_train.fileids - Danh sách tập tin huấn luyện | _ dhbk_train.transcription - D liệu dạng text tập tin huấn luyện | _ dhbk_test.fileids - Danh sách tập tin test | _ dhbk_test.transcription - D liệu dạng text tập tin test wav | _ train | _ speaker_1 | _ file_1.wav- tập tin thu âm câu nói ng ời huấn luyện | _ | _ test | _ speaker_1 | _ file_1.wav | _ Tập tin dhbk.dic : Tập tin tập tin t i n chuẩn b t u Nó chứa nội dung v cách phát âm t huấn luyện M i dòng tập tin nh nghĩ c ch c t Tập tin có phân biệt ký t hoa - th ờng Th ng th ờng ta c n tìm hi u v cách phát âm t ngôn ng nh xây d ng c tập tin Phạm Qu ng Duy 57 Luận văn thạc sỹ 2018 N u ti ng Anh h c c ch làm ớc quan tr ng c cho t ti ng Anh có t i n Đ y xây d ng thành công huấn luyện Trong ti ng anh cách vi t cách c không phụ thuộc nh u v ―l ‖ ( ẫn u) & ―h ‖ (c i u) Tuy nhiên ti ng Việt c ch c vi t t g n nh gắng li n với nh u Nh ng t ph i c nh nghĩ c c t nhi u cách BAN BAN BANG Ý nghĩ củ ng nh nghĩ tr n t ― n‖ c th c th o c ch ― n‖ (c ch c ng chuẩn) c ― ng‖ (c ch c ng ời mi n Nam) Chỉ c dùng ký hiệu a-z, A-Z, 0-9 m b o không gây l i cho tập tin Tập tin dhbk.phone Tất c các âm v (phiên âm) s dụng tập tin nằm tập tin này, m i dòng âm v , nên x p âm v th o thứ t Sphinx dễ qu n lý L u ý th m âm v ặc biệt vào tập tin SIL, âm v ại diện cho kho ng lặng Tập tin dhbk.lm.DMP Mơ hình ngơn ng th ng k c xây d ng t tr ớc công cụ CMUclmk c th qua tập tin nh dạng ARPA DMP Tập tin dhbk.filler Các âm ti t cáckho ng lặng, ta ng ―làm y‖ nằm tập tin này, th ng th ờng nh nghĩ nh s u: SIL SIL SIL Tập tin dhbk_train.fileids Tập tin liệt k ờng dẫn n tập tin ghi âm m i dòng c th tập tin này, nằm th mục w v c s th mục trình bày phía Phạm Qu ng Duy 58 Luận văn thạc sỹ 2018 speaker_1/file_1 speaker_2/file_2 L u ý : Kh ng ghi u i tập tin wav vào M i tập tin mộtdòng Tập tin dhbk_train.transcription Tập tin ph n nội dung mà tập tin w v thu m c C n cung cấp tập tin t xt giúp cho Sphinx hi u h c t huấn luyện cho Sphinx hi u nh ng nói Cấu trúc tập tin transcript gồm nhi u dòng, m i dòng nội dung tập tin wav kèm theo tên tập tin w v HOOM NAY LAF THUWS MAAYS (file_1) NGAFY MAI LAF THUWS MAAYS (file_2) Dữ liệu âm thanh: ch Đ ghi âm câu nói s dụng t (ti ng)c n huấn luyện, ta dùng ng tr nh ghi m Âm th nh c ghi vào với thông s sau : - Default Sample Rate Format: 16000Hz Default Sample Format: 16-bit Channels: 1(Mono) - File Format: wav, raw sph CẤU HÌNH HUẤN LUYỆN SPHINX: S dụng lệnh củ sphinxtr in pock tsphinx luyện bắt u trình huấn luyện,: cấu h nh th mục huấn /SphinxTrain/scripts_pl/setup_SphinxTrain.pl -task dhbk /pocketsphinx/scripts/setup_sphinx.pl -task dhbk Điều chỉnh tham số: Tập tin sphinx_train.cfg chứa thơng tin cấu hình Một s cấu hình quan tr ng: - Cấu h nh huấn luyện tập tin m th nh nh dạng wav: $CFG_WAVFILES_DIR = "$CFG_BASE_DIR/wav"; Phạm Qu ng Duy 59 Luận văn thạc sỹ 2018 $CFG_WAVFILE_EXTENSION = 'wav'; $CFG_WAVFILE_TYPE = 'mswav'; Đi u chỉnh loại mô hình (huấn luyện HMM liên tục bán liên tục), bỏ dấu # tr ớc mơ hình c n huấn luyện: $CFG_HMM_TYPE = '.cont.'; # Sphinx 4, Pocketsphinx #$CFG_HMM_TYPE = '.semi.'; # PocketSphinx #$CFG_HMM_TYPE = '.ptm.'; # PocketSphinx (larger data sets) - Cấu hình tham s mật ộ CFG ta có th nhận giá tr 4, 8, 16, 32, 64 t yth o ộ lớn d liệu: $CFG_FINAL_NUM_DENSITIES = 32; Đ huấn luyện mơ hình , ta s dụng cấu hình s l ng senone S l ng senone lớn, sphinx phân biệt c c m x c Nh ng mặt khác, n u bạn có q nhi u senone, mơ hình kh ng c tổng qu t ủ nhận dạng ti ng n i v h nh Nghĩ s t l i tăng c o tr n liệu ch huấn luyện Vì khơng nên huấn luyện mức c c m h nh Trong tr ờng h p có q nhi u senone vơ hình phát sinh c nh báo l i # Number of tied states (senones) to create in decision-tree clustering $CFG_N_TIED_STATES = 200; Theo nghiên cứu nhóm CMUSphinx ta có th cấu hình d a theo b ng sau: Thơng số cấu hình Kích th ớc S t v ng huấn luyện Senones Densities Ví dụ 20 8 Mơ hình nhận dạng s 100 20 8 Mơ hình lệnh i u n 5000 30 16 16 M h nh c t 5000 t 20000 80 32 32 M h nh c t 20000 t Phạm Qu ng Duy 60 Luận văn thạc sỹ 2018 60000 200 16 16 Mơ hình HUB 60000 2000 64 34 Mơ hình Fisher Rich Telephone Transcription Thực thi huấn luyện: Tr ớc h t, ta tạo v ctor ặc tr ng t tín hiệu âm ghi âm, hệ th ng không làm việc tr c ti p với tín hiệu âm Ta s dụng lệnh sau : /scripts_pl/make_feats -ctl etc/dhbk_train.fileids /scripts_pl/make_feats -ctl etc/dhbk_test.fileids Tập tin k ch b n tính tốn chu i c c v ctor 13 h ớng (các vector ặc tr ng) cho m i cách nói, bao gồm Mel-frequency cepstral coefficients (MFCCs) Đ ờng dẫn tuyệt i tới tập tin âm nằm tập tin Các MFCC c t ộng ặt vào th mục /feat S u t ti n hành huấn luyện /scripts_pl/RunAll.pl Lệnh duyệt qua ph n yêu c u Quá trình huấn luyện l n l xuất racác thông báo dạng sau: Baum welch starting for Gaussian(s), iteration: (1 of 1) 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Normalization for iteration: Current Overall Likelihood Per Frame = 312.687864 Convergence Ratio = 0.715699 Baum welch starting for Gaussian(s), iteration: (1 of 1) 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Normalization for iteration: Phạm Qu ng Duy 61 t ... Chƣơng NHẬN DẠNG TIẾNG NÓI TRÊN THIẾT BỊ DI ĐỘNG VÀ ỨNG DỤNG CHO DANH BẠ 2.1 Ứng dụng nhận dạng tiếng nói cho danh bạ điện thoại 2.1.1 Mục tiêu ứng dụng Ứng dụng có mục tiêu có th thay th danh bạ. .. Chƣơng NHẬN DẠNG TIẾNG NÓI TRÊN THIẾT BỊ DI ĐỘNG VÀ ỨNG DỤNG CHO DANH BẠ .23 2.1 Ứng dụng nhận dạng ti ng nói cho danh bạ iện thoại .23 2.1.1 Mục tiêu ứng dụng 23 2.1.2 Một... - PHẠM QUANG DUY NGHIÊN CỨU PHÁT TRIỂN HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT CHO ỨNG DỤNG DANH BẠ TRÊN ĐIỆN THOẠI DI ĐỘNG LUẬN VĂN THẠC SỸ KHOA HỌC KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA NGƯỜI HƯỚNG