Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 95 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
95
Dung lượng
4,82 MB
Nội dung
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ vi HVTH: NGUYN THÀNH CHUNG MC LC LÝ LCH KHOA HC i L ii LI C iii TÓM TT iv MC LC vi DANH SÁCH CÁC HÌNH ix DANH SÁCH CÁC BNG xi DANH SÁCH CÁC CH VIT TT xii NG QUAN 1 1.1.Tng quan v nhn dng ting nói, tình hình nghiên cc 1 1.1.1.Nhn dng ting nói 1 1.1.2.Tng quan tình hình nghiên cu 2 1.2.Mng nghiên cu c tài 5 1.2.1.Mc tiêu 6 ng nghiên cu 5 1.3.Nhim v và gii hn c tài 6 1.3.1.Nhim v 6 1.3.2.Gii hn 6 u 6 1.5.Ni dung lu 7 c tin c tài 8 2. NG NÓI TING VIT 9 2.1.TNG QUAN V TING NÓI 9 2.2.n ca Ting Vit 9 2.2.1.Âm tit 9 2.2.2.Âm v 11 2.2.3.Nguyên âm và ph âm 11 2.2.4.u 12 3. MÔ HÌNH NHN DNG TING NÓI TING VIT 13 3.1. Phân loi các h thng nhn dng ting nói 13 3.1.1. Nhn dng t liên tc và nhn dng t cách bit 13 3.1.2. Nhn dng ph thuc li nói 13 3.2. Các yu t n kt qu nhn dng ting nói : 15 3.3. Cu trúc h nhn dng ting nói: 16 3.4. Gii thut h thng nhn dng ting nói ting Vit dùng Markov n: 17 Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ vii HVTH: NGUYN THÀNH CHUNG 3.5. Voice Acivation Detection (VAD): 18 3.6 s MFCC 19 3.6.1. Tin x lý 19 3.6.2. To khung và ca s hóa tín hiu 23 3.6.3. 25 3.6.4. Hu x lý 31 ng t vector: 32 3.7.1. Tng quan v ng t vector (VQ): 32 3.7.2. Cu trúc và tp hun luyn VQ: 33 méo: 34 3.7.4. Phân nhóm các vector hun luyn: 34 : MÔ HÌNH MARKOV N HMM 36 4.1. Quá trình Markov: 36 4.2. Mô hình Markov n: 38 4.3. Gii pháp toán hn ca mô hình Markov n: 41 4.3.1. Bài toán 1: 41 4.3.2. Bài toán 2: 44 4.3.3. Bài toán 3: 45 4.4. Các loi mô hình Markov n: 49 THIT K PHN CNG VÀ MU KHIN ROBOT 50 5.1. Tng quan v phn cng ca h thng : 50 5.2. La chn thit b: 52 5.2.: 52 5.2.2. Board Arduino Mega 2560: 54 : THIT K H THNG NHN DNG VÀ PHN MM GIAO DIN NHN DNG 66 6.1.Thit k h thng nhn dng ting nói trên máy tính 66 6.1 67 6.1ng t hóa vector 71 6.1.3.Hun luyn HMM 75 6.1.4.Nhn dng bng mô hình HMM 76 6.2.Thit k phn mm giao din nhn dng 78 6.3. Kt qu th nghim trên phn mm nhn dng 79 Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ viii HVTH: NGUYN THÀNH CHUNG . KT LUNG PHÁT TRIN 83 7.1. Kt lun 83 7.2. Nhn xét 84 7.3. Hn ch c tài: 84 7.4. ng phát trin c tài 84 TÀI LIU THAM KHO 86 Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ ix HVTH: NGUYN THÀNH CHUNG DANH SÁCH CÁC HÌNH Hình 3. 1. i nói khác nhau s phát âm khác nhau 14 Hình 3. 2. Mô hình nhn dng tic li nói 15 Hình 3. 3. Cu trúc tng quát ca mt h thng nhn dng ting nói 16 Hình 3. 4. gii thut h thng nhn dng ting Vit dùng Markov n 17 Hình 3. 5. n mc khi VAD 18 Hình 3. 6. n mu âm thanh sau khi VAD 18 Hình 3. 7 gii thung nói 19 Hình 3. 8. Tin x lý tín hiu 19 Hình 3. 9. Phân tích khong lng ca ting nói 21 Hình 3. 10. Tách ting nói khi khong im lng theo VAD 22 Hình 3. 11. T ting nói có khong im lng tách thành ting nói không có khong lng 23 Hình 3. 12. Frame blocking và Windowing 23 Hình 3. 13. Chia khung chui tín hiu 24 Hình 3. 14. Ca s Hamming vi các h s 24 Hình 3. 15. Tín hiu tic ca s hóa so vu 25 Hình 3. 16c thc hin MFCC 25 Hình 3. 17. Ph Fourier ca tín hiu gc và tín hia s hóa 26 Hình3. 18c tam giác melscale trên min tn s 27 Hình 3. 19. Tính các h s delta 29 Hình 3. 20. Quá trình 30 Hình 3. 21c hu x lý tín hiu 31 Hình 3. 22. khi cu trúc ca VQ hun luyn và phân lp 33 Hình 3. 23. gii thut VQ 35 Hình 4. 1. Xích Markov 5 trng thái S 1 ,S 2 , S 5 và các xác sut chuyn trng thái 36 Hình 4. 2. Ví d mt mô hình Markov n sáu trng thái 39 Hình 4. 3. Mô t c thc hi t (i) 43 Hình 4. 4. Mô t c thc hi tính bin β t (i) 44 Hình 5. 1. 50 Hình 5. 2. 50 Hình 5. 3. t bên trái 51 Hình 5. 4. khuôn mt thc t ca robot 51 Hình 5. 5. Cu to bên trong ca RC servo 52 Hình 5. 6. u khin v c ra cu ch rng xung 53 Hình 5. 7.08A 54 Hình 5. 8. Giao din IDE ca Arduino 57 Hình 5. 9. Board Arduino Mega 2560 (mc và sau) 58 Hình 5. 10.Board Arduino Mega 2560 59 Hình 5. 11. 2560. 59 Hình 5. 12. 2560. 61 Hình 5. 13. s. 61 Hình 5. 14. , . 62 Hình 5. 15. . 62 Hình 5. 16. . 63 Hình 5. 17. 63 Hình 5. 18. . 64 Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ x HVTH: NGUYN THÀNH CHUNG Hình 5. 19. 64 Hình 5. 20. 65 Hình 6. 1. khi mô hình hun luyn và nhn dng t . 67 Hình 6. 2. gii thut thc hin tách ting nói khi khong lng. 68 Hình 6. 3. gii thut thc hin phân tích h s . 69 Hình 6. 4.Minh ha ng t hóa vector 75 Hình 6. 5. gii thut hun luyn HMM. 76 Hình 6. 6. gii thut nhn dng t dng HMM 77 Hình 6. 7. Giao din nhn dng ting nói. 78 Hình 6. 8.Minh ha phân tích d liu ting nói thành các h s s dng cho hun luyn h thng và nhn dng. 80 Hình 6. 9.Kt qu nhn dng t 82 Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ xi HVTH: NGUYN THÀNH CHUNG DANH SÁCH CÁC BNG Bng 2. 1:Cu trúc tng quát ca mt âm tit ting Vit 11 Bng 6. 1. Kt qu th nghim cho nhóm h thng hc mu 80 Bng 6. 2. Kt qu th nghim cho nhóm mo danh 81 Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ xii HVTH: NGUYN THÀNH CHUNG DANH SÁCH CÁC CH VIT TT Thut ng T vit tt ụ nghĩa Artifactial Neural Network ANN Mo Fast Fourier Transform FFT Bii Fourier nhanh Dicrette Cosine Transform DCT Bii cosin ri rc. Hidden Markov Model HMM Mô hình Markov n Linear predictive code LPC H s d n tính Mel-scale Frequency Cepstral Coefficient MFCC H s Multi Layer Perceptron MLP Mng perceptron truyn thng nhiu lp Speech Recognition SR,ASR Nhn dng ting nói Bias ng kích hot Pattern Recognition Nhn dng mu Likelihood M ging Similarity M Feature Spectral, spectrum Ph tín hiu Graphical User Interface GUI Giao dii s dng Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ 1 HVTH: NGUYN THÀNH CHUNG Cểương 1.Tổng quan Chng 1: TNG QUAN 1.1. Tng quan v nhn dng ting nói, tình hình nghiên cu trong và ngoài nc 1.1.1. Nhn dng ting nói Nhn dng ting nói bao gm c nhn dng âm tit ri rc, liên tc, nhn dng i nói, ngôn ng nói và cao c có th nhn dc trng thái tâm lý ca i nói. Có rt nhiu ng dng ca nhn dng tii sng xã h xác nhn security), dch t ng, các h thng phone banking, i c gng nghiên cu là làm sao máy tính có th giao tip vi thông qua ting nói. Nhn dng ting nói là mc ca x lý ngôn ng t nhiên (Natural Language Processing), tc là v n nhn dng ting nói ph thuc vào ngôn ng nói. Do vy ngôn ng nhn dng ting Vit rt khác so vi ting Anh và các th tingkhác. Mt ví d có th hình dung, nu s dng các engine nhn dng ting Anh có sn (bao gm c t s vi mch x lý ti bán trên th ng) thì hiu qu i vi ting Vit là khá thp. Mt s không th phân bin, chung Viu - tonal language, còn ting Anh thì không), vì vy nhn dng ting Vit ch có th i Vit làm. Nhn dng và tng hp ting nói không th da trên các mc x lý thp (signal processing) mà còn phi kt hp x lý thông tin các mc cao và cao nht là tri thc. Nhn dng ting nói là mt quá trình nhn dng mu, vi mlà phân lp u vào là tín hiu ting nói thành mt dãy tun t các m c h trong b nh. Các m nhn dng, chúng có th là các t, hoc các âm v. Nu các mu này là bt bii thì công vic nhn dng ting nói tr n bng cách so sánh d liu ting nói cn nhn dng vi các mc h trong b nhn ca nhn dng ting nói luôn bin thiên theo thi gian và có s khác bit ln gia ting nói ca nhi nói khác nhau, t nói, ng cng âm hnh nhng thông tin bin thiên nào ca ting nói là có ích và Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ 2 HVTH: NGUYN THÀNH CHUNG Cểương 1.Tổng quan nhi vi nhn dng ting nói là rt quan trng. ây là mt nhim v r vi các k thut xác sut thng kê mc tng quát hoá t các mu ting nói nhng bin thiên quan trng cn thit trong nhn dng ting nói. Các nghiên cu v nhn dng ting nói da trên ba nguyên tn: Tín hiu tic biu din chính xác bi các giá tr ph trong mt khung thi gian ngn (short-term amplitude spectrum). Nh vy ta có th trích ra các m ting nói t nhng khong thi gian ngm này làm d li nhn dng ting nói. Ni dung ca tic biu dii dng ch vit, là mt dãy các ký hiu ng a mc bo toàn khi chúng ta phiên âm phát âm thành dãy các ký hiu ng âm. Nhn dng ting nói là mt quá trình nhn thc. Thông tin v ng trong quá trình nhn dng ting nói, nht là khi thông tin v âm hc là không rõ ràng.[1] 1.1.2. Tng quan tình hình nghiên cu Tin giao tin nht ci, nó hình thành và phát trin song song vi quá trình tin hóa ci vi, s dng li nói là mt cách din và hiu qu nhm ca vic giao tip bng tic tiên là t giao tip, ting nói t i nghe hiu ngay lp tc phát ra. Ngày nay, nh s phát trin ca khoa hc k thut, máy móc dn dn thay th u khin máy móc, coi phi làm khá nhiu thao tác tn nhiu thi gian và cn ph tu này gây tr ngi vi vic s dng các máy móc, thành tu khoa hc k thuu khin máy móc thit b bng ting nói s d dàng cu khin máy móc thit b bng ting nói càng bc thii vi các thit b cn tho máy tính có th c tic nhn dng ting a th k c nhng thành t, và có nhng ng dng hu ích thit thc vào trong cuc s hiu ca máy tính vn còn nhiu hn ch và khong cách khác xa so vi thc t. Mt Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ 3 HVTH: NGUYN THÀNH CHUNG Cểương 1.Tổng quan khác, nhn dng ting nói ch c phát trin trên các th tii vc ta nhn dng ting nói vn còn là mc khá mi m. 1.1.2.1. NgoƠi nc Hin nay, trên th gii có rt nhiu h thng nhn dng ting nói c ng dng rt hiu qu Via Voice ca IBM, Spoken Toolkit ca CSLU (Central of Spoken Laguage Understanding) trong ting Anh, c trong h thng ca ting Nht, mô hình MFGI (Mixdorff Fujisaki model of German Intonation) trong tic, S phát trit bc ca công ngh vi x lý và công ngh x lý ting nói trong nh ra rt nhiu nhng ng d nht là các h thng giao tip, hn thoi. Có th k tên mt s ng dng n Quay s bng ging nói. Truy cp thông tin bng gin thoi. H thng h tr y t n thoi. ng dng truy vn thông tin trong ngân hàng. ng dng chuu tr bnh t xa. Theo thng kê và d báo v th ng công ngh thông tin và truy 2009, chi tiêu cho nghiên cu, phn cng, phn mn công ngh x lý ti git con s 5 t -la M. Công ngh x lý tii h thng, không còn bó buc trong cách thn thn thoi) mà chuyc tip bng ging kinh t cnh tranh, các ng dng dn dn sang tích h thanh. Vic ng dng và khách hàng có th i nhau thông qua âm thanh i b giao di ha truyn thng mà nó cung cp thêm mt cách truy cp thông tin và dch v tin li, t Mt s ng di s giao tip gia khách hàng và h thng vi s ng ln, có tích h thng giao tip, h ng, các h thng dn [...]... < Hình 3.10:Tách ti ng nói kh i kho ng im l ng theo VAD Cểương 3 Mô ểìnể nểận dạng tiếng nói Tiếng Việt 22 HVTH: NGUY N THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS TR N THU HÀ Hình 3.11:T ti ng nói có kho ng im l ng tách thành ti ng nói không có kho ng l ng 3.6.2 T o khung và c a s hóa tín hi u B c ti p theo là chia tín hi u x1(n) thành các khung và c a... bi tăđó Hình 3 1: Ng i nói khác nhau s phát âm khác nhau Cểương 3 Mô ểìnể nểận dạng tiếng nói Tiếng Việt 14 HVTH: NGUY N THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp Thuănh nă d ăli u L i nói X păx ă thamăs Thuănh nă d ăli u Lựaăch nă nhóm Mô hình ng iăth ăi Mô hình toƠnăc c Chi năl că soăkh p Chi năl că lo iătr Rút trích đ cătr ng Hu năluy n L i nói GVHD: PGS.TS TR N... u Tín hi u ti ng nói b x(n) thuăđ nhă h ng b iă môiă tr ng xung quanh Ví d tín hi u c b i các thành ph n: x(n) = s(n) + d(n), trong đóăs(n) là tín hi u thu n Cểương 3 Mô ểìnể nểận dạng tiếng nói Tiếng Việt 19 HVTH: NGUY N THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp ti ng nói và d(n) là nhi u Có nhi uă ph GVHD: PGS.TS TR N THU HÀ ngăphápăl c nhi u, tuy nhiên có hai... ngănh ăv y g p m t s v năđ , nh tălƠăđ chính xác c a h th ng Cểương 3 Mô ểìnể nểận dạng tiếng nói Tiếng Việt 13 HVTH: NGUY N THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp Trong thực t , mỗiăng ng h GVHD: PGS.TS TR N THU HÀ i có m t gi ng nói khác nhau, th m chí ngay cùng m t iă cũngă cóă gi ng nói khác nhau nh ng th iă đi m khác nhau.ă Đi u này nh ng r t l nă đ n vi c nh... VAD Tín hi uăơmăthanhăđ căchiaăthƠnhăMăđo n, mỗiăđo n có L m u. Trong đ tài này ch n K = 160 m u v i Fs =ă8kHz,ănghĩaălƠă20ms cho mỗiăđo n SauăđóăhƠmănĕngăl ng Es s đ Cểương 3 Mô ểìnể nểận dạng tiếng nói Tiếng Việt c tính cho mỗiăđo n b i công th c (3.1): 18 HVTH: NGUY N THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS TR N THU HÀ Es (m) n K *m1 S12 (n)... là m t công vi c ph c t p Trong quá trình nh n d ng,ădƣyăcácăvectorăđ cătr ngăđ m u tham kh o.ăSauăđó,ăh th ngătínhătoánăđ t căđemăsoăsánhăv i các ngăđ ng c aădƣyăcácăvectorăđ c tr ngă vƠă m u th m kh o ho c chuỗi các m u tham kh o Vi că tínhă toánă đ gi ng Cểương 3 Mô ểìnể nểận dạng tiếng nói Tiếng Việt 16 HVTH: NGUY N THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp nhauăth... khung có L m u Chú ý rằng ch s trong các hàm này là m, vì vi c tính toán không ph i thực hi n t i mỗi m u (ch tính sau mỗi khung m u) Cểương 3 Mô ểìnể nểận dạng tiếng nói Tiếng Việt 21 HVTH: NGUY N THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS TR N THU HÀ Ti pătheoălƠătínhăng ỡng quy tăđ nhăđ xácăđ nhăđi măđ uăvƠăđi m cu i c a ti ng nói. ăĐ xácăđ nhăđ căng ỡng... Markov n Tín hi u ti ng nói sauăkhiăđ tr ngăc a ti ng nói đ vectoră đ că tr ngă tr căl cătríchăđ cătr ngăMFCC,ăthìăchuỗiăcácăvectorăđ c ng t hóaăđ gi m b t s l că khiă đ ng các quan sát cho chuỗi c s d ngă đ hu n luy n mô hình nh n d ng dùng Cểương 3 Mô ểìnể nểận dạng tiếng nói Tiếng Việt 17 HVTH: NGUY N THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS TR N... trên mi n t n s Cểương 3 Mô ểìnể nểận dạng tiếng nói Tiếng Việt 27 HVTH: NGUY N THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS TR N THU HÀ IDCT (Iverse Discrete Cosin Transform) Gi ng nói c aăconăng tr nă(smooth)ătrênă mi n t n s , do v y, các giá tr nĕngăl nhau có sự t nĕngăl ngă quană (correlated)ă kháă g n.ă B ng thành các h s ítăt i có ph khá ng c a các... theo công th c: ; 1+ 2 ng tín hi u Mỗi khung tín hi uăđ uăcóănĕngăl , = 1,2, … , ngăriêngăvƠănĕngăl ngănƠyăđ (3.12) c tính theo logaritănh ăsau: Cểương 3 Mô ểìnể nểận dạng tiếng nói Tiếng Việt 28 HVTH: NGUY N THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp −1 = 2 2 GVHD: PGS.TS TR N THU HÀ ; (3.13) =0 3.6.3.4 Các h s delta và gia t c Bi năđ i ph đóngăvaiătròăquanătr ng trong . th hin trong bng 2.1. Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ 11 HVTH: NGUYN THÀNH CHUNG Cểương 2. Đặc trưng tỄếng nói Tiếng. dng ting nói ting Vit trong các h thng nhn du khin thit bng ting nói ting Vit. Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD:. ting nói : 15 3.3. Cu trúc h nhn dng ting nói: 16 3.4. Gii thut h thng nhn dng ting nói ting Vit dùng Markov n: 17 Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp