Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 107 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
107
Dung lượng
2,44 MB
Nội dung
GVHD: TS. Hoàng Trang Trang iv TÓM TT LUNăVĔN Vấnăđ nhn dng ting nói ting Vităđƣăđc nghiên cu và phát trin Vit Nam nhiuănĕmăqua,ăvi nhiu thut toán khác nhau trên nn tngăcácădòngăviăđiu khin, DSP,ầ khác nhau. Tuy nhiên vấnăđ nhn dngăchaăđt kt qu tiăuăv mcăđ chính xác và tcăđ x lý. FPGA là mt vi mch có th lpătrìnhăđc, có tcăđ x lý cao, h tr mnh vic x lý tín hiu s,ầăđƣăđc mt s ni trên th gii ng dngăđ nhn dng và x lý ting nói. Phn lunăvĕnăs điătìmăhiu và nghiên cu thut toán trích chn đcătrngă MFCC, lng t vector VQ và mô hình Markov năHMMăđ ng dng vào vic nhn dng các từ đnălẻ ca ting nói ting Vit nhằm mcăđíchănơngăcaoătcăđ x lỦăvƠăđ chính xác khi nhn dng. Vic nhn dngăđc thc thi trên Nios ca kit FPGA DE2 ca hãng Altera, vi b từ vng gm 10 ký t s và 5 ký t đntheo ba mô hình nhn dng vi hai kíchăthc codebook khácănhau.ăĐ chính xác nhn dng trung bình ca các mô hình khi thc hin nhn dng 100 ln cho mi từ là: - Viăcodebookă128:ămôăhìnhă1ăcóăđ chính xác trung bình 56.5%, mô hình 2 cóăđ chínhăxácătrungăbìnhă94,73%,ămôăhìnhă3ăcóăđ chính xác trung bình 96.87% - Vi codebook 32:ămôăhìnhă1ăcóăđ chính xác trung bình 49.2%, mô hình 2 cóăđ chínhăxácătrungăbìnhă94.8%,ămôăhìnhă3ăcóăđ chính xác trung bình 91.53%. T khóa: tríchăđcătrngăMFCC, mô hình Markov n HMM, Lng t vector VQ, Kit DE2, Nios System, SoPC. GVHD: TS. Hoàng Trang Trang v MASTER ESSAY SUMMARRY The matter of Vietnamese speech recognition has been researched and developed for many years in Viet Nam with a number of diffirent algorithm based on different families of micro ậ controller, DSP, etc. However, does not reach the best of the aspects of exact and speed of processing. FPGA is an integrate circuit that is able to be programable, high speed processing and strong on support to digital signal processing, etc, has been applied to recognition and voiceprocessing by lots of places in the world. The Master Essay Summarry is going to study and research the algorithm of feature extraction method MFCC, vector quantization and the Hidden Markov Model to be applied to recognition single words of Vietnamese speech, in order to enhance the exact and speed of processing when being in the process of recognition. The system recognition is carried out on Nios of Kit FPGA DE2 of Altera companywith the vocabulary including 10 numbers and 5 single letters according to three recognition models with two different codebook sizes. The average exact of the models when being applied tothe recognizing process of 100 times for each word is: - In Codebook 128: the average exact of the model 1 is 56.5%, the average exact of the model 2 is 94.73%, the average exact of the model 3 is 96.87%. - In Codebook 32: the average exact of the model 1 is 49.2%, the average exact of the model 2 is 94.8%, the average exact of the model 3 is 91.53%. Keyword: Feature extranction MFCC, Hidden Markov Model (HMM), vector quantization (VQ), Kit DE2, Nios System, SoPC. GVHD: TS. Hoàng Trang Trang vi MC LC TRANG TRANG TA QUYTăĐNHăGIAOăĐ TÀI XÁC NHN CA CÁN B HNG DN LÝ LCH KHOA HC i LIăCAMăĐOAN ii LIăCMăT iii TÓM TT LUNăVĔN iv MASTER ESSAY SUMMARRY v MC LC vi DANH SÁCH CÁC CH VIT TT x DANH SÁCH CÁC HÌNH xi DANH SÁCH CÁC BNG xiii Chngă1 1 TNG QUAN 1 1.1. TNG QUAN CHUNG V LƾNHăVC NGHIÊN CU: 1 1.1.1. Tng quan v nhn dng ting nói: 1 1.1.2. Các kt qu nghiên cuătrongăvƠăngoƠiănc: 2 1.2. MC TIÊU, KHÁCH TH VẨăĐIăTNG NGHIÊN CU: 3 1.2.1. Mc tiêu: 3 1.2.2.ăĐiătng nghiên cu: 3 1.3. NHIM V CAăĐ TÀI VÀ PHM VI NGHIÊN CU: 4 1.3.1. Nhim v: 4 1.3.2. Phm vi nghiên cu: 4 1.4.ăPHNGăPHỄPăNGHIểNăCU: 5 1.5. NIăDUNGăĐ TÀI: 5 1.6.ăụăNGHƾAăTHC TIN CAăĐ TÀI: 7 Chngă2 8 ĐCăTRNGăTING NÓI TING VIT 8 GVHD: TS. Hoàng Trang Trang vii 2.1. TNG QUAN V TING NÓI: 8 2.2.ăCácăđcătrngăcăbn ca Ting Vit: 8 2.2.1. Âm tit: 8 2.2.2 Âm v: 10 2.2.3. Nguyên âm và ph âm: 10 2.2.4.ăThanhăđiu: 11 Chngă3 12 MÔ HÌNH NHN DNG TING NÓI TING VIT 12 3.1. Phân loi các h thng nhn dng ting nói: 12 3.1.1. Nhn dng từ liên tc và nhn dng từ cách bit: 12 3.1.2. Nhn dng ph thucăngiănóiăvƠăđc lpăngi nói: 12 3.2. Các yu t nhăhngăđn kt qu nhn dng ting nói: 14 3.3. Cấu trúc h nhn dng ting nói: 15 3.4. Gii thut h thng nhn dng ting nói ting Vit dùng Markov n: 16 3.5. Voice Acivation Detection (VAD): 17 3.6.ăPhngăphápătríchăđcătrngăting nói MFCC: 18 3.6.1. Pre - emphasis: 19 3.6.2. Frame blocking: 20 3.6.3. Windowing: 21 3.6.4. Binăđi FFT: 24 3.6.5. Lc tn s theo thang tn s Mel: 25 3.6.6. Phân tích cepstral: 28 3.6.7.ăTínhătoánănĕngălng: 29 3.6.8. H s delta: 29 3.7.ăăLng t vector: 30 3.7.1. Tng quan v lng t vector (VQ): 30 3.7.2. Cấu trúc và tp huấn luyn VQ: 31 3.7.3.ăĐoăđ méo: 32 3.7.4. Phân nhóm các vector huấn luyn: 32 GVHD: TS. Hoàng Trang Trang viii Chngă4: 34 MÔ HÌNH MARKOV N HMM 34 4.1. Quá trình Markov: 34 4.2. Mô hình Markov n: 36 4.3. Gii pháp toán hcăchoăbaăbƠiătoánăcăbn ca mô hình Markov n: 39 4.3.1. Bài toán 1: 39 4.3.2. Bài toán 2: 42 4.3.3. Bài toán 3: 43 4.4. Các loi mô hình Markov n: 46 Chngă5: 48 KIT DE2 CA HÃNG ALTERA 48 5.1. Tng quan kit DE2: 48 5.2. Tng quan v SoPC trên FPGA: 49 5.3. Thit lp h thng NIOS trên kit DE2: 50 Chngă6: 54 THIT K H THNG NHN DNG TRÊN KIT DE2 VÀ KT QU ĐT ĐC 54 6.1. Mô hình 1: 55 6.1.1. Lấy mu và tách khong lng: 55 6.1.2.ăTríchăđcătrngăMFCC: 57 6.1.3.ăLng t vetor VQ: 58 6.1.4. Huấn luyn mô hình HMM: 59 6.1.5.ăLuăđ gii thut nhn dng: 62 6.2. Mô hình 2: 63 6.3. Mô hình 3: 65 6.3.1.ăTríchăđcătrngăMFCC: 65 6.3.2. Huấn luyn mô hình HMM: 67 6.3.3. Gii thut nhn dng: 68 6.4. Kt qu thc hin: 68 GVHD: TS. Hoàng Trang Trang ix 6.4.1. Kt qu nhn dng: 68 6.4.1.1. Kt qu nhn dng ca mô hình 1: 69 6.4.1.2. Kt qu nhn dng ca mô hình 2: 71 6.4.1.3. Kt qu nhn dng ca mô hình 3: 73 6.4.2. Kt qu đánhăgiáăs xung clock ca từng mô hình: 75 6.4.2.1. Mô hình 1: 75 6.4.2.2. Mô hình 2: 76 6.4.2.3. Mô hình 3: 77 6.5. Nhn xét kt qu: 78 Chngă7: 79 KT LUN 79 7.1. Kt Lun: 79 7.1.1. Nhng mcătiêuăđtăđc: 79 7.1.2. Hn ch caăđ tài : 80 7.2. Hng phát trinăđ tài: 80 TÀI LIU THAM KHO 81 PH LC 83 GVHD: TS. Hoàng Trang Trang x DANH SÁCH CÁC CH VIT TT MFCC Mel Frequency Cepstrum Coefficients VQ Vector Quantization LPC Linear Predictive Coding DSP Digital Signal Proccesing HMM Hidden Markov Model CD-HMM Continuous Density ậ Hidden Markov Model VAD Voice Acivation Detection DFT Discrete Fourier Transform FFT Fast Fourier Transform DCT Discrete Cosin Transform FPGA Field Programmable Gate Array RAM Random Access Memory SRAM Static Random Access Memory SDRAM Synchronous Dynamic Random Access Memory PLL Phase Locked Loop JTAG Joint Test Action Group SD Secure Digital SPI Serial Peripheral Interface TV Television SoPC System on a Programmable Chip ADC Analog to Digial Converter DAC Digial to Analog Converter UART Universal Asynchronous Receiver/Transmitter BGA Ball Grid Array LEs Logic Elements DPDT Double Pole Double Throw LBG: Linde-Buzo-Gray GVHD: TS. Hoàng Trang Trang xi DANH SÁCH CÁC HÌNH HÌNH TRANG Hìnhă3.ă1:ăNgiănóiăkhácănhauăsăphátăơmăkhácănhau 13 Hìnhă3.ă2:ăMôăhìnhănhnădngătingănóiăbánăđcălpăngiănói 14 Hình 3. 3: Cấuătrúcătngăquátăcaămtăhăthngănhnădngătingănói 15 Hìnhă3.ă4:ăLuăđăgiiăthutăhăthngănhnădngătingăVitădùngăMarkovăn 16 Hìnhă3.ă5:ăĐonămuăơmăthanhătrcăkhiăVAD 17 Hìnhă3.ă6:ăĐonămuăơmăthanhăsauăkhiăVAD 17 Hình 3. 7: CácăbcăxălỦăcaăphngăphápătríchăđcătrngăMFCC 19 Hình 3. 8:ăĐápăngătnăsăđcăchunăhóaăcaăbălcăpreăậ emphasis 20 Hình 3. 9:ăTínăhiuătrcăvƠăsauăpreăậ emphasisătrongăminăthiăgian 20 Hình 3. 10: Các frame trongăphơnătíchătingănói 21 Hình 3. 11: CaăsăHammingă160ăđim 22 Hình 3. 12:ăTínăhiuătrcăkhiăcaăsăhóa 23 Hình 3. 13:ăTínăhiuăsauăkhiăcaăsăhóa 23 Hình 3. 14:ăCaăsăHammingădùngătrongăphơnătíchătingănói 24 Hìnhă3.ă15:ăQuáătrìnhăphơnătíchăphătínăhiu 25 Hình 3. 16:ăĐăthăbiuădinămiăquanăhăgiaătnăsăMelăvƠăHertz 26 Hình 3. 17:ăBĕngăbălc,ă(a)ătrongăthangăđoăMel;ă(b)ătrongăthangăđoăthôngăthng 27 Hìnhă3.ă18:ăS đăkhiăcấuătrúcăcaăVQăhuấnăluynăvƠăphơnălp 31 Hìnhă3.ă19:ăLuăđăgiiăthutăVQ 33 Hìnhă4.ă1:ăXíchăMarkovă5ătrngătháiăS 1 ,S 2 , S 5 vƠăcácăxácăsuấtăchuynătrngăthái 34 Hìnhă4.ă2:ăVíădămtămôăhìnhăMarkovănăsáuătrngăthái 37 Hình 4. 3: Môătăcácădƣyăphépătoánăđcăthcăhinăđătínhăα t (i) 41 Hìnhă4.ă4:ăMôătăcácădƣyăphépătoánăđcăthcăhinăđătínhăbinăβ t (i) 42 Hình 5. 1: KIT FPGA DE2 ca hãng Altera 48 Hình 5. 2:ăSăđăkhiăkităDE2 48 Hìnhă5.ă3:ăSăđăkhiătngăquanăcaăSoPCătrênăFPGA 49 GVHD: TS. Hoàng Trang Trang xii Hình 5. 4:ăThitălpăNiossăIIăprocessor 51 Hìnhă5.ă5:ăCấuăhìnhăchoăkhiăAudio 52 Hìnhă5.ă6:ăCấuăhìnhăchoăkhiăAV_Config 52 Hìnhă5.ă7:ăSoPCăđƣăđcătoăhoƠnăchnh 53 Hìnhă6.ă1:ăSăđ khi h thng nhn dng ting nói trên kit DE2 54 Hìnhă6.ă2:ăLuăđăgiiăthutăloiăbăkhongălng 55 Hìnhă6.ă3:ăLuăđăgiiăthutătríchăđcătrngăMFCCăcaămôăhìnhă1 57 Hìnhă6.ă4:ăLuăđăgiiăthutălngătăvector 59 Hìnhă6.ă5:ăLuăđăquáătrìnhăhuấnăluynăHMMătheoămôăhìnhă1 60 Hìnhă6.ă6:ăLuăđăgiiăthutăhuấnăluynăHMM 61 Hìnhă6.ă7:ăLuăđăgiiăthutănhnădngătheoămôăhìnhă1 62 Hình 6. 8: LuăđăgiiăthutătríchăđcătrngăMFCCăcaămôăhìnhă2 64 Hìnhă6.ă9:ăLuăđăgiiăthutătríchăđcătrng MFCC theo mô hình 3 66 Hìnhă6.ă10:ăLuăđăhuấnăluynăHMMătheoămôăhìnhă3 67 Hìnhă6.ă11:ăLuăđăgiiăthutănhnădngătheoămôăhìnhă3 68 GVHD: TS. Hoàng Trang Trang xiii DANH SÁCH CÁC BNG BNG TRANG Bngă2.ă1:ăCấuătrúcătngăquátăcaămtăơmătitătingăVit 10 Bng 3. 1:ăĐ chính xác nhn dng khi s dng b lc tam giác vi s lng các b lc khác nhau 27 Bng 6. 1: Kt qu nhn dng ca mô hình 1 viăkíchăthc codebook 128 69 Bngă6. 2: Ktăquănhnădngăcaămôăhìnhă1ăviăkíchăthcăcodebookă32 70 Bngă6.ă3:ăKtăquănhnădngăcaămôăhìnhă2ăviăkíchăthcăcodebookă128 71 Bngă6.ă4:ăKtăquănhnădngăcaămôăhìnhă2ăviăkíchăthcăcodebookă32 72 Bngă6.ă5:ăKtăquănhnădngăcaămôăhìnhă3ăviăkíchăthcăcodebookă128 73 Bngă6.ă6:ăKtăquănhnădngăcaămôăhìnhă3ăviăkíchăthcăcodebookă32 74 Bngă6.ă7:ăKtăquăđánhăgiáăsăxungăclockăcaămôăhìnhă1ăviăcodebookă128 75 Bngă6.ă8:ăKtăquăđánhăgiáăsăxungăclockăcaămôăhìnhă1ăviăcodebookă32 75 Bngă6.ă9:ăKtăquăđánhăgiáăsăxungăclockăcaămôăhìnhă2ăviăcodebookă128 76 Bngă6.ă10:ăKtăquăđánhăgiáăsăxungăclockăcaămôăhìnhă2ăviăcodebookă32 76 Bngă6.ă11:ăKtăquăđánhăgiáăsăxungăclockăcaămôăhìnhă3ăviăcodebookă128 77 Bngă6.ă12:ăKtăquăđánhăgiáăsăxungăclockăcaămôăhìnhă3ăcóăcodebookă32 77 [...]... CăTR NGăTI NG NÓI TI NG VI T ngă2 Đ CăTR NGăTI NG NÓI TI NG VI T Tín hi u ti ng nói đ c xem là tín hi u ng u nhiên vì chúng ta không th xác đ nhăchínhăxácăbiênăđ và t n s c a tín hi u ti ng nói đ c nói Tuy nhiên, m i từ c a ti ng nói l i ch a nh ng thành ph năđ cătr ngăriêngăđ cătr ng cho từ đó,ăvìăv y vi cătáchăđ cătr ngăti ng nói là quá trình quan tr ng trong h th ng nh n d ng ti ng nói Các h th ng... bi t các từ khác nhau trong ti ng nói d a trên đ cătr ngăriêngăc a m i từ.ăQuáătrìnhătríchăđ c tr ng ti ng nói lƠăquáătrìnhăcôăđ ng tín hi u ti ng nói c a m i từ thành các thông s đ cătínhăđ cătr ng cho từ đó,ănhằm gi m nhẹ công vi c nh n d ngăvƠătĕngăđ chính xác cho h th ng nh n d ng 2.1 T NG QUAN V TI NG NÓI: Ti ng nói là m t lo i sóng âm Khi chúng ta nói, ti ngă nói đ mangă theoă thôngă tină d i... công vi c nh n d ng ti ng nói tr nênăđ năgi n bằng cách so sánh d li u ti ng nói c n nh n d ng v i các m uăđƣăđ c h căvƠăl uătr trong b nh ăKhóăkhĕnăc ăb n c a ti ng nói là ti ng nói luôn bi n thiên theo th i gian và có s khác bi t l n gi a ti ng nói c a nh ngăng i nói khác nhau, t căđ nói, ng c nh và môiătr ng âm h c khác khau.ă Xácă đ nh nh ng thông tin bi n thiên nào c a ti ng nói là có ích và nh ng... bằng gi ng nói, quay s bằng gi ngă nói, ầv i đ chính xác khá cao, tuy nhiên khó áp d ng r ng rãi so v i mô hình nh n d ng liên t c 3.1.2 Nh n d ng ph thu căng i nói vƠăđ c l păng Đ i v i nh n d ng ph thu că ng ph c v đ ch aăđ c cho m tăng i nói: i nói thì m i m t mô hình nh n d ng ch i, và mô hình s không hi uăng i khác nói gì n uănh ă c huấn luy n l i từ đ u.ăDoăđó,ăh th ng nh n d ngăng i nói khóăđ... ngăphápănghiênăc u ngă2:ăĐ cătr ngăti ng nói ti ng Vi t - Phân tích t ng quan v ti ng nói - Cácăđ cătr ngăc ăb n c a ti ng Vi t Ch ngă3:Mô hình nh n d ng ti ng nói ti ng Vi t - Phân lo i các h th ng nh n d ng ti ng nói - Các y u t - Cấu trúc c a h nh n d ng ti ng nói - Gi i thu t h th ng nh n d ng ti ng nói ti ng Vi t - Phơnătíchăph nhăh ngăđ n k t qu nh n d ng ti ng nói ngăphápătríchăđ c tr ngăMFCC GVHD:... ng nói nh : tríchăđ c tr ng LPC,ătríchăđ cătr ngăMFCC, Trong lu năvĕnăs d ngăph ngăphápătríchăđ c tr ngăMFCCăđ trích đ c tr ngăti ng Vi t cho mô hình nh n d ng 3.4 Gi i thu t h th ng nh n d ng ti ng nói ti ng Vi t dùng Markov n: Đ xây d ng mô hình nh n d ng ti ng nói ti ng nói ti ng Vi t có rất nhi u công c khác nhau M t trong nh ng công c đ c ng d ng cho vi c xây d ng mô hình nh n d ng ti ng nói. .. Marko n HMM vào nh n d ng ti ng nói ti ng Vi t ngă5:ăKit DE2 c a hãng Altera - T ng quan v kit DE2 - M t s thành ph n h tr c a kit DE2 cho nh n d ng ti ng nói Ch ngă6:ăThi t k h th ng nh n d ng trên kit DE2 và k t qu đ tăđ c - Xây d ng thu t toàn ti n x lý ti ng nói ti ng Vi t trên Nios c a kit DE2 - Xây d ng thu t toán trích ch năđ cătr ngăti ng nói ti ng vi t MFCC cho ba mô hình trên NIOS c a kit... ngă1:ăT NG QUAN ngă1 T NG QUAN 1.1.T NG QUAN CHUNG V LĨNHăV C NGHIÊN C U: 1.1.1 T ng quan v nh n d ng ti ng nói: Nh n d ng ti ng nói bao g m c nh n d ng âm ti t r i r c, liên t c, nh n d ng ng i nói, ngôn ng nói và cao cấpăh năcóăth nh n d ngăđ ng i nói Có rất nhi u ng d ng c a nh n d ng ti ngă nói trongă đ i s ng xã h i c tr ng thái tâm lý c a nh :ăxác nh năthôngătin,ăđi u khi nărobot,ăvoiceămail,ăđi... h th ng nh n d ng ti ng nói - Nghiên c u thu tătoánătríchăđ cătr ngăMFCC ng d ngăvƠoătríchăđ cătr ngă ti ng nói ti ng Vi t - Nghiên c uă ph ngă phápă l ng t vectoră đ ng d ng vào mô hình nh n d ng ti ng nói ti ng Vi t - Nghiên c u mô hình Markov n HMM ng d ng vào huấn luy n và nh n d ng ti ng nói ti ng Vi t - Xây d ng mô hình nh n d ng ti ng nói ti ng Vi t trên NIOS c a kit FPGA DE2 c a hãng Altera... Trang Trang 8 Ch ngă2:ăĐ CăTR NGăTI NG NÓI TI NG VI T Tínhăđ c l p: t c là m i âm ti t là m t thành ph n nh , chúng rõ ràng và tách bi t v i nhau, m i từ đ i di n cho m t âm ti t duy nhất Không có hi năt ng n i âm: trong ti ng Vi t,ădùăng i nói nói nhanh hay nói ch m thì m i từ phátăraăđ u riêng lẻ, không có s n i âm hay nu t âm nh ătrongăti ngăAnh.ăĐi u này làm cho ranh gi i gi a các âm ti t rõ ràng . đcătínhăđcătrng cho từ đó,ănhằm gim nhẹ công vic nhn dngăvƠătĕngăđ chính xác cho h thng nhn dng. 2.1. TNG QUAN V TING NÓI: Ting nói là mt loi sóng âm. Khi chúng ta nói, tingă nói đc. tn s ca tín hiu ting nói đc nói. Tuy nhiên, mi từ ca ting nói li cha nhng thành phnăđcătrngăriêngăđcătrng cho từ đó,ăvìăvy vicătáchăđcătrngăting nói là quá trình quan trng. dng ting nói: Nhn dng ting nói bao gm c nhn dng âm tit ri rc, liên tc, nhn dng ngi nói, ngôn ng nói và cao cấpăhnăcóăth nhn dngăđc trng thái tâm lý ca ngi nói. Có