1. Trang chủ
  2. » Tất cả

Ứng dụng FPGA cho nhận dạng tiếng nói tiếng việt

107 365 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 107
Dung lượng 2,44 MB

Nội dung

GVHD: TS. Hoàng Trang Trang iv TÓM TT LUNăVĔN Vấnăđ nhn dng ting nói ting Vităđƣăđc nghiên cu và phát trin  Vit Nam nhiuănĕmăqua,ăvi nhiu thut toán khác nhau trên nn tngăcácădòngăviăđiu khin, DSP,ầ khác nhau. Tuy nhiên vấnăđ nhn dngăchaăđt kt qu tiăuăv mcăđ chính xác và tcăđ x lý. FPGA là mt vi mch có th lpătrìnhăđc, có tcăđ x lý cao, h tr mnh vic x lý tín hiu s,ầăđƣăđc mt s ni trên th gii ng dngăđ nhn dng và x lý ting nói. Phn lunăvĕnăs điătìmăhiu và nghiên cu thut toán trích chn đcătrngă MFCC, lng t vector VQ và mô hình Markov năHMMăđ ng dng vào vic nhn dng các từ đnălẻ ca ting nói ting Vit nhằm mcăđíchănơngăcaoătcăđ x lỦăvƠăđ chính xác khi nhn dng. Vic nhn dngăđc thc thi trên Nios ca kit FPGA DE2 ca hãng Altera, vi b từ vng gm 10 ký t s và 5 ký t đntheo ba mô hình nhn dng vi hai kíchăthc codebook khácănhau.ăĐ chính xác nhn dng trung bình ca các mô hình khi thc hin nhn dng 100 ln cho mi từ là: - Viăcodebookă128:ămôăhìnhă1ăcóăđ chính xác trung bình 56.5%, mô hình 2 cóăđ chínhăxácătrungăbìnhă94,73%,ămôăhìnhă3ăcóăđ chính xác trung bình 96.87% - Vi codebook 32:ămôăhìnhă1ăcóăđ chính xác trung bình 49.2%, mô hình 2 cóăđ chínhăxácătrungăbìnhă94.8%,ămôăhìnhă3ăcóăđ chính xác trung bình 91.53%. T khóa: tríchăđcătrngăMFCC, mô hình Markov n HMM, Lng t vector VQ, Kit DE2, Nios System, SoPC. GVHD: TS. Hoàng Trang Trang v MASTER ESSAY SUMMARRY The matter of Vietnamese speech recognition has been researched and developed for many years in Viet Nam with a number of diffirent algorithm based on different families of micro ậ controller, DSP, etc. However, does not reach the best of the aspects of exact and speed of processing. FPGA is an integrate circuit that is able to be programable, high speed processing and strong on support to digital signal processing, etc, has been applied to recognition and voiceprocessing by lots of places in the world. The Master Essay Summarry is going to study and research the algorithm of feature extraction method MFCC, vector quantization and the Hidden Markov Model to be applied to recognition single words of Vietnamese speech, in order to enhance the exact and speed of processing when being in the process of recognition. The system recognition is carried out on Nios of Kit FPGA DE2 of Altera companywith the vocabulary including 10 numbers and 5 single letters according to three recognition models with two different codebook sizes. The average exact of the models when being applied tothe recognizing process of 100 times for each word is: - In Codebook 128: the average exact of the model 1 is 56.5%, the average exact of the model 2 is 94.73%, the average exact of the model 3 is 96.87%. - In Codebook 32: the average exact of the model 1 is 49.2%, the average exact of the model 2 is 94.8%, the average exact of the model 3 is 91.53%. Keyword: Feature extranction MFCC, Hidden Markov Model (HMM), vector quantization (VQ), Kit DE2, Nios System, SoPC. GVHD: TS. Hoàng Trang Trang vi MC LC TRANG TRANG TA QUYTăĐNHăGIAOăĐ TÀI XÁC NHN CA CÁN B HNG DN LÝ LCH KHOA HC i LIăCAMăĐOAN ii LIăCMăT iii TÓM TT LUNăVĔN iv MASTER ESSAY SUMMARRY v MC LC vi DANH SÁCH CÁC CH VIT TT x DANH SÁCH CÁC HÌNH xi DANH SÁCH CÁC BNG xiii Chngă1 1 TNG QUAN 1 1.1. TNG QUAN CHUNG V LƾNHăVC NGHIÊN CU: 1 1.1.1. Tng quan v nhn dng ting nói: 1 1.1.2. Các kt qu nghiên cuătrongăvƠăngoƠiănc: 2 1.2. MC TIÊU, KHÁCH TH VẨăĐIăTNG NGHIÊN CU: 3 1.2.1. Mc tiêu: 3 1.2.2.ăĐiătng nghiên cu: 3 1.3. NHIM V CAăĐ TÀI VÀ PHM VI NGHIÊN CU: 4 1.3.1. Nhim v: 4 1.3.2. Phm vi nghiên cu: 4 1.4.ăPHNGăPHỄPăNGHIểNăCU: 5 1.5. NIăDUNGăĐ TÀI: 5 1.6.ăụăNGHƾAăTHC TIN CAăĐ TÀI: 7 Chngă2 8 ĐCăTRNGăTING NÓI TING VIT 8 GVHD: TS. Hoàng Trang Trang vii 2.1. TNG QUAN V TING NÓI: 8 2.2.ăCácăđcătrngăcăbn ca Ting Vit: 8 2.2.1. Âm tit: 8 2.2.2 Âm v: 10 2.2.3. Nguyên âm và ph âm: 10 2.2.4.ăThanhăđiu: 11 Chngă3 12 MÔ HÌNH NHN DNG TING NÓI TING VIT 12 3.1. Phân loi các h thng nhn dng ting nói: 12 3.1.1. Nhn dng từ liên tc và nhn dng từ cách bit: 12 3.1.2. Nhn dng ph thucăngiănóiăvƠăđc lpăngi nói: 12 3.2. Các yu t nhăhngăđn kt qu nhn dng ting nói: 14 3.3. Cấu trúc h nhn dng ting nói: 15 3.4. Gii thut h thng nhn dng ting nói ting Vit dùng Markov n: 16 3.5. Voice Acivation Detection (VAD): 17 3.6.ăPhngăphápătríchăđcătrngăting nói MFCC: 18 3.6.1. Pre - emphasis: 19 3.6.2. Frame blocking: 20 3.6.3. Windowing: 21 3.6.4. Binăđi FFT: 24 3.6.5. Lc tn s theo thang tn s Mel: 25 3.6.6. Phân tích cepstral: 28 3.6.7.ăTínhătoánănĕngălng: 29 3.6.8. H s delta: 29 3.7.ăăLng t vector: 30 3.7.1. Tng quan v lng t vector (VQ): 30 3.7.2. Cấu trúc và tp huấn luyn VQ: 31 3.7.3.ăĐoăđ méo: 32 3.7.4. Phân nhóm các vector huấn luyn: 32 GVHD: TS. Hoàng Trang Trang viii Chngă4: 34 MÔ HÌNH MARKOV N HMM 34 4.1. Quá trình Markov: 34 4.2. Mô hình Markov n: 36 4.3. Gii pháp toán hcăchoăbaăbƠiătoánăcăbn ca mô hình Markov n: 39 4.3.1. Bài toán 1: 39 4.3.2. Bài toán 2: 42 4.3.3. Bài toán 3: 43 4.4. Các loi mô hình Markov n: 46 Chngă5: 48 KIT DE2 CA HÃNG ALTERA 48 5.1. Tng quan kit DE2: 48 5.2. Tng quan v SoPC trên FPGA: 49 5.3. Thit lp h thng NIOS trên kit DE2: 50 Chngă6: 54 THIT K H THNG NHN DNG TRÊN KIT DE2 VÀ KT QU ĐT ĐC 54 6.1. Mô hình 1: 55 6.1.1. Lấy mu và tách khong lng: 55 6.1.2.ăTríchăđcătrngăMFCC: 57 6.1.3.ăLng t vetor VQ: 58 6.1.4. Huấn luyn mô hình HMM: 59 6.1.5.ăLuăđ gii thut nhn dng: 62 6.2. Mô hình 2: 63 6.3. Mô hình 3: 65 6.3.1.ăTríchăđcătrngăMFCC: 65 6.3.2. Huấn luyn mô hình HMM: 67 6.3.3. Gii thut nhn dng: 68 6.4. Kt qu thc hin: 68 GVHD: TS. Hoàng Trang Trang ix 6.4.1. Kt qu nhn dng: 68 6.4.1.1. Kt qu nhn dng ca mô hình 1: 69 6.4.1.2. Kt qu nhn dng ca mô hình 2: 71 6.4.1.3. Kt qu nhn dng ca mô hình 3: 73 6.4.2. Kt qu đánhăgiáăs xung clock ca từng mô hình: 75 6.4.2.1. Mô hình 1: 75 6.4.2.2. Mô hình 2: 76 6.4.2.3. Mô hình 3: 77 6.5. Nhn xét kt qu: 78 Chngă7: 79 KT LUN 79 7.1. Kt Lun: 79 7.1.1. Nhng mcătiêuăđtăđc: 79 7.1.2. Hn ch caăđ tài : 80 7.2. Hng phát trinăđ tài: 80 TÀI LIU THAM KHO 81 PH LC 83 GVHD: TS. Hoàng Trang Trang x DANH SÁCH CÁC CH VIT TT MFCC Mel Frequency Cepstrum Coefficients VQ Vector Quantization LPC Linear Predictive Coding DSP Digital Signal Proccesing HMM Hidden Markov Model CD-HMM Continuous Density ậ Hidden Markov Model VAD Voice Acivation Detection DFT Discrete Fourier Transform FFT Fast Fourier Transform DCT Discrete Cosin Transform FPGA Field Programmable Gate Array RAM Random Access Memory SRAM Static Random Access Memory SDRAM Synchronous Dynamic Random Access Memory PLL Phase Locked Loop JTAG Joint Test Action Group SD Secure Digital SPI Serial Peripheral Interface TV Television SoPC System on a Programmable Chip ADC Analog to Digial Converter DAC Digial to Analog Converter UART Universal Asynchronous Receiver/Transmitter BGA Ball Grid Array LEs Logic Elements DPDT Double Pole Double Throw LBG: Linde-Buzo-Gray GVHD: TS. Hoàng Trang Trang xi DANH SÁCH CÁC HÌNH HÌNH TRANG Hìnhă3.ă1:ăNgiănóiăkhácănhauăsăphátăơmăkhácănhau 13 Hìnhă3.ă2:ăMôăhìnhănhnădngătingănóiăbánăđcălpăngiănói 14 Hình 3. 3: Cấuătrúcătngăquátăcaămtăhăthngănhnădngătingănói 15 Hìnhă3.ă4:ăLuăđăgiiăthutăhăthngănhnădngătingăVitădùngăMarkovăn 16 Hìnhă3.ă5:ăĐonămuăơmăthanhătrcăkhiăVAD 17 Hìnhă3.ă6:ăĐonămuăơmăthanhăsauăkhiăVAD 17 Hình 3. 7: CácăbcăxălỦăcaăphngăphápătríchăđcătrngăMFCC 19 Hình 3. 8:ăĐápăngătnăsăđcăchunăhóaăcaăbălcăpreăậ emphasis 20 Hình 3. 9:ăTínăhiuătrcăvƠăsauăpreăậ emphasisătrongăminăthiăgian 20 Hình 3. 10: Các frame trongăphơnătíchătingănói 21 Hình 3. 11: CaăsăHammingă160ăđim 22 Hình 3. 12:ăTínăhiuătrcăkhiăcaăsăhóa 23 Hình 3. 13:ăTínăhiuăsauăkhiăcaăsăhóa 23 Hình 3. 14:ăCaăsăHammingădùngătrongăphơnătíchătingănói 24 Hìnhă3.ă15:ăQuáătrìnhăphơnătíchăphătínăhiu 25 Hình 3. 16:ăĐăthăbiuădinămiăquanăhăgiaătnăsăMelăvƠăHertz 26 Hình 3. 17:ăBĕngăbălc,ă(a)ătrongăthangăđoăMel;ă(b)ătrongăthangăđoăthôngăthng 27 Hìnhă3.ă18:ăS đăkhiăcấuătrúcăcaăVQăhuấnăluynăvƠăphơnălp 31 Hìnhă3.ă19:ăLuăđăgiiăthutăVQ 33 Hìnhă4.ă1:ăXíchăMarkovă5ătrngătháiăS 1 ,S 2 , S 5 vƠăcácăxácăsuấtăchuynătrngăthái 34 Hìnhă4.ă2:ăVíădămtămôăhìnhăMarkovănăsáuătrngăthái 37 Hình 4. 3: Môătăcácădƣyăphépătoánăđcăthcăhinăđătínhăα t (i) 41 Hìnhă4.ă4:ăMôătăcácădƣyăphépătoánăđcăthcăhinăđătínhăbinăβ t (i) 42 Hình 5. 1: KIT FPGA DE2 ca hãng Altera 48 Hình 5. 2:ăSăđăkhiăkităDE2 48 Hìnhă5.ă3:ăSăđăkhiătngăquanăcaăSoPCătrênăFPGA 49 GVHD: TS. Hoàng Trang Trang xii Hình 5. 4:ăThitălpăNiossăIIăprocessor 51 Hìnhă5.ă5:ăCấuăhìnhăchoăkhiăAudio 52 Hìnhă5.ă6:ăCấuăhìnhăchoăkhiăAV_Config 52 Hìnhă5.ă7:ăSoPCăđƣăđcătoăhoƠnăchnh 53 Hìnhă6.ă1:ăSăđ khi h thng nhn dng ting nói trên kit DE2 54 Hìnhă6.ă2:ăLuăđăgiiăthutăloiăbăkhongălng 55 Hìnhă6.ă3:ăLuăđăgiiăthutătríchăđcătrngăMFCCăcaămôăhìnhă1 57 Hìnhă6.ă4:ăLuăđăgiiăthutălngătăvector 59 Hìnhă6.ă5:ăLuăđăquáătrìnhăhuấnăluynăHMMătheoămôăhìnhă1 60 Hìnhă6.ă6:ăLuăđăgiiăthutăhuấnăluynăHMM 61 Hìnhă6.ă7:ăLuăđăgiiăthutănhnădngătheoămôăhìnhă1 62 Hình 6. 8: LuăđăgiiăthutătríchăđcătrngăMFCCăcaămôăhìnhă2 64 Hìnhă6.ă9:ăLuăđăgiiăthutătríchăđcătrng MFCC theo mô hình 3 66 Hìnhă6.ă10:ăLuăđăhuấnăluynăHMMătheoămôăhìnhă3 67 Hìnhă6.ă11:ăLuăđăgiiăthutănhnădngătheoămôăhìnhă3 68 GVHD: TS. Hoàng Trang Trang xiii DANH SÁCH CÁC BNG BNG TRANG Bngă2.ă1:ăCấuătrúcătngăquátăcaămtăơmătitătingăVit 10 Bng 3. 1:ăĐ chính xác nhn dng khi s dng b lc tam giác vi s lng các b lc khác nhau 27 Bng 6. 1: Kt qu nhn dng ca mô hình 1 viăkíchăthc codebook 128 69 Bngă6. 2: Ktăquănhnădngăcaămôăhìnhă1ăviăkíchăthcăcodebookă32 70 Bngă6.ă3:ăKtăquănhnădngăcaămôăhìnhă2ăviăkíchăthcăcodebookă128 71 Bngă6.ă4:ăKtăquănhnădngăcaămôăhìnhă2ăviăkíchăthcăcodebookă32 72 Bngă6.ă5:ăKtăquănhnădngăcaămôăhìnhă3ăviăkíchăthcăcodebookă128 73 Bngă6.ă6:ăKtăquănhnădngăcaămôăhìnhă3ăviăkíchăthcăcodebookă32 74 Bngă6.ă7:ăKtăquăđánhăgiáăsăxungăclockăcaămôăhìnhă1ăviăcodebookă128 75 Bngă6.ă8:ăKtăquăđánhăgiáăsăxungăclockăcaămôăhìnhă1ăviăcodebookă32 75 Bngă6.ă9:ăKtăquăđánhăgiáăsăxungăclockăcaămôăhìnhă2ăviăcodebookă128 76 Bngă6.ă10:ăKtăquăđánhăgiáăsăxungăclockăcaămôăhìnhă2ăviăcodebookă32 76 Bngă6.ă11:ăKtăquăđánhăgiáăsăxungăclockăcaămôăhìnhă3ăviăcodebookă128 77 Bngă6.ă12:ăKtăquăđánhăgiáăsăxungăclockăcaămôăhìnhă3ăcóăcodebookă32 77 [...]... CăTR NGăTI NG NÓI TI NG VI T ngă2 Đ CăTR NGăTI NG NÓI TI NG VI T Tín hi u ti ng nói đ c xem là tín hi u ng u nhiên vì chúng ta không th xác đ nhăchínhăxácăbiênăđ và t n s c a tín hi u ti ng nói đ c nói Tuy nhiên, m i từ c a ti ng nói l i ch a nh ng thành ph năđ cătr ngăriêngăđ cătr ng cho từ đó,ăvìăv y vi cătáchăđ cătr ngăti ng nói là quá trình quan tr ng trong h th ng nh n d ng ti ng nói Các h th ng... bi t các từ khác nhau trong ti ng nói d a trên đ cătr ngăriêngăc a m i từ.ăQuáătrìnhătríchăđ c tr ng ti ng nói lƠăquáătrìnhăcôăđ ng tín hi u ti ng nói c a m i từ thành các thông s đ cătínhăđ cătr ng cho từ đó,ănhằm gi m nhẹ công vi c nh n d ngăvƠătĕngăđ chính xác cho h th ng nh n d ng 2.1 T NG QUAN V TI NG NÓI: Ti ng nói là m t lo i sóng âm Khi chúng ta nói, ti ngă nói đ mangă theoă thôngă tină d i... công vi c nh n d ng ti ng nói tr nênăđ năgi n bằng cách so sánh d li u ti ng nói c n nh n d ng v i các m uăđƣăđ c h căvƠăl uătr trong b nh ăKhóăkhĕnăc ăb n c a ti ng nói là ti ng nói luôn bi n thiên theo th i gian và có s khác bi t l n gi a ti ng nói c a nh ngăng i nói khác nhau, t căđ nói, ng c nh và môiătr ng âm h c khác khau.ă Xácă đ nh nh ng thông tin bi n thiên nào c a ti ng nói là có ích và nh ng... bằng gi ng nói, quay s bằng gi ngă nói, ầv i đ chính xác khá cao, tuy nhiên khó áp d ng r ng rãi so v i mô hình nh n d ng liên t c 3.1.2 Nh n d ng ph thu căng i nói vƠăđ c l păng Đ i v i nh n d ng ph thu că ng ph c v đ ch aăđ c cho m tăng i nói: i nói thì m i m t mô hình nh n d ng ch i, và mô hình s không hi uăng i khác nói gì n uănh ă c huấn luy n l i từ đ u.ăDoăđó,ăh th ng nh n d ngăng i nói khóăđ... ngăphápănghiênăc u ngă2:ăĐ cătr ngăti ng nói ti ng Vi t - Phân tích t ng quan v ti ng nói - Cácăđ cătr ngăc ăb n c a ti ng Vi t Ch ngă3:Mô hình nh n d ng ti ng nói ti ng Vi t - Phân lo i các h th ng nh n d ng ti ng nói - Các y u t - Cấu trúc c a h nh n d ng ti ng nói - Gi i thu t h th ng nh n d ng ti ng nói ti ng Vi t - Phơnătíchăph nhăh ngăđ n k t qu nh n d ng ti ng nói ngăphápătríchăđ c tr ngăMFCC GVHD:... ng nói nh : tríchăđ c tr ng LPC,ătríchăđ cătr ngăMFCC, Trong lu năvĕnăs d ngăph ngăphápătríchăđ c tr ngăMFCCăđ trích đ c tr ngăti ng Vi t cho mô hình nh n d ng 3.4 Gi i thu t h th ng nh n d ng ti ng nói ti ng Vi t dùng Markov n: Đ xây d ng mô hình nh n d ng ti ng nói ti ng nói ti ng Vi t có rất nhi u công c khác nhau M t trong nh ng công c đ c ng d ng cho vi c xây d ng mô hình nh n d ng ti ng nói. .. Marko n HMM vào nh n d ng ti ng nói ti ng Vi t ngă5:ăKit DE2 c a hãng Altera - T ng quan v kit DE2 - M t s thành ph n h tr c a kit DE2 cho nh n d ng ti ng nói Ch ngă6:ăThi t k h th ng nh n d ng trên kit DE2 và k t qu đ tăđ c - Xây d ng thu t toàn ti n x lý ti ng nói ti ng Vi t trên Nios c a kit DE2 - Xây d ng thu t toán trích ch năđ cătr ngăti ng nói ti ng vi t MFCC cho ba mô hình trên NIOS c a kit... ngă1:ăT NG QUAN ngă1 T NG QUAN 1.1.T NG QUAN CHUNG V LĨNHăV C NGHIÊN C U: 1.1.1 T ng quan v nh n d ng ti ng nói: Nh n d ng ti ng nói bao g m c nh n d ng âm ti t r i r c, liên t c, nh n d ng ng i nói, ngôn ng nói và cao cấpăh năcóăth nh n d ngăđ ng i nói Có rất nhi u ng d ng c a nh n d ng ti ngă nói trongă đ i s ng xã h i c tr ng thái tâm lý c a nh :ăxác nh năthôngătin,ăđi u khi nărobot,ăvoiceămail,ăđi... h th ng nh n d ng ti ng nói - Nghiên c u thu tătoánătríchăđ cătr ngăMFCC ng d ngăvƠoătríchăđ cătr ngă ti ng nói ti ng Vi t - Nghiên c uă ph ngă phápă l ng t vectoră đ ng d ng vào mô hình nh n d ng ti ng nói ti ng Vi t - Nghiên c u mô hình Markov n HMM ng d ng vào huấn luy n và nh n d ng ti ng nói ti ng Vi t - Xây d ng mô hình nh n d ng ti ng nói ti ng Vi t trên NIOS c a kit FPGA DE2 c a hãng Altera... Trang Trang 8 Ch ngă2:ăĐ CăTR NGăTI NG NÓI TI NG VI T  Tínhăđ c l p: t c là m i âm ti t là m t thành ph n nh , chúng rõ ràng và tách bi t v i nhau, m i từ đ i di n cho m t âm ti t duy nhất  Không có hi năt ng n i âm: trong ti ng Vi t,ădùăng i nói nói nhanh hay nói ch m thì m i từ phátăraăđ u riêng lẻ, không có s n i âm hay nu t âm nh ătrongăti ngăAnh.ăĐi u này làm cho ranh gi i gi a các âm ti t rõ ràng . đcătínhăđcătrng cho từ đó,ănhằm gim nhẹ công vic nhn dngăvƠătĕngăđ chính xác cho h thng nhn dng. 2.1. TNG QUAN V TING NÓI: Ting nói là mt loi sóng âm. Khi chúng ta nói, tingă nói đc. tn s ca tín hiu ting nói đc nói. Tuy nhiên, mi từ ca ting nói li cha nhng thành phnăđcătrngăriêngăđcătrng cho từ đó,ăvìăvy vicătáchăđcătrngăting nói là quá trình quan trng. dng ting nói: Nhn dng ting nói bao gm c nhn dng âm tit ri rc, liên tc, nhn dng ngi nói, ngôn ng nói và cao cấpăhnăcóăth nhn dngăđc trng thái tâm lý ca ngi nói. Có

Ngày đăng: 18/11/2020, 14:00

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w