Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 102 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
102
Dung lượng
4,97 MB
Nội dung
v MC LC Trang ta TRANG Quy tài Lý lch cá nhân i L ii Cm t iii Tóm tt iv Mc lc v Danh sách các ch vit tt vi Danh sách các hình vii Danh sách các bng viii . TNG QUAN 1 1.1 1 1.2 2 1.3 Tính cp thit c tài 5 1.4 Mc tiêu nghiên cu ca lu 5 1.5 6 1.6 ng và phm vi 6 1.7 Cu trúc lu 7 . LÝ THUYT 8 2.1 8 2.2 12 2.2.1 12 2.2.2 13 2.2.3 14 2.2.4 15 2.3 16 2.3.1 Frame Blocking 16 -scale Frequency Cepstral Coefficient) 20 2.3.2.1 Windowing 22 2.3.2.2 Phân tích ph FFT 23 2.3.2.3 Mel frequency filter Bank 25 2.3.2.4 Phân tích cepstral 28 2.4 34 MATLAB 39 v 3.1 Tách t 39 3.2 ng 41 3.3 Pre_emphasis 41 3.4 Windowing 41 3.5 Tính FFT 41 42 3.7 Mel-filter bank 42 3.8 Tinh log 42 3.9 Tính h s cepstral 42 3.10 Kt qu 43 . T DSKTMS320C6713 48 4.1 B x lý tín hiu s TMS320C6713 48 4.2 Code Composer Studio 50 4.3 Tng quan v kit DSKTMS320C6713 53 4.4 Xây dng h thng nhn dng âm thanh trên nn Kit DSP DSKTMS320C6713 56 4.4.1 Hun luyn 57 4.4.1.1 Record 59 4.4.1.2 Framing Windowing 60 4.4.1.3 FFT 61 4.4.1.4 Power spectrum 62 4.4.1.5 Mel frequency spectrum 63 4.4.1.6 Log energy 65 4.4.1.7 Bii Cosine ri rc DCT 66 ng t vector VQ 68 4.4.2 Nhn dng 73 T LUN 82 TÀI LIU THAM KHO 84 PH LC 86 vi MFLOPS floating-point operations per second MIPS instructions per second MMACS million multiply-accumulate operations per second VLIW very-long-instruction-word L1P Level 1 program L1D Level 1 data TI Texas Instruments CCS Code composer studio COFF common object file format CCSv5 Code composer studio version 5 CSL Chip support library BSL Board support library DSK DSP starter kit ADC analog digital converter DAC digital ananog converter MFCC Mel-frequency cepstral coefficients FFT Fast Fourier transform ASR Automatic speech recognition vii DANH SÁCH CÁC HÌNH BNG TRANG Hình 2.1: Cu t 8 Hình 2.2: Cu ti 9 Hình 2.3: Dng sóng theo thi gian 11 Hình 2.4: Dng sóng min tn s 12 Hình 2.5: khi quá trình hun luyn và nhn dng âm thanh 16 Hình 2.6: Tín hic chia thành các sub-frame 18 Hình 2.7: Tín hic và sau khi qua khi pre-emphasis 20 Hình 2.8: Ph ca tín hic và sau khi qua khi pre-emphasis 20 Hình 2.9: 21 Hình 2.10: Ca s Hamming 22 Hình 2.11: c khi nhân ca s hamming 23 Hình 2.12: Tín hiu sau nhân ca s hamming 23 Hình 2.13: Thang tn s Mel 25 Hình 2.14: B lc Mel frequency 26 Hình 2.15: Quá trình to ra các h s sau khi qua dãy b lc 27 Hình 2.16: Các h s 31 vii Hình 2.17: Minh ha gii thung t vector 32 Hình 2.18: Thut toán to chùm 34 Hình 2.19: Minh ha thut toán to chùm 35 Hình 2.20: Quá trình nhn dng âm thanh 36 Hình 3.1: c khi tách t 37 Hình 3.2: Sau khi tách t 38 Hình 3.3: Dng sóng các ký hiu âm thanh t 1 ti 10 40 Hình 3.4: Không gian vector n luyn ca t 43 Hình 3.5: Không gian vector n dng ca t 44 Hình 3.6: Giao din chính c 44 Hình 3.7: Giao din luyn 45 Hình 3.8: Tín hiu ghi âm 45 Hình 3.9: Tín hiu sau khi tách 45 Hình 3.10: H s MFCC 46 Hình 3.11: Giao din dng 46 Hình 4.1: Cu trúc b x lý DSP TMS320C6713 49 Hình 4.2: Memory map ca TMS320C6713 50 Hình 4.3: BSL và CSL cn cho CCS 53 vii Hình 4.4: Tng quan phn cng board DSK 54 Hình 4.5: Giao tip ngõ vào và ngõ ra ca các thit b âm thanh và b Codec 55 Hình 4.6: Loi b nh và pha ch trên kit DSK 56 Hình 4.7: khi tng quát quá trình hun luyn và nhn dng âm thanh 57 Hình 4.8: khi quá trình hun luyn âm thanh 57 Hình 4.9: khi hàm Framming Windowing 60 Hình 4.10: D liu sau khi tính toán ph công sut 62 Hình 4.11: D lic tính toán qua cac b lc tam giác thang tn sô Mel 64 Hình 4.12: Mt ví d v Acoustic vector ca 1 frame m 65 Hình 4.13: Acoustic vector ca 20 frame liên tip 66 Hình 4.14: D liu sau khi tính toán bii Cosine ri rc 67 Hình 4.15: khi gii thut ca thut toán LBG s d 70 Hình 4.16: D liu codebook ca t cn hun luyn sau khi tính toán 71 Hình 4.17: D liu khong cách Euclidean ca t cn nhn dng 73 Hình 4.18: Kt qu nhn dng hin th trên màn hình 73 DANH SÁCH CÁC BNG BNG TRANG Bng 1: Kt qu nhn dng b 45 Bng 2: Kt qu nhn dng ca mô hình Codebook gm 16 codeword, 160 mu trên mt frame, chng ln 80 mu, t l nhn dng trung bình là 87.1% 74 Bng 3: Kt qu nhn dng ca mô hình Codebook gm 16 codeword, 200 mu trên mt frame, chng ln 100 mu, t l nhn dng trung bình là 89.8% 75 Bng 4: Kt qu nhn dng ca mô hình Codebook gm 16 codeword, 256 mu trên mt frame, chng ln 156 mu, t l nhn dng trung bình là 86.9%. 76 Bng 5: Kt qu nhn dng ca mô hình Codebook gm 8 codeword, 160 mu trên mt frame, chng ln 80 mu, t l nhn dng trung bình là 78.8%. 77 Bng 6: Kt qu nhn dng ca mô hình Codebook gm 8 codeword, 200 mu trên mt frame, chng ln 100 mu, t l nhn dng trung bình là 81.3%. 78 Bng 7: Kt qu nhn dng ca mô hình Codebook gm 8 codeword, 256 mu trên mt frame, chng ln 156 mu, t l nhn dng trung bình là 80.9%. 79 Bng 8:Kt qu nhn dng ca mô hình Codebook gm 16 codeword, 256 mu trên mt frame, chng ln 156 mu, s ng t vng là 6 t có t l nhn dng trung bình là 96%. 80 1 NG QUAN 1.1 Gii thiu: Tin giao tin nht ci, nó hình thành song song vi quá trình tin hóa ci vi, s dng ting nói là cách din và hiu qu nhm ca giao tip bng tic tiên là t giao tip, ting nói t i nghe hic phát ra. Bên cng nói là cách giao tic s dng rng rãi nht. V nhn dng ting nói là mt v ln, nhiu nghiên cu c hin trong vài thp niên g thng vi b t vng nh, nhp t ri rc có th áp trong nhng ng d ci thin hiu qu nhng sn xut, hoc trong nhng ng dng t xa vi thit bu nh thng nhn dng tic thit k nhn dng phát âm ri rng nhiu thp. Các h thng dùng b t vng nh (10-100 tng hp ngui hun luyn. T n nay, cùng vi s phát trin ca khoa hc, k thut nhn dng ting ng s tin b t bc thc hin bng nh pháp gii thut mi hii và hiu qu ngày càng cao. Nhn dng ting nói là mt quá trình nhn dng mu, vi m lu vào là tín hiu ting nói thành mt dãy tun t các mu c h trong b nh. Các m nhn dng, chúng có th là các t, hoc các âm v. Nu các mu này là bt bin và không thay i thì công vic nhn dng ting nói tr in bng cách so sánh d liu ting nói cn nhn dng vi các mc h trong b nh n ca nhn dng ting nói luôn bin thiên theo thi gian và có s khác bit ln gia ting nói ca nhi nói khác nhau, t nói, ng cnh ng âm hnh nhng thông tin bin thiên nào ca ting nói là có ích và nhi vi nhn dng ting nói là rt quan trt nhim v r vi các k thut xác 2 sut thng kê mc tng quát hoá t các mu ting nói nhng bin thiên quan trng cn thit trong nhn dng ting nói. Các nghiên cu v nhn dng ting nói da trên ba nguyên tn: Tín hiu tic biu din chính xác bi các giá tr ph trong mt khung thi gian ngn (short-term amplitude spectrum). Nh vy ta có th m ting nói t nhng khong thi gian ngn và dùng các m này làm d li nhn dng ting nói. Ni dung ca tic biu dii dng ch vit, là mt dãy các ký hiu ng a mc bo toàn khi chúng ta phiên âm phát âm thành dãy các ký hiu ng âm. Nhn dng ting nói là mt quá trình nhn thc. Thông tin v ng (seman trong quá trình nhn dng ting nói, nht là khi thông tin v âm hc là không rõ ràng. 1.2 Tình hình nghiên cc Tình hình nghiên c c: Hin nay trên th gii có rt nhiu nghiên cu v h thng nhn dng gic nhng thành t Via Voice Mellennium (IBM), Via Voice Standard ( IBM), SLU (Center of Spoken Language Understanding), HTK ng h thc xây d nhn dng ting Anh, ngoài ra còn có mt sô h thng nhn dng ting nói ca các ngôn ng . Mt s d án nghiên cu tiêu bi - CMU SPHINX: còn gi là SPHINX là mt h nhn dng tic phát trin ti hc Carnegie Mellon, bao gm mt Engine nhn dng tên là SPHINX và m n luyn âm v là SphinxTrain. Ngoài ra còn mt s n luyn mô hình âm v (acoustic mod ch mô hình ngôn ng (language model) và t n n thi s dng Sphinx. Có th tham kho ta ch cmusphinx.sourceforge.net. 3 - Microsoft Speech Recognition: sau khi tuyn d i u nhóm nghiên cu Sphinx X.Huang t i hc Carnegie Mellon, Microsoft bu nghiên cu nhn dng ting nói và chuyn sang ting nói. Công ty này sau ng Speech API (SAPI), mt giao din lp trình dành cho nhng ai mun phát trin ng dn ging Windows. Có th tham kho thêm ta ch Microsoft.com/speech/speech2007/default.mspx. - Julius: là d án mã ngun m nghiên cu phát trin nhn dng ting Nht da trên mô hình Markov n ph thuc vào ng c nghiên cu m rng cho nhiu ngôn ng khác nhau. Có th tham kho thêm ta ch Julius.sourceforge.jp/en_index.php. - Dragon: là sn phi ca công ty NUACE. Có nhiu phiên bn c y khoa, Dragon phc v hc t u. Có th tham kho thêm ta ch nuance.com/dragon/index.htm. Tình hình nghiên cc: Vit Nam hin nay có 2 trung tâm ln nghiên ch vc x lý ting nói và ting Vit là Vin Công Ngh thông tin và trung tâm nghiên cu quc t n truyn thông và ng dng MICA i hc Bách Khoa Hà Ni (mica.com.vn). Mt s sn phm và tài nghiên cu nhn dng ting nói trc: - a mt nhóm nhng sinh viên khoa Công ngh i hc Bách khoa TP H t gii ng Trí tu Ving da trên b nhn dng ting nói ca Microsoft tích hp sn trên Windows. Da trên s i ging nhau khi phiên âm latin ca mt s t ting Anh và ting Vit, nhóm dn dng ting nói ca Microsoft cung cp, thc hin thao tác nhn d t ting Anh nhc sang t ting Vit có phiên âm latinh gn ging nhm c cu xây d c mt h nhn dng âm thanh hoàn chnh mà ch da trên s ng trong cách phiên âm nên kt qu nhn dng không c ci thin [...]... C6000 của Texas Instruments Co 5 1.5 Nhịm v lu năvĕnă Nội dung 1: Nghiên cứu phương pháp và thực hiện các giải thuật tách từ, trích đặc trưng ti ng nói, thực hiện huấn luyện và nhận dạng ti ng nói dùng thuật toán trích đặc trưng ti ng nói MFCC và thuật toán lươ ̣ng tử vectơ VQ Cụ thể có 4 bước chính: - Trích đặc trưng: đó chính là các giá trị đo đạt tín hiệu ngõ vào để xác định các hệ số MFCC -... nghiệp của sinh viên Nguyễn Quốc Đính: Thiết kế bộ nhận dạng ti ng nói dựa trên nền tảng DSP TMS320C2812 Thực hiện nhận dạng với số lượng từ vựng nhỏ (4 từ) bằng phương pháp trích đặc trưng MFCC và lượng tử vector VQ cho tỉ lệ trên 70% - Đề tài tốt nghiệp của học viên Hà Thúc Phùng: Điều khiển thiết bị bằng ti ng nói Thực hiện trên Matlab, sử dụng mô hình Markov ẩn Thực hiện nhận dạng với số lượng từ... ti u nghiên cứu của lu năvĕn: Luận văn được xây dựng với hai mục ti u chính: - Đánh giá vai trò của hai thông số: kích thước Codebook và số lượng mẫu trên Frame âm thanh (sau khi thực hiện Framming chia một từ thành các frame nhỏ) đối với độ chính xác của mô hình nhận dạng âm thanh dùng giải thuật trích đặc trưng MFCC và lượng tử vector VQ - Xây dựng mô hình đánh giá thuật toán nhận dạng âm thanh trên. .. dựa trên từ cần nhận dạng và tập huấn luyện codebook để chọn ra từ nào phù hợp nhất Nội dung 2: Xây dựng chương trình đánh giá thuật toán nhận dạng trên Matlab để có một cái nhìn tổng quan về công việc sẽ thực hiện trên phần cứng Nội dung 3: Tìm hiểu về Kit DSK TMS320C6713 và thiết kế mô hình nhận dạng ti ng nói dựa trên kit này, dùng phương pháp trích đặc trưng MFCC và lượng tử vector VQ Cụ thể đề... chương trình nhận dạng trên Kit DSK TMS320C6713 Ph m vi nghiên cứu: - Việc đánh giá chỉ được thực hiện trên hai thông số kích thước Codebook và số lượng mẫu trên Frame âm thanh - Chương trình xây dựng trên Kit DSP với số lượng từ vựng 16 từ, cơ sở dữ liệu cho mỗi từ dùng để huấn luyện và nhận dạng được ghi âm 100 lần - Môi trường ghi âm ít nhiễu và ti ng nói dùng cho huấn luyện và nhận dạng của cùng một... ngữ phổ biến nhất Nội dung 4: Trên nền tảng chương trình xây dựng trên chip DSP ở nội dung 3 ti n hành đánh giá vai trò của kích thước Codebook và số lượng mẫu trên frame âm thanh đối với độ chính xác của quá trình nhận dạng 1.6ăĐốiăt Đốiăt ng và ph m vi: ng nghiên cứu: - Luận văn nghiên cứu phương pháp nhận dạng âm thanh dựa trên thuật toán trích đặc trưng MFCC và lượng tử vector VQ 6 - Luận văn nghiên... thạc sĩ hay luận án ti n sĩ liên quan đến vấn đề xử lý ti ng nói ở các trường đại học trong nước Trong số đó, một số đề tài đư ứng dụng kỹ thuật nhận dạng ti ng nói vào một số vấn đề thực tế như dùng ti ng nói để điều khiển các thiết bị tự hành như: Robot, hay các thiết bị dân dụng như đèn, quạt … 4 1.3 Tính cấp thi t của đề tài: Hầu hết những ứng dụng của kỹ thuật nhận dạng ti ng nói chỉ mới dừng lại... lượng từ vựng 15 từ, đạt tỉ lệ trên 90% - Đề tài tốt nghiệp của học viên Võ Quốc Việt: Thiết kế hệ thống nhận dạng ti ng nói ti ng Việt với VERILOG và MATLAB Đư thiết kế được một số khối chức năng trên Kit DE2, tuy nhiên chưa xây dựng được một chương trình nhận dạng hoàn chỉnh trên Kit - Đề tài nghiên cứu ứng dụng mạng neuron và mô hình Markov ẩn trong nhận dạng ti ng Việt của nghiên cứu sinh Đặng Ngọc... hệ thống nhận dạng chữ số ti ng Việt liên tục với cơ sở dữ liệu thu âm qua điện thoại dùng mạng lai ghép HMM/ANN Kết quả đạt được là hệ thống nhận dạng với độ chính xác là 97.46% ở mức từ và 90.41% ở mức câu - Đề tài: Nhận dạng ti ng Việt dùng mạng neuron kết hợp trích đặc trưng dùng LPC và AMDF của PGS.TS Hoàng Đình Chiến Kết quả nhận dạng 10 số từ 0 đến 9 đạt tỉ lệ 96.2% khi kết hợp LPC và AMDF Ngoài... thuận ti n để biến đổi phi tuyến giữa ngõ vào và ngõ ra bất kỳ với nhiều hiệu quả Dựa vào những phân tích ở trên, ta chọn phương pháp nhận dạng mẫu vì tính đơn giản không phụ thuộc nhiều vào bộ từ vựng, không cần kiến thức rộng về ngữ âm, ngữ pháp Phương pháp nhận dạng mẫu bao gồm hai bước tách đặc trưng và huấn luyện nhận dạng mẫu 2.3 Thu tătoán trích đặc tr ng MFCC Để nhận biết vị trí của thuật toán MFCC . Ving da trên b nhn dng ti ng nói ca Microsoft tích hp sn trên Windows. Da trên s i ging nhau khi phiên âm latin ca mt s t ti ng Anh và ti ng Vit, nhóm . dng ti ng nói trên Matlab. - c hin h thng nhn dng ti ng nói trên Kit DSK TMS320C6713. - t lun. 8 LÝ THUYT 2.1 Tín hiu ti ng nói: . quát hoá t các mu ti ng nói nhng bin thiên quan trng cn thit trong nhn dng ti ng nói. Các nghiên cu v nhn dng ti ng nói da trên ba nguyên tn: Tín hiu ti c biu