Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 95 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
95
Dung lượng
2,82 MB
Nội dung
v TÓM TT Nhn dng ting nói là một kỹ thut có thể ng dng trong rất nhiu lĩnh vc ca cuộc sống: trong vic điu khiển (điu khiển robot, động c, điu khiển xe lăn cho ngưi tàn tt ), an ninh quốc phòng Vit Nam, trong nhng năm gần đơy đã có một số nghiên cu ban đầu v nhn dng ting Vit, tuy nhiên còn giới hn v độ chính xác, số từ, vấn đ thanh điu đặc thù ca ting Vit hầu như chưa đưc đ cp. Trong khuôn kh ca khóa học Cao học, chuyên ngành Kỹ thut đin t ti trưng Đi học Sư phm Kỹ thut Tp. H Chí Minh, đưc s to điu kin giúp đỡ ca nhƠ trưng vƠ PGS. TS Dưng HoƠi Nghĩa, tôi đã la chọn đ tài “ Nhận dạng tiếng nói dùng mạng Neural”, nhằm nghiên cu các phưng pháp nhn dng ting nói đối với ting Vit dùng mng Neural và th nghim trên phần mm Matlab. Nội dung ca lun văn đưc trình bƠy thƠnh các chưng như sau: Chưng 1: Tng quan Chưng th nhất giới thiu tng quan v hướng nghiên cu ca đ tài,mc đích vƠ phưng pháp nghiên cu. Chưng 2: C s lý thuyt Chưng th hai trình bày tóm tt v ting nói và một số phưng pháp nhn dng ting nói ph bin Chưng 3: Tng quan v mng Neural Chưng nƠy trình bƠy tng quan v mng Neural bao gm: phần lịch s phát triển, cấu trúc mng Neural, thut toán, ng dng ca chúng trong nhn dng Chưng 4: Xơy dng h nhn dng Phần này trình bày quá trình tin hành và một số kt qu nghiên cu xây dng h nhn dng các ch số ting Vit trên môi trưng Matlab. vi Chưng 5: Kt lun. Chưng cuối trình bày nhng kt qu đt đưc vƠ hướng phát triển ca đ tài. Mặc dù ht sc cố gng nhưng do kh năng còn hn ch nên kt qu nghiên cu còn khá khiêm tốn. Hy vọng rằng tưng lai tôi s có điu kin hn để tip tc nghiên cu và m rộng đ tài này. vii SUMMARY Speech recognition is a technique that can be applied in many areas of life: in the control (control robots, motors, control a wheelchair for the disabled, etc.), security and defense In Vietnam, in recent years there were some initial research on Vietnamese identity, but also limited in terms of accuracy, the number of words, tone issues specific language can hardly be counter. In the framework of the course Master of Science degree in Electronic Engineering at the University of Technical Education Ho Chi Minh City, is the creation of conditions to help the school and Associate Professor. Dr. Duong Hoai Nghia, I have chosen the theme "Speech recognition using Neural Network", in order to study the method of speech recognition for Vietnammese using Neural network and Matlab software trials. The content of the thesis is presented in the following chapters: Chapter 1: Overview The first chapter introduces an overview of the research directions of the subject, purpose, and research methods. Chapter 2: Theoretical basis The second chapter presents a summary of the language and some common methods of speech recognition Chapter 3: Overview of Neural network This chapter presents an overview of the Neural network include: historical development, Neural network structures, algorithms, their application in the identification Chapter 4: Construction of identity This section presents the process and a number of research findings build recognize the letters of the English in the Matlab environment. Chapter 5: Conclusion. The last chapter presents the results and development of the subject. viii Despite our best efforts, likely due to limited research results are relatively modest. Hopefully the future will have more conditions to continue and expand research subject. ix MỤC LỤC TRANG Trang ta Quyt định giao đ tài Lý lịch cá nhân i Li cam đoan iii Li cm n iv Tóm tt v Mc lc ix Danh sách ch vit tt xiii Danh sách các hình xiv Danh sách các bng xv Chưng 1. TNG QUAN 1.1 Tng quan v lĩnh vc nghiên cu 1 1.2 Mc đích ca đ tài 4 1.3 Nhim v và giới hn ca đ tài 4 1.4 Phưng pháp nghiên cu 4 Chưng 2. C S LÝ THUYT 2.1 Lý thuyt âm thanh và ting nói 6 2.1.1 Ngun gốc âm thanh 6 2.1.2 Các đi lưng đặc trưng cho ơm thanh 6 2.1.3 Các tần số ca âm thanh 7 2.1.4 C ch to lp ting nói ca con ngưi 7 x 2.1.5 Mô hình lọc ngun cho quá trình to ting nói 8 2.1.6 H thống nghe ca tai ngưi 9 2.1.7 Quá trình to ra ting nói và thu nhn ting nói ca con ngưi 10 2.1.8 Các âm thanh ting nói vƠ các đặc trưng 11 2.2 Lý thuyt nhn dng ting nói 12 2.2.1 Tng quan v nhn dng ting nói 12 2.2.2 Các nguyên tc c bn trong nhn dng ting nói 14 2.2.3 Các phưng pháp nhn dng ting nói ph bin 14 2.2.4 Các quá trình c bn ca một h thống nhn dng ting nói 19 Chưng 3. TNG QUAN V MNG NEURAL 3.1 Giới thiu tng quan v mng Neural 23 3.1.1 Mng Neural sinh học 23 3.1.2 Mng Neural nhân to 24 3.2 Lịch s phát triển ca mng Neural nhân to 26 3.3 Các tính chất ca mng Neural nhân to 28 3.4 Mô hình Neural và kin trúc mng 28 3.4.1 Mô hình Neural 28 3.4.1.1 Mô hình Neural đn gin 29 3.4.1.2 Mô hình Neural nhiu ngõ vào 32 3.4.2 Kin trúc mng Neural 32 3.4.2.1 Mng Neural đn lớp 33 3.4.2.2 Mng Neural đa lớp 34 3.4.2.3 Mng Neural hi qui 35 3.5 Phưng thc làm vic ca mng Neural 36 xi 3.6 Các lut học 38 3.7 Vấn đ thit k cấu trúc mng 40 3.7.1 Số lớp ẩn 40 3.7.2 Số đn vị trong lớp ẩn 40 3.8 Thut toán lan truyn ngưc 42 3.8.1 Chỉ số hiu năng 43 3.8.2 Lut xích 44 3.8.3 Lan truyn ngưc độ nhy cm 45 3.9 ng dng mng Neural trong nhn dng 47 Chưng 4. XÂY DNG H NHN DNG 4.1 Xây dng h thống nhn dng 49 4.1.1 Mô t chung v h thống 49 4.1.2 S đ khối ca h thống 49 4.1.3 Phưng pháp gii quyt 50 3.4.1.1 Thu nhn tín hiu 50 3.4.1.2 Trích đặc trưng ting nói 53 3.4.1.3 Tính đầu vào cho mng 57 4.2 Chưng trình nhn dng mưi ch số ting Vit 58 4.2.1 Giao din phần mm demo 58 4.2.2 Kt qu th nghim 61 Chưng 5. KT LUN 5.1 Nhng kt qu đt đưc 75 5.2 Hướng phát triển ca đ tài 75 5.2.1 Xây dng bộ d liu lớn hn 75 xii 5.2.2 Xây dng phần mm nhn dng da trên kt qu nghiên cu 75 5.2.3 Nghiên cu các phưng pháp xác định đặc trưng khác 76 5.2.4 Nghiên cu các phưng pháp nhn dng khác 76 TÀI LIU THAM KHO 77 PH LC 79 xiii DANH SÁCH CH VIT TT STT Kí hiu Din gii 1 Artificial Neural Nron nhơn to 2 Artificial Neural Networks Mng Nron nhơn to 3 Back Propagation Learaning Rule Lut học lan truyn ngưc 4 Learing Học 5 Hidden Layer Lớp ẩn 6 Melscale Frequency Cepstral Coefficients - MFCC Các h số theo thang tần số Mel 7 Myltilayer Layer Feedforward NetWord Mng nhiu lớp truyn thẳng 8 Neural Nron 9 Neural Networks - NN Mng Nron 10 Output Layer Lớp ra 11 Paramater Learning Học thông số 12 Perceptual Linear Prediction - PLP Mã d đoán tuyn tính 13 Recurrent Neural Networks Mng Nron hi qui 14 Single Layer Feedforward NetWord Mng một lớp truyn thng 15 Step Function HƠm bước 16 Supervised Learning Học có giám sát 17 Unsupervised Learning Học không có giám sát xiv DANH SÁCH CÁC HÌNH TRANG Hình 2.1: Mô hình lọc ngun cho quá trình to ting nói 9 Hình 2.2: S đ biểu din quá trình thu, nhn ting nói ca con ngưi 10 Hình 2.3: Các phần t c bn ca một h thống nhn dng ting nói 13 Hình 2.4: S đ khối nhn dng ting nói theo ng âm ậ âm vị học 15 Hình 2.5: S đ khối h thống nhn dng ting nói theo phưng pháp từ dưới lên 19 Hình 2.6: Các quá trình c bn ca một h thống nhn dng ting nói 20 Hình 3.1: Mô hình mng Neural sinh học 23 Hình 3.2: Mô hình t bào thần kinh sinh học 24 Hình 3.3: Mô hình mng Neural nhân to 25 Hình 3.4: Mô hình Neural 29 Hình 3.5: Mô hình Neural đn gin 30 Hình 3.6: Hàm truyn ngưỡng 30 Hình 3.7: Hàm truyn tuyn tính 31 Hình 3.8: Hàm truyn log ậ sigmoid 31 Hình 3.9: Mô hình Neural nhiu ngõ vào 32 Hình 3.10: Mô hình huấn luyn mng Neural 33 Hình 3.11: Mô hình mng Neural đn lớp 33 Hình 3.12: Dng kí hiu ca mng Neural đn lớp 34 Hình 3.13: Mng Neural đa lớp (3 lớp) 34 Hình 3.14: Mng hi quy 36 Hình 3.15: Mô hình học có giám sát và cng cố 39 Hình 3.16: Mô hình học không có giám sát 40 Hình 4.1: S đ khối h thống nhn dng 50 Hình 4.2: S tưng quan gia tín hiu ting nói và nn nhiu 51 Hình 4.3: Tín hiu ting nói nguyên thy 52 [...]... Vì nh ng lí do trên, tôi chọn đ tƠi Nhận dạng tiếng nói dùng mạng Neural , nhằm nghiên c u các ph ng pháp nh n d ng ti ng nói đối với ti ng Vi t và th nghi m xây d ng một h thống nh n d ng c nhỏ 1.1.1 Các k t qu nghiên c u ngoƠi nước Nh n d ng ti ng nói nhằm chuyển thông tin t ti ng nói con ng tính và tổng h p ti ng nói nhằm t động t o ra ti ng ng i vào máy i nói bằng máy tính Cùng với s phát triển... một h thống nh n d ng ti ng nói Các h thống nh n d ng ti ng nói có thể đ c phân lo i nh sau: Nh n d ng t phát ơm r i r c/liên t c Nh n d ng ti ng nói ph thuộc ng i nói/ không ph thuộc ng i nói H thống nh n d ng t điển cớ nhỏ (d ới 20 t )/t điển c lớn (hƠng nghìn t ) Nh n d ng ti ng nói trong môi tr Nh n d ng ng ng có nhi u th p/cao i nói Trong h nh n d ng ti ng nói với cách phát âm r i r c... lƠ ngoƠi đ i nói ng phố - Handset để thu ơm có thể khác nhau trong nh ng tình huống khác nhau Đi u ki n lý t ng cho vi c th c hi n nh n d ng ti ng nói nói chung vƠ ơm thanh nói riêng lƠ ti ng nói sẽ ổn định kể c trong lúc hu n luy n vƠ lúc nh n d ng Ti ng nói c a mỗi ng i lƠ duy nh t, không trùng l n với nh ng ng i khác Do đó, cho đ n th i điểm hi n t i, vi c nh n d ng ơm thanh, ti ng nói lƠ một công... trên vi c trích đặc tr ng c a ti ng nói bằng ph ng pháp MFCC (Mel - Frequency Ceptrums Coefficients), vƠ nh n d ng bằng m ng neural trên môi tr ng Matlab 1.3 Nhi m vụ vƠ giới h n c a đ tƠi 1.3.1 Nhi m vụ c a đ tƠi Thi t k vƠ mô phỏng h thống nh n d ng ti ng nói (nh n d ng 11 ch số ti ng Vi t) dùng m ng neural trên môi tr ng Matlab Một h thống nh n d ng ti ng nói nói chung th ng bao gồm hai phần:... m ng Neural cho số 0 62 B ng 5.2: K t qu nh n d ng huấn luy n m ng Neural cho số 1 63 B ng 5.3: K t qu nh n d ng huấn luy n m ng Neural cho số 2 64 B ng 5.4: K t qu nh n d ng huấn luy n m ng Neural cho số 3 65 B ng 5.5: K t qu nh n d ng huấn luy n m ng Neural cho số 4 66 B ng 5.6: K t qu nh n d ng huấn luy n m ng Neural cho số 5 67 B ng 5.7: K t qu nh n d ng huấn luy n m ng Neural. .. p các m u ti ng nói (chính lƠ đo n ti ng nói cần nh n d ng) mà không cần xác định th t rõ các đặc tr ng vƠ cũng không cần phơn đo n tín hi u Ph ng pháp nƠy cũng có 2 b ớc: B ớc 1: tích lũy các m u ti ng nói: S d ng t p m u ti ng nói (c s d li u m u ti ng nói) để đƠo t o các m u ti ng nói đặc tr ng (m u tham chi u) hoặc các tham số h thống B ớc 2: nh n d ng m u: đối sánh m u ti ng nói t ngoƠi với... u qu ‟ c a chúng x p xỉ với các giá trị c a băng tần tới h n 2.1.7 Quá trình t o ra ti ng nói vƠ thu nh n ti ng nói c a con ngư i Hình 2.2: S đồ biểu di n quá trình thu, nh n ti ng nói c a con ng Quá trình t o ra ti ng nói bắt đầu khi ng c a mình cho ng i i nói muốn chuyển t i thông đi p i nghe thông qua ti ng nói Tổ ch c thần kinh sẽ chịu trách nhi m chuyển đổi thông đi p sang d ng mã ngôn ng Khi... cho một h thống nh n d ng ti ng nói (nh n d ng 11 ch số ti ng Vi t) dùng m ng neural mô phỏng trên môi tr ng Matlab 1.4 Phư ng pháp nghiên c u Ph ng pháp phơn tích: nghiên c u, tìm hiểu v các ph ng pháp trích đặc tr ng ti ng nói, tìm hiểu v m ng neural, l a chọn m ng vƠ thu t toán cho h thống nh n d ng, phơn tích các k t qu nh n đ Trang 4 c t mô hình nh n d ng… Ph neural trên môi tr ng pháp mô phỏng:... nói đ Trang 13 c s d ng trong quá trình hu n luy n (mô hình hóa/phân lớp) để xác định các tham số h thống 2.2.2 Các nguyên tắc c b n trong nh n d ng ti ng nói Các nghiên c u v nh n d ng ti ng nói d a trên ba nguyên tắc c b n: Tín hi u ti ng nói đ c biểu di n chính xác b i các giá trị phổ trong một khung th i gian ngắn Nh v y ta có thể trích ra đặc điểm ti ng nói t nh ng kho ng th i gian ngắn vƠ dùng. .. Hz Giọng nam trung 100 ậ 400 Hz Giọng nam cao 130 ậ 480 Hz Giọng n th p 160 ậ 600 Hz Giọng n cao 260 ậ 1200 Hz Công su t c a ti ng nói, khi nói to nhỏ cũng khác nhau Khi nói thầm công su t 10-3mW, nói bình th ng 10 mW, nói to 103mW 2.1.4 C ch t o l p ti ng nói c a con ngư i Các c quan phát ơm c a con ng i ch y u gồm phổi, khí qu n, thanh qu n, bộ ph n mũi vƠ mi ng Thanh qu n có hai n p g p gọi . HoƠi Nghĩa, tôi đã la chọn đ tài “ Nhận dạng tiếng nói dùng mạng Neural , nhằm nghiên cu các phưng pháp nhn dng ting nói đối với ting Vit dùng mng Neural và th nghim trên phần mm. Trang 2 Vì nhng lí do trên, tôi chọn đ tƠi Nhận dạng tiếng nói dùng mạng Neural , nhằm nghiên cu các phng pháp nhn dng ting nói đối với ting Vit và th nghim xây dng một h. mng Neural nhân to 28 3.4 Mô hình Neural và kin trúc mng 28 3.4.1 Mô hình Neural 28 3.4.1.1 Mô hình Neural đn gin 29 3.4.1.2 Mô hình Neural nhiu ngõ vào 32 3.4.2 Kin trúc mng Neural