Nhận dạng tiếng nói sử dụng kỹ thuật MFCC mạng nơron

MỤC LỤC LỜI CẢM ƠN i MỤC LỤC ii LIỆT KÊ HÌNH .v LIỆT KÊ BẢNG vii LIỆT KÊ TỪ VIẾT TẮT .viii TÓM TẮT ix ABSTRACT x CHƯƠNG GIỚI THIỆU 1.1 Tổng Quan Về Nhận Dạng Tiếng Nói 1.2 Tình Hình Nghiên Cứu Trong Và Ngoài Nước .1 1.3 Ý Nghĩa Của Đề Tài .3 1.4 Mục Tiêu Và Phương Pháp Nghiên Cứu 1.4.1 Mục Tiêu .3 1.4.2 Phương Pháp Nghiên Cứu 1.5 Nội Dung Nghiên Cứu Của Đề Tài CHƯƠNG CƠ SỞ THUYẾT .5 2.1 Lịch Sử Phát Triển Của Các Hệ Thống Nhận Dạng Tiếng Nói 2.2 Các Khái Niệm Và Đặc Điểm Âm Học Của Tiếng Nói 2.2.1 Sự Phân Bố Về Biên Độ 2.2.2 Sự Phân Bố Về Tần Số 2.2.3 Sự Biến Đổi Các Tần Số Cơ Bản 2.2.4 Tỷ Số Tiếng Nói Mục Lục 2.2.5 2.3 Ngữ Âm Tiếng Việt .8 Hệ Thống Nhận Dạng Tiếng Nói 2.3.1 Sơ Đồ Khối Hệ Thống Nhận Dạng Tiếng Nói .9 2.3.2 Nguyên Tắc Hoạt Động Của Hệ Thống Nhận Dạng 14 CHƯƠNG PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG MFCC 16 3.1 Phương Pháp Trích Chọn Đặc Trưng Của Tiếng Nói 16 3.1.1 Sơ Đồ Khối Trích Chọn Đặc Trưng MFCC .16 3.1.2 Kết Luận 21 CHƯƠNG MẠNG NƠRON NHÂN TẠO 22 4.1 Mạng Nơron 22 4.1.1 Lịch Sử Phát Triển .22 4.1.2 Cấu Trúc Mạng Nơron Sinh Học .23 4.2 Mạng Nơron Nhân Tạo (ANN – Artificial Neural Network) 24 4.2.1 Đơn Vị Xử Lý 25 4.2.2 Hàm Truyền .26 4.2.3 Kiến Trúc Mạng Nơron .28 4.2.4 Vấn Đề Thiết Kế Cấu Trúc Mạng 33 4.2.5 Thuật Toán Lan Truyền Ngược (Back Propagation Algorithm) 34 4.2.6 Ứng Dụng Của Mạng Nơron Nhân Tạo .40 CHƯƠNG NHẬN DẠNG TIẾNG NÓI DÙNG MFCC VÀ MẠNG NƠRON 43 5.1 Xây Dựng Phương Pháp Trích Chọn Đặc Trưng 44 5.1.1 Pre – emphasic 45 5.1.2 Phân Khung (Frame Blocking) 47 5.1.3 Nhân Với Cửa Sổ 48 5.1.4 Biến Đổi FFT 49 Mục Lục 5.1.5 Mel – Frequency Wrapping .49 5.1.6 Hệ Số MFCC .50 5.2 Ứng Dụng Mạng Nơron Vào Mơ Hình Huấn Luyện Và Nhận Dạng Tiếng Nói Trên Matlab……………… .51 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 56 6.1 Kết Luận .56 6.1.1 Những Mặt Làm Được 56 6.1.2 Những Mặt Chưa Làm Được .56 6.2 Hướng Phát Triển 56 PHỤ LỤC A 57 MÃ NGUỒN CHƯƠNG TRÌNH 57 PHỤ LỤC B 62 HƯỚNG DẪN SỬ DỤNG MÔ PHỎNG 62 TÀI LIỆU THAM KHẢO .65 Mục Lục LIỆT KÊ HÌNH Hình Sơ đồ khối hệ thống nhận dạng tiếng nói 10 Hình 2 Các bước thực phương pháp LPC 11 Hình Sơ đồ xử lý PLP dùng cho trích chọn đặc trưng 13Y Hình Sơ đồ khối trích chọn đặc trưng MFCC 16 Hình Dải lọc tần số hình tam giác .20 Hình 3 Dải lọc hình tam giác với tần số trung tâm f m Hình Mạng nơron sinh học 24 Hình Cấu trúc mạng nơron 25 Hình Hàm Hard Limit 26 Hình 4 Hàm Linear 27 Hình Hàm Sigmoid 27 Hình Mạng đơn tầng 28 Hình Mạng đa tầng 29 Hình Mang nơron có hệ số bias khơng có hệ số bias 30 Hình Mạng truyền thẳng 30 Hình 10 Mạng hồi quy 31 Hình 11 Sơ đồ khối mơ tả luật học có giám sát 32 Hình 12 Sơ đồ khối mơ tả luật học khơng có giám sát 33 Hình 13 Mạng Nơron 37 Y Hình Sơ đồ khối huấn luyện 43 Hình Sơ đồ khối nhận dạng 44 Hình Sơ đồ khối trích chọn đặc trưng dùng MFCC .45 Liệt Kê Hình Hình Tín hiệu thu âm tiếng nói 46 Hình 5 Tín hiệu sau loại bỏ khoảng lặng 46 Hình Tín hiệu tiếng nói sau qua lọc hiệu chỉnh 47 Hình Kết phân khung tín hiệu 47 Hình Cửa sổ Hamming 48 Hình Tín hiệu sau nhân với hàm cửa sổ 48 Hình 10 Tín hiệu sau phép biến đổi FFT 49 Hình 11 Mel Filter Bank 20 điểm .50 Hình 12 20 Cepstrum frame liên tiếp 51 Hình 13 Mơ hình mạng nơron 51 Hình 14 Hiệu suất mạng .55 YHình B Giao diện Hình B Chương Trình nhận dạng online 62 Hình B Chương trình nhận dạng offline 63 Liệt Kê Hình LIỆT KÊ BẢNG Bảng Các thông số thiết kế mạng nơron 52 Bảng Kết nhận dạng Offline 53 Bảng Kết nhận dạng Online 54 Liệt Kê Bảng LIỆT KÊ TỪ VIẾT TẮT ANN – Artificial Neural Network ARS – Audio Recognition Speech ASR – Autonatic Speech Recognition BPNN – Back Propagation Nơron Network DCT – Discrete Cosine Transform DFT – Discrete Fourier Transform DTW – Dynamic Time Warping FFT – Fast Fourier Transform HMM – Hidden Markov Model LPC – Linear Predictive Coding LVCSR – Large Vocabulary Continuous Speech Recognition Lr – Learning rate MFCC – Mel Frequency Cepstum Coefficients MSE – Mean Square Errors PMC – Parallel Model Combination SSE – Sum Square Errors SS – Spectral Subtraction Liệt Kê Từ Viết Tắt TĨM TẮT Một hệ thống nhận dạng tiếng nói thường bao gồm hai phần: phần huấn luyện phần nhận dạng Kỹ thuật sử dụng giọng nói người nói để xác định danh tính họ điều khiển truy cập dịch vụ Chẳng hạn quay số giọng nói, thư thoại, giao dịch ngân hàng mua sắm thông qua điện thoại, dịch vụ truy cập sở liệu, kiểm soát an ninh cho ngân hàng khu vực thông tin bảo mật, truy cập máy tính điện thoại di động từ xa thơng qua giọng nói Nhận dạng giọng nói q trình nhận dạng mẫu Các mẫu nhận dạng từ âm vị Vì tiếng nói biến thiên liên tục theo thời gian, cịn có khác biệt người nói, biến đổi theo tâm trạng người nói mơi trường âm học Nên tìm đại lượng biến thiên tiếng nói khó khăn Đề tài thực nhận dạng tiếng nói sử dụng phương pháp MFCC để trích chọn đặc trưng tiếng nói mạng nơron để huấn luyện, nhận dạng đặc trưng đạt độ xác khoảng 80% Tóm Tắt ABSTRACT A speech recognition system always includes two phases: training and recognition This technique is possible to use the speaker’s voice to verify their identify and control access to services such as voice dialing, voice mail, banking and shopping by telephone, database access services, security control for banking and confidential information areas and remote access to computers and cell phones with voice Speech Recognition is a process of pattern recognition The patterns may be words or phonemes Voice always fluctuates over time that have a difference between the speakers, variable according to the speaker’s state of mind and acoustic environment Fundamental difficulty of speech recognition that find variable quantities of voice The recognition speech project uses MFCC method to extract features and neural network to train, identify these features that get accuracy about 80 percent Abstract Đồ Án Tốt Nghiệp Trang CHƯƠNG GIỚI THIỆU 1.1 Tổng Quan Về Nhận Dạng Tiếng Nói Trong thời đại cơng nghệ thơng tin nay, hệ thống máy móc tự động dần thay người nhiều công đoạn cơng việc Máy móc có khả làm việc hiệu quả, độ xác cao hữu dụng môi trường nguy hại người, tốc độ xử lý máy tính, thiết bị ngày nhanh Đến nay, việc giao tiếp người máy móc cịn thủ cơng thơng qua bàn phím thiết bị nhập liệu Con người mong muốn máy móc thơng minh hơn, tốc độ xử lý nhanh tương tác với người dùng giọng nói yêu cầu thiết bị tương lai Hiện giới cơng nghệ xử lý tiếng nói phát triển, hệ thống ứng dụng xử lý tiếng nói ứng dụng nhiều nơi độ xác hệ thống ngày cải thiện Hệ thống nhận dạng tiếng nói (Automatic Speech Recognition - ASR) có ứng dụng tuyệt vời tất lĩnh vực đời sống Nếu áp dụng thành cơng trở thành cách mạng giao tiếp người máy, ứng dụng bao trùm lên nhiều lĩnh vực công nghiệp, an ninh giải trí 1.2 Tình Hình Nghiên Cứu Trong Và Ngồi Nước a Thế Giới Tiếng nói phương tiện giao tiếp tự nhiên người Chính vậy, việc nghiên cứu để máy tính hiểu tiếng nói nguời hay gọi nhận dạng tiếng nói tự động (ASR – Automatic Speech Recognition), phát triển Trong năm gần đây, nhiều loại hệ thống nhận dạng tiếng nói đề xuất phát triển theo hướng thực hành sử dụng vào sống thực việc nghiên cứu giải thuật nhận dạng cách xác - Nghiên cứu Masakiyo Fujimoto Yasuo Ariki [13] việc nhận dạng tiếng nói môi trường lái xe ô tô sử dụng thuật toán GMM dựa Chương 1: Giới Thiệu Đồ Án Tốt Nghiệp Trang 43 nên đặc số học thích nghi lớn (cỡ 0.1 chẳng hạn) Cũng hệ số quán tính (momentum) chẳng hạn 0.5 Để đảm bảo khả đạt đến cực tiểu, số đơn vị lớp ẩn cần đủ lớn Tuy nhiên, số đơn vị lớp ẩn vượt ngưỡng khả tổng qt hóa mạng kém, sau huấn luyện mạng có xu hướng ghi nhớ tất mẫu học Khi đó, nên xem xét đến khả sử dụng thêm lớp ẩn với nơron nhỏ giảm bớt số nơron lớp thứ Chương 4: Mạng Nơron Nhân Tạo Đồ Án Tốt Nghiệp Trang 44 CHƯƠNG NHẬN DẠNG TIẾNG NÓI DÙNG MFCC VÀ MẠNG NƠRON Hình Sơ đồ khối huấn luyện Thu thập mẫu huấn luyện Loại bỏ khoảng lặng Trích chọn đặc trưng MFCC Xây dựng mạng nơron Huấn luyện mạng Chương 5: Nhận Dạng Tiếng Nói Dùng MFCC Và Mạng Nơron Đồ Án Tốt Nghiệp Trang 45 Hình Sơ đồ khối nhận dạng Thu thập mẫu nhận dạng Loại bỏ khoảng lặng Trích chọn đặc trưng MFCC Nhận dạng Các bước tiến hành huấn luyện nhận dạng tiến hành theo sơ đồ khối hình 5.1 hình 5.2 Chương 5: Nhận Dạng Tiếng Nói Dùng MFCC Và Mạng Nơron Đồ Án Tốt Nghiệp Trang 46 5.1 Xây Dựng Phương Pháp Trích Chọn Đặc Trưng Hình Sơ đồ khối trích chọn đặc trưng dùng MFCC Tín hiệu ngõ vào thu âm matlab với tần số lấy mẫu kHz loại bỏ khoảng lặng trước đưa vào trích chọn đặc trưng Nhóm thực thu âm từ - nhiều lần để tập mẫu huấn luyện nhận dạng cho đạt kết cao Mỗi mẫu thu âm 40 lần, thành viên nhóm thu âm 20 lần 5.1.1 Pre – emphasic Để có lượng chủ yếu tiếng nói người, hệ thống lấy mẫu âm có tốc độ kHz Vì trình thu âm, tồn khoảng lặng gây ảnh hưởng đến kết nhận dạng Nên nhóm thực việc loại bỏ khoảng lặng Chương 5: Nhận Dạng Tiếng Nói Dùng MFCC Và Mạng Nơron Đồ Án Tốt Nghiệp Trang 47 0.2 0.15 0.1 0.05 -0.05 -0.1 -0.15 -0.2 2000 4000 6000 8000 10000 12000 14000 16000 Hình Tín hiệu thu âm tiếng nói 0.2 0.15 0.1 0.05 -0.05 -0.1 -0.15 -0.2 500 1000 1500 Hình 5 Tín hiệu sau loại bỏ khoảng lặng Trước thực q trình rút trích đặc trưng, tín hiệu tiếng nói đưa qua bước xử lý pre-emphasic, đó: H ( z)=1−az 9≤a≤1 Chương 5: Nhận Dạng Tiếng Nói Dùng MFCC Và Mạng Nơron (5.1) Đồ Án Tốt Nghiệp Trang 48 Giá trị a thường chọn 0.97 0.2 0.15 0.1 0.05 -0.05 -0.1 -0.15 -0.2 500 1000 1500 Hình Tín hiệu tiếng nói sau qua lọc hiệu chỉnh 5.1.2 Phân Khung (Frame Blocking) Chia liệu thành Frame nhỏ có kích thước từ 20ms tới 30ms, frame liền kề xếp chồng lên khoảng từ 10ms đến 15ms tránh thông tin Trong đề tài tín hiệu sau qua lọc hiệu chỉnh phân thành khung, khung 256 mẫu, khung lệch 100 mẫu 0.2 0.15 0.1 0.05 -0.05 -0.1 -0.15 -0.2 50 100 150 200 250 Hình Kết phân khung tín hiệu Chương 5: Nhận Dạng Tiếng Nói Dùng MFCC Và Mạng Nơron 300 Đồ Án Tốt Nghiệp Trang 49 5.1.3 Nhân Với Cửa Sổ Cửa sổ Hamming thường áp dụng cho khung tín hiệu để giảm tác động việc chia khung Cửa sổ Hamming có dạng tổng quát: với N=256 w (n)=0 54−0 46 cos πn N−1 (5.2) 0≤n≤N −1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 50 100 150 200 250 300 Hình Cửa sổ Hamming 0.2 0.15 0.1 0.05 -0.05 -0.1 -0.15 -0.2 50 100 150 200 250 Hình Tín hiệu sau nhân với hàm cửa sổ Chương 5: Nhận Dạng Tiếng Nói Dùng MFCC Và Mạng Nơron 300 Đồ Án Tốt Nghiệp Trang 50 Sử dụng cửa sổ Hamming để lấy frame, lượng frame tập trung frame, ưu điểm giá trị biên cửa sổ Hamming tiến dần làm bước biến đổi fourier sau trở nên dễ dàng 5.1.4 Biến Đổi FFT Tại bước này, với khung tín hiệu, biến đổi fourier áp dụng để chuyển miền tần số Với FFT 256 điểm 30 25 20 15 10 0 20 40 60 80 100 120 140 Hình 10 Tín hiệu sau phép biến đổi FFT 5.1.5 Mel – Frequency Wrapping Một số nghiên cứu vật lý tai người cho thấy phản ứng tai người với tín hiệu tiếng nói khơng tn theo quy luật tuyến tính tần số Vậy cách tiếp cận chủ quan, tín hiệu âm phát chuyển đổi lại cho phù hợp Lúc này, tần số Mel sử dụng Tần số Mel tuyến tính tần số kHz logarithmic tần số kHz Cơng thức Mel – frequency tính sau: Mel( f )=2595 *log ( 1+ f 700 ) Chương 5: Nhận Dạng Tiếng Nói Dùng MFCC Và Mạng Nơron (5.3) Đồ Án Tốt Nghiệp Trang 51 1.8 1.6 1.4 1.2 0.8 0.6 0.4 0.2 0 10 12 14 16 18 20 Hình 11 Mel Filter Bank 20 điểm 5.1.6 Hệ Số MFCC Sau dải âm qua dải lọc thu dải âm theo tần số Mel Lấy Logaric dải âm đầu sử dụng phép biến đổi Fourier ngược thu hệ số Cepstrum Do đầu giai đoạn số thực phép biến đổi Fourier ngược IDFT) thay phép biến đổi cosin rời rạc (DCT – Discrete Cosine Transform) Nó định nghĩa sau: MFCC = M √ M−1 ∑ S [ m ] cos m=0 ( ) ( ) πn m+ (5.4) M Trong đó: s[m] đầu lọc thứ m, M số bọc lọc, m lọc thứ m, n số đặc trưng cần rút trích Chương 5: Nhận Dạng Tiếng Nói Dùng MFCC Và Mạng Nơron Đồ Án Tốt Nghiệp Trang 52 10 -10 -20 -30 -40 -50 -60 -70 -80 10 12 14 16 18 20 Hình 12 20 Cepstrum frame liên tiếp 5.2 Ứng Dụng Mạng Nơron Vào Mơ Hình Huấn Luyện Và Nhận Dạng Tiếng Nói Trên Matlab Hình 13 Mơ hình mạng nơron Nhóm thực đồ án xây dựng mơ hình nhận dạng tiếng nói mạng nơron với kiến trúc mạng đa tầng truyền thẳng matlab với hàm newff Mạng gồm tầng ngõ vào với 20 ngõ vào tương ứng với 20 giá trị cepstrum trích chọn Chương 5: Nhận Dạng Tiếng Nói Dùng MFCC Và Mạng Nơron Đồ Án Tốt Nghiệp Trang 53 Một tầng ẩn với 100 nút mạng Tầng ngõ có 10 ngõ ứng với số cần nhận dạng từ đến Việc thực tính tốn nơron lớp ẩn lớp ngõ nhóm sử dụng hàm sigmod để đơn giản cho việc tính mạng Sử dụng hàm huấn luyện traingdx để xây dựng thuật toán Gardient descent với Momentum Adaptive learning rate Chỉ số hiệu mạng xác định hàm trung bình bình phương sai số (mse – mean square erros) đầu so với giá trị đích Bảng Các thơng số thiết kế mạng nơron Giá trị epoch lớn để net.trainParam.epochs 5000 net.trainParam.goal 0.001 net.trainParam.show 40 net.trainParam.mc 0.95 Hằng số quán tính net.performFcn mse Hàm tính hiệu suất huấn luyện Hiệu suất mong muốn đạt Nhóm xây dựng mơ hình nhận dạng mơ hình nhận dạng online mơ hình nhận dạng offline  Mơ hình nhận dạng offline: Dữ liệu huấn luyện liệu nhận dạng thu âm trước matlab Nhóm thay đổi số lượng mẫu ghi huấn luyện 10x10, 10x20 10x30 để kiểm tra chất lượng nhận dạng mạng có phụ thuộc vào số lượng mẫu huấn luyện hay không?  Kết nhận dạng offline Tiếng nói cho phần huấn luyện thu âm từ 0, 1, 2, 3, 4, 5, 6, 7, 8, từ 40 lần Thay đổi số file huấn luyện 10x10, 20x10, 30x10 Kết nhận dạng mạng nơron gồm 256 mẫu frame, chồng lấp 100 mẫu Chương 5: Nhận Dạng Tiếng Nói Dùng MFCC Và Mạng Nơron Đồ Án Tốt Nghiệp Trang 54 Bảng Kết nhận dạng Offline Số nhận dạng 10x10 10x20 10x30 60% 95% 95% 100% 100% 100% 100% 100% 100% 75% 80% 80% 65% 95% 95% 100% 100% 100% 95% 95% 95% 100% 100% 100% 100% 100% 100% 100% 100% 100% Tỉ lệ (%) 89.5% 96.5% 96.5%  Mơ hình nhận dạng online Tương tự mơ hình nhận dạng offline, tập liệu huấn luyện ghi âm matlab Mỗi mẫu huấn luyện 40 lần Nhưng liệu nhận dạng không thu âm trước mà thu âm tiến hành nhận dạng Thu âm từ 40 lần huấn luyện 10 từ để nhận dạng Ta có kết nhận dạng sau Chương 5: Nhận Dạng Tiếng Nói Dùng MFCC Và Mạng Nơron Đồ Án Tốt Nghiệp Trang 55 Bảng Kết nhận dạng Online STT               X       X                                X                    X  X            10           Tỉ lệ (%) 100 100 70 100 100 70 90 100 90 100 Kết luận: Với kết nhận dạng offline, tăng số mẫu tập huấn luyện kết nhận dạng cao Với kết nhận dạng online, kết nhận dạng mang tính ngẫu nhiên đối tương nhận dạng không cố định thời điểm thu âm cho huấn luyện nhận dạng Nó biến đổi theo tâm trạng người nói, mơi trường thu thập mẫu thiết bị sử dụng thu âm Bên cạnh đó, tập mẫu huấn luyện cịn hạn chế Nếu thực hiên việc huấn luyện với tập mẫu đa dạng hiệu suất nhận dạng đạt cao Chương 5: Nhận Dạng Tiếng Nói Dùng MFCC Và Mạng Nơron Đồ Án Tốt Nghiệp Trang 56  Kết huấn luyện mạng Hình 14 Hiệu suất mạng Việc tính tốn hiệu suất huấn luyện mạng sử dụng hàm mse Giá trị mse nhỏ mạng đạt hiệu suất cao Từ hình 5.13 thấy giá trị mse giảm dần đạt gần đến giá trị hiệu suất mong muốn mà nhóm thực đề (net.trainParam.goal =0.0001) Chương 5: Nhận Dạng Tiếng Nói Dùng MFCC Và Mạng Nơron Đồ Án Tốt Nghiệp Tài Liệu Tham Khảo Trang 57 ... Đồ Khối Trích Chọn Đặc Trưng MFCC Các bước tiến hành rút trích hệ số MFCCs – Mel Frequency Cepstral Coefficients mô tả hình 3.1 Hình Sơ đồ khối trích chọn đặc trưng MFCC Tín hiệu đầu vào sau hiệu... nói Chương 3: Phương pháp trích chọn đặc trưng MFCC Chương 4: Mạng nơron nhân tạo thuật toán lan truyền ngược Chương 5: Nhận dạng tiếng nói dùng MFCC mạng nơron nhân tạo Chương 1: Giới Thiệu Đồ... Nghiệp Trang 16 CHƯƠNG PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG MFCC 3.1 Phương Pháp Trích Chọn Đặc Trưng Của Tiếng Nói Phương pháp tính hệ số MFCC phương pháp trích chọn tham số tiếng nói sử dụng rộng

Định dạng
Số trang	66
Dung lượng	0,96 MB