(Luận văn thạc sĩ) Ứng dụng Neural network vào nhận dạng tiếng nói trên Kit Arm Cortex M3

Thông tin tài liệu

(Luận văn thạc sĩ) Ứng dụng Neural network vào nhận dạng tiếng nói trên Kit Arm Cortex M3(Luận văn thạc sĩ) Ứng dụng Neural network vào nhận dạng tiếng nói trên Kit Arm Cortex M3(Luận văn thạc sĩ) Ứng dụng Neural network vào nhận dạng tiếng nói trên Kit Arm Cortex M3(Luận văn thạc sĩ) Ứng dụng Neural network vào nhận dạng tiếng nói trên Kit Arm Cortex M3(Luận văn thạc sĩ) Ứng dụng Neural network vào nhận dạng tiếng nói trên Kit Arm Cortex M3(Luận văn thạc sĩ) Ứng dụng Neural network vào nhận dạng tiếng nói trên Kit Arm Cortex M3(Luận văn thạc sĩ) Ứng dụng Neural network vào nhận dạng tiếng nói trên Kit Arm Cortex M3(Luận văn thạc sĩ) Ứng dụng Neural network vào nhận dạng tiếng nói trên Kit Arm Cortex M3(Luận văn thạc sĩ) Ứng dụng Neural network vào nhận dạng tiếng nói trên Kit Arm Cortex M3(Luận văn thạc sĩ) Ứng dụng Neural network vào nhận dạng tiếng nói trên Kit Arm Cortex M3(Luận văn thạc sĩ) Ứng dụng Neural network vào nhận dạng tiếng nói trên Kit Arm Cortex M3(Luận văn thạc sĩ) Ứng dụng Neural network vào nhận dạng tiếng nói trên Kit Arm Cortex M3(Luận văn thạc sĩ) Ứng dụng Neural network vào nhận dạng tiếng nói trên Kit Arm Cortex M3(Luận văn thạc sĩ) Ứng dụng Neural network vào nhận dạng tiếng nói trên Kit Arm Cortex M3(Luận văn thạc sĩ) Ứng dụng Neural network vào nhận dạng tiếng nói trên Kit Arm Cortex M3

Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tp Hồ Chí Minh, ngày 14 tháng 09 năm 2013 (Ký tên ghi rõ họ tên) LÊ HOÀNG HÂN ii HVTH: LÊ HỒNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG LỜI CẢM ƠN Tơi xin chân thành cảm ơn gia đình tôi, đặc biệc cha mẹ tạo điều kiện cho ăn học ngày hơm Chính họ nguồn động viên lớn ủng hộ tơi, giúp đỡ tơi suốt q trình học tập việc thực chuyên đề Tôi xin chân thành cám ơn thầy hướng dẫn PGS TS LÊ TIẾN THƯỜNG trường Đại học Bách Khoa Tp Hồ Chí Minh tận tình dạy, hướng dẫn, đóng góp nhiều ý kiến quý báu suốt trình thực luận văn Tơi xin chân thành cám ơn thầy cô khoa Điện - Điện Tử nói riêng thầy trường Đại Học Sư Phạm Kỹ Thuật Tp Hồ Chí Minh tạo cho môi trường học tập thật tuyệt vời tạo điều kiện cho tơi hồn thành luận văn Xin cám ơn tất bạn học viên đóng góp ý kiến giúp đỡ tơi hồn thành luận văn Người thực luận văn LÊ HOÀNG HÂN iii HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG TÓM TẮT Ngay phát minh máy tính, người mơ ước máy tính nói chuyện với u cầu đơn giản máy xác định từ ngữ mà nói với máy Đó mục tiêu ngành nhận dạng tiếng nói Đối với người, việc nghe, nghe tiếng mẹ đẻ vấn đề đơn giản Còn máy tính, xác định chuỗi tín hiệu âm phát âm từ hoàn toàn khơng đơn giản, khó khăn việc học nghe ngoại ngữ Lĩnh vực nhận dạng tiếng nói nghiên cứu thập kỉ có số thành cơng Có thể kể đến hệ thống nhận dạng tiếng Anh (ví dụ: phần mềm Via Voice IBM, hệ thống nhận dạng tiếng nói tích hợp OfficeXP…) Các hệ thống hoạt động tốt (cho độ xác khoảng 90 - 95%) xa đạt đến mức mơ ước chúng ta: có hệ thống nghe xác hiểu hồn tồn điều ta nói Riêng với tiếng Việt, lĩnh vực nhận dạng tiếng nói cịn mẻ Chưa thấy xuất phần mềm nhận dạng tiếng Việt hoàn chỉnh thị trường Số cơng trình nghiên cứu nhận dạng tiếng nói tiếng Việt cơng bố hoi, kết hạn chế từ vựng, độ xác… Tiếng Việt có nhiều đặc tính khác với ngôn ngữ nghiên cứu nhận dạng nhiều tiếng Anh, tiếng Pháp Do việc nghiên cứu nhận dạng tiếng Việt cần thiết Bên cạnh đó, việc triển khai hệ thống nhận dạng tiếng nói phần cứng Việt Nam cịn nhiều hạn chế, khả nhận dạng phụ thuộc vào người nói Vì lí trên, tơi chọn đề tài “ứng dụng neural network vào nhận dạng tiếng nói KIT ARM Cortex-M3”, nhằm nghiên cứu phương pháp nhận dạng tiếng nói tiếng Việt thử nghiệm xây dựng hệ thống nhận dạng cỡ nhỏ.Việc nhận dạng thực thi KIT STM32F103ZET6 hãng ST, với từ vựng gồm từ đơn (tiến, lùi, trái, phải, dừng) với kết nhận dạng có độ xác khoảng 80% điều kiện bình thường Từ khóa: Hiden Markov Model, Neural Netwoks, Hydrid ANN/HMM, MFCC methods, FFT algorithm, K-mean algorithm, STM32F10x KIT iv HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG ABSTRACT The purpose with this final master degree project was to develop a speech recognition tool, to make the technology accessible The development includes an extensive study of Artifactial Neural Network, which is currently the state of the art in the field of speech recognition A speech recognizer is a complex machine developed with the purpose to understand human speech In real life this speech recognition technology might be used to get a gain in traffic security or facilitate for people with functional disability The technology can also be applied to many other areas However in a real environment there exist disturbances that might influence the performance of the speech recognizer The report includes an performance evaluation in different noise situations, in a robot environment The result shows that the recognition rate varies from 90%, in a noise free environment, to 80% in a more noisy environment v HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG MỤC LỤC LÝ LỊCH KHOA HỌC i LỜI CAM ĐOAN ii LỜI CẢM ƠN iii TÓM TẮT .iv MỤC LỤC vi DANH SÁCH CÁC HÌNH viii DANH SÁCH CÁC BẢNG ix DANH SÁCH CÁC CHỮ VIẾT TẮT x Chương TỔNG QUAN .1 1.1 Tổng quan nhận dạng tiếng nói, tình hình nghiên cứu ngồi nước 1.1.1 Nhận dạng tiếng nói 1.1.2 Tổng quan tình hình nghiên cứu 1.2 Mục đích nghiên cứu 1.3 Nhiệm vụ giới hạn đề tài 1.3.1 Nhiệm vụ 1.3.2 Giới hạn 1.4 Phương pháp nghiên cứu 1.4.1 Ý tưởng nhận dạng tiếng nói tiếng Việt sử dụng mạng Neural Networks 1.4.2 Các công việc phải làm 1.4.3 Các công cụ cần cho nghiên cứu .8 1.5 Nội dung luận văn Chương CƠ SỞ LÝ THUYẾT 10 2.1 Đặc trưng tiếng Việt (1) 10 2.1.1 Âm tiết đặc điểm âm tiết tiếng Việt 10 2.1.2 Âm vị hệ thống âm vị tiếng Việt 11 2.2 Phương pháp phân tích hệ số MFCC .14 2.2.1 Tiền xử lý .14 2.2.2 Tạo khung cửa sổ hóa tín hiệu 18 2.2.3 Trích đặc trưng .20 2.2.4 Hậu xử lý .26 2.3 Neural Networks 26 2.3.1 Mơ hình Neural Network .27 2.3.2 Sử dụng neural network nhận dạng mẫu 32 2.4 Mơ hình Markov ẩn: 33 vi HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG 2.5 Giải pháp toán học cho ba toán mơ hình Markov ẩn: 36 2.5.1 Bài toán 1: 36 2.5.2 Bài toán 2: 38 2.5.3 Bài toán 3: 39 Chương THIẾT KẾ HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRÊN KIT ARM CORTEX-M3 43 3.1 Tổng quan KIT STM32F103ZET6 .43 3.1.1 Giới thiệu xử lý ARM Cortex-M3 43 3.1.2 Kế hoạch thiết kế phần mềm 46 3.1.3 Cấu hình KIT STM32F103ZET6 .47 3.2 Thiết kế hệ thống nhận dạng tiếng nói KIT STM32F103ZET6 .53 3.2.1 Trích đặc trưng .55 3.2.2 Lượng tử hóa vector .58 3.2.3 Huấn luyện ANN 62 3.2.4 Nhận dạng mơ hình ANN kết hợp với HMM .63 3.2.5 Kết thử nghiệm phần cứng .65 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 68 4.1 Kết luận 68 4.2 Nhận xét 68 4.3 Hạn chế đề tài: 69 4.4 Hướng phát triển đề tài 69 TÀI LIỆU THAM KHẢO .70 vii HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG DANH SÁCH CÁC HÌNH Hình Sơ đồ tiêu chí khu biệt cho sáu âm vị điệu 13 Hình 2 Lăng trụ điệu .13 Hình Biểu đồ điệu 14 Hình Sơ đồ giải thuật phương pháp phân tích thơng tin tiếng nói 14 Hình Tiền xử lý tín hiệu 15 Hình Phân tích khoảng lặng tiếng nói .16 Hình Tách tiếng nói khỏi khoảng im lặng theo VAD 17 Hình Từ tiếng nói có khoảng im lặng tách thành tiếng nói khơng có khoảng lặng .18 Hình Frame blocking Windowing 18 Hình 10 Chia khung chuỗi tín hiệu 19 Hình 11 Cửa sổ Hamming với hệ số α khác .19 Hình 12 Tín hiệu tiếng nói sau cửa sổ hóa so với ban đầu .20 Hình 13 Các bước thực MFCC 20 Hình 14 Phổ Fourier tín hiệu gốc tín hiệu cửa sổ hóa 21 Hình 15 Băng lọc tam giác melscale miền tần số .22 Hình 16 Tính hệ số delta 24 Hình 17 Quá trình rút trích đặc trưng .25 Hình 18 Các bước hậu xử lý tín hiệu 26 Hình 19 Mơ hình Neural Network perceptron 27 Hình 20 Mơ hình mạng perceptron lớp (MLP) .28 Hình 21 Mơ hình nhận dạng cấu nhận dạng dựa theo xác suất phân lớp 32 Hình 22 Ví dụ mơ hình Markov ẩn sáu trạng thái 34 Hình 23 Mơ tả dãy phép tốn thực để tính αt(i) 37 Hình 24 Mơ tả dãy phép tốn thực để tính biến βt(i) 38 Hình Giản đồ kế hoạch thiết kế phần mềm 46 Hình Hồn chỉnh kế hoạch thử nghiệm 46 Hình 3 Bộ KIT STM32F103ZET6 47 Hình Thiết lập chế độ boot từ System Memory chip 50 Hình Thiết lập kết nối 50 Hình Thơng tin Flash sau kết nối với chip thành công 51 Hình Thơng tin chip .51 Hình Giao diện thơng tin flash phiên Flash Loader Demonstrator v1.2 .52 Hình Nạp chương trình xuống flash 52 Hình 10 Hồn tất nạp chương trình 53 Hình 11 Sơ đồ khối mơ hình huấn luyện nhận dạng từ đơn 54 Hình 12 Lưu đồ giải thuật thực tách tiếng nói khỏi khoảng lặng .55 Hình 13 Lưu đồ giải thuật thực phân tích hệ số đặc trưng .56 Hình 14 Minh họa lượng tử hóa vector 62 Hình 15 Lưu đồ giải thuật huấn luyện ANN 63 Hình 16 Lưu đồ giải thuật nhận dạng từ đơn sử dụng ANN 64 Hình 17 Minh họa phân tích liệu tiếng nói thành hệ số đặc trưng để sử dụng cho huấn luyện hệ thống nhận dạng 65 Hình 18 Kết nhận dạng từ “TIẾN” 67 viii HVTH: LÊ HỒNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG DANH SÁCH CÁC BẢNG Bảng 1: Bảng hệ thống âm đầu tiếng Việt .12 Bảng 2: Bảng hệ thống nguyên âm tiếng Việt 12 Bảng 3: Bảng hệ thống âm cuối tiếng Việt .13 Bảng Kết thử nghiệm cho nhóm hệ thống học mẫu 66 Bảng Kết thử nghiệm cho nhóm mạo danh 66 Bảng 3 Kết thử nghiệm nhận dạng từ KIT STM32F103ZET6 67 ix HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG DANH SÁCH CÁC CHỮ VIẾT TẮT Thuật ngữ Artifactial Neural Network Fast Fourier Transform Dicrette Cosine Transform Hidden Markov Model Linear predictive code Mel-scale Frequency Cepstral Coefficient Multi Layer Perceptron Speech Recognition Bias Pattern Recognition Likelihood Similarity Feature Spectral, spectrum Từ viết tắt ANN FFT DCT HMM LPC Ý nghĩa Mạng nơron nhân tạo Biến đổi Fourier nhanh Biến đổi cosin rời rạc Mơ hình Markov ẩn Hế số dự đốn tuyến tính MFCC Hệ số cepstral độ đo mel MLP SR,ASR Mạng perceptron truyền thẳng nhiều lớp Nhận dạng tiếng nói Ngưỡng kích hoạt Nhận dạng mẫu Mức độ giống Mức độ tương tự Đặc trưng Phổ tín hiệu x HVTH: LÊ HỒNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG Chương TỔNG QUAN 1.1 Tổng quan nhận dạng tiếng nói, tình hình nghiên cứu ngồi nước 1.1.1 Nhận dạng tiếng nói Nhận dạng tiếng nói bao gồm nhận dạng âm tiết rời rạc, liên tục, nhận dạng người nói, ngơn ngữ nói cao cấp nhận dạng trạng thái tâm lý người nói Có nhiều ứng dụng nhận dạng tiếng nói đời sống xã hội xác nhận thông tin (liên quan đến security), dịch tự động, hệ thống phone banking, voice mail,… Tuy nhiên mà người cố gắng nghiên cứu máy tính giao tiếp với người thơng qua tiếng nói Nhận dạng tiếng nói lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing), tức nhận dạng tiếng nói phụ thuộc vào ngơn ngữ nói Do ngơn ngữ nhận dạng tiếng Việt khác so với tiếng Anh thứ tiếng khác Một ví dụ đơn giản để hình dung, sử dụng engine nhận dạng tiếng Anh có sẵn (bao gồm software speech engine Microsoft Office hay hardware số vi mạch xử lý tiếng nói bán thị trường) hiệu tiếng Việt thấp Một số phân biệt chuẩn, chuẫn, chn,…(vì tiếng Việt có điệu - tonal language, cịn tiếng Anh khơng), nhận dạng tiếng Việt người Việt làm Nhận dạng tổng hợp tiếng nói khơng thể dựa mức xử lý thấp (signal processing) mà phải kết hợp xử lý thông tin mức cao cao tri thức Nhận dạng tiếng nói q trình nhận dạng mẫu, với mục đích phân lớp (classify) thơng tin đầu vào tín hiệu tiếng nói thành dãy mẫu học trước lưu trữ nhớ Các mẫu đơn vị nhận dạng, chúng từ, âm vị Nếu mẫu bất biến khơng thay đổi cơng việc nhận dạng tiếng nói trở nên đơn giản cách so sánh liệu tiếng nói cần nhận dạng với mẫu học lưu trữ nhớ Khó khăn nhận dạng tiếng nói tiếng nói ln biến thiên theo thời gian có khác biệt lớn tiếng nói người nói khác nhau, tốc độ nói, ngữ cảnh môi trường Chương Tổng quan HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG temp=f[i].x; f[i].x=f[j].x; f[j].x=temp; temp=f[i].y; f[i].y=f[j].y; f[j].y=temp; } // if m=numPoints >> 1; while( (j >= m) && (m >= 2) ) { j-=m; m>>=1; } // while j+=m; } // for } // ScrAmble //************************************************** void ButterFlies(long numPoints,int logN,int dir, struct _complex *f) { double angle; _complex w,wp,temp; long i,j,k,offset; long N, halfN; double wtemp; N=1; for(k=0;k < logN;k++) { halfN=N; N •, quay lại bước (i) (L) ∗ vi Đặt 9stV − 9stV Cho i = 1, 2, …, N, đặt =∗ = = (L) Với codevector cuối Lặp lại bước thu số lượng codebook mong muốn Hình 14 Minh họa lượng tử hóa vector 3.2.3 Huấn luyện ANN Thu thập tiền xử lí tín hiệu tiếng nói giai đoạn huấn luyện thực phương pháp thủ công: sử dụng phần mềm ghi âm, lọc nhiễu cắt thành từ riêng rẽ [6] Bộ liệu xây dựng gồm: • 500 tập liệu 12 bit 8kHz, tập phát âm từ • từ “tiến”, “lùi”, “trái”, “phải”, “dừng” • 50 người nói Bộ liệu huấn luyện gồm từ chia thành 26 lớp (“t” thuộc lớp 1, “i” thuộc lớp 2, “e” thuộc lớp 3, “e” thuộc lớp 4, “s” thuộc lớp 5, “n” thuộc lớp 6, “l” thuộc lớp 7, “u” thuộc lớp 8, “f” thuộc lớp 9, “i” thuộc lớp 10, “t” thuộc lớp 11, “r” thuộc lớp 12, “a” thuộc lớp 13, “s” thuộc lớp 14, “i” thuộc lớp 15, “p” thuộc lớp 16, “h” thuộc lớp 17, “a” thuộc lớp 18, “r” thuộc lớp 19, “i” thuộc lớp 20, “d” thuộc lớp 21, “u” thuộc lớp 22, “w” thuộc lớp 23, “f” thuộc lớp 24, “n” thuộc lớp 25, “g” thuộc lớp 26 Các liệu tiếp tục chia làm phần: phần dành cho huấn luyện phần để kiểm tra Chương Thiết kế hệ thống nhận dạng tiêng nói KIT ARM Cortex-M3 62 HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG Hình 15 Lưu đồ giải thuật huấn luyện ANN 3.2.4 Nhận dạng mơ hình ANN kết hợp với HMM Vì tín hiệu tiếng nói có độ dài ngắn khác nên dãy vector đặc trưng MFCC tương ứng khơng có số phần tử Nhưng đầu vào MLP lại phải cố định Do phải thực lượng tử hóa vector đặc trưng MFCC cách đưa qua Neural Network Kết đầu vào Neural Network vector 39 thành phần Đầu mong muốn liệu nhận dạng xác định đơn giản: vector 26 thành phần (ứng với 26 lớp mẫu) Nếu thành phần tương ứng có liệu huấn Chương Thiết kế hệ thống nhận dạng tiêng nói KIT ARM Cortex-M3 63 HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG luyện thuộc lớp k, thành phần thứ k vector có xác suất lớn nhất, thành phần cịn lại có xác suất nhỏ Từ đó, ta chọn giá trị lượng tử k để tính xác suất mà k xuất [6] Hình 16 Lưu đồ giải thuật nhận dạng từ đơn sử dụng ANN − Sau vector đặc trưng hệ số đặc trưng lượng tử vector để chuyển thành chuỗi quan sát O Chương Thiết kế hệ thống nhận dạng tiêng nói KIT ARM Cortex-M3 64 HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG − Sau có chuỗi quan sát O từ cần nhận dạng, ta tiến hành đọc lần mơ hình HMM từ huấn luyện trước tính xác suất chuỗi quan sát O vừa tạo mơ hình HMM − Trên sở xác suất chuỗi quan sát O mơ hình HMM huấn luyện, ta lựa chọn xác suất có giá trị lớn chuỗi quan sát O ứng với mơ hình 3.2.5 Kết thử nghiệm phần cứng Tập liệu tiếng nói thu âm từ 50 người nói khác nhau, thuộc miền Nam, gồm nam lẫn nữ (40 nam, 10 nữ) Dữ liệu tiếng nói lấy mẫu mức 8000Hz, 12 bit từ KIT đưa lên máy tính Tập liệu tổ chức thành nhóm: 40 người hệ thống học mẫu (registered speakers) 10 người đóng vai trị người mạo danh (impostors/unknown speakers) Dữ liệu tiếng nói từ người nhóm hệ thống học mẫu phân tích thành vector đặc trưng có kích thước 39xFrame, Frame số khung liệu tiếng nói, số khung khơng giống theo thời gian theo người nói Tập hợp tất vector đặc trưng lại thực lượng tử hóa để tạo codebook Như vậy, với codebook vector đặc trưng tham số để thực huấn luyện mơ hình nhận dạng kiểm tra hiệu suất mơ hình Riêng nhóm mạo danh, khơng cần liệu huấn luyện nên tạo vector đặc trưng (không sử dụng công đoạn lượng tử hóa huấn luyện); đó, nhóm sử dụng để kiểm tra tính hiệu mơ hình Hình 17 Minh họa phân tích liệu tiếng nói thành hệ số đặc trưng để sử dụng cho huấn luyện hệ thống nhận dạng Chương Thiết kế hệ thống nhận dạng tiêng nói KIT ARM Cortex-M3 65 HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG Như vậy, từ tập liệu ban đầu, ta chia thành tập con: − Tập huấn luyện: gồm 40 người, người có mẫu Tổng cộng 400 mẫu − Tập kiểm tra: gồm 50 người (40 registered speakers 10 unknown speakers), người có mẫu Tổng cộng 500 mẫu Tập huấn luyện dùng để huấn luyện mơ hình tập kiểm tra dùng để khảo sát tham số đánh giá hiệu hệ thống Tất công đoạn thực máy tính kiểm tra, mơ phần mềm MATLAB Kết thử nghiệm nhận dạng từ phần mềm MATLAB cho nhóm người mà hệ thống có học mẫu điều kiện bình thường tổng hợp bảng sau: Bảng Kết thử nghiệm cho nhóm hệ thống học mẫu Tỉ lệ nhận dạng xác Tỉ lệ nhận dạng nhầm Tỉ lệ không nhận dạng TIẾN 97,5% 2,5% 0,0% TỪ NHẬN DẠNG LÙI TRÁI PHẢI 92,5% 92,5% 95,0% 7,5% 7,5% 5,0% 0,0% 0,0% 0,0% DỪNG 92,5% 7,5% 0,0% Bảng Kết thử nghiệm cho nhóm mạo danh Tỉ lệ nhận dạng xác Tỉ lệ nhận dạng nhầm Tỉ lệ không nhận dạng TỪ NHẬN DẠNG TIẾN LÙI TRÁI PHẢI 80,0% 90,0% 90,0% 80,0% 20,0% 0,0% 10,0% 0,0% 0,0% 10,0% 0,0% 20,0% DỪNG 80,0% 0,0% 20,0% Nhìn chung kết nhận dạng xác cao Tuy nhiên, vấn đề thu mẫu, huấn luyện mẫu triển khai KIT STM32F103ZET6 mang tính khả thi khơng cao số lý sau: − Hạn chế nhớ − Hạn chế tốc độ Do đó, để đạt hiệu cao thời gian huấn luyện ANN, đặc biệt huấn luyện với số lượng mẫu lớn, không bị hạn chế không gian lưu trữ, xử lý liệu ta thực cơng đoạn huấn luyện tạo codebook máy tính phần mềm MATLAB Sau đó, ta triển khai hệ thống nhận dạng KIT STM32F103ZET6 Chương Thiết kế hệ thống nhận dạng tiêng nói KIT ARM Cortex-M3 66 HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG theo thông số ANN huấn luyện codebook lượng tử hóa Như vây, theo phương pháp ta giải hai vấn đề lớn q trình thi cơng hệ thống nhận dạng tiếng nói KIT STM32F103ZET6 cho kết nhận dạng tương đối tốt điều kiện bình thường Hình 18 Kết nhận dạng từ “TIẾN” Tiếp theo bảng tổng hợp kết nhận dạng tiếng nói người khác KIT STM32F103ZET6, có người nằm nhóm hệ thống học mẫu người mạo danh Mỗi người thử nghiệm 20 lần cho từ điều kiện bình thường, kết xét theo hiệu suất nhận dạng từ xác Bảng 3 Kết thử nghiệm nhận dạng từ KIT STM32F103ZET6 TIẾN Người thứ (hệ thống học mẫu) 85,0% Người thứ (mạo danh) 80,0% Người thứ (mạo danh) 75,0% TỪ NHẬN DẠNG LÙI TRÁI PHẢI 85,0% 80,0% 80,0% 80,0% 75,0% 75,0% 80,0% 75,0% 75,0% DỪNG 85,0% 80,0% 75,0% Như vậy, với codebook có từ hệ thống KIT STM32F103ZET6 cho kết nhân dạng xác khoảng gần 80% thời gian nhận dạng cho từ chưa đầy giây Đây kết chấp nhận triển khai hệ thống nhận dạng tiếng nói phần cứng Chương Thiết kế hệ thống nhận dạng tiêng nói KIT ARM Cortex-M3 67 HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 4.1 Kết luận Đề tài khai thác số tính KIT STM32F103ZET6 hãng ST triển khai xây dựng chương trình nhận dạng tiếng nói KIT STM32F103ZET6 cụ thể sau: − Đề tài ứng dụng ADC 12-bit để lấy mẫu tín âm lưu trữ, lưu trữ liệu huấn luyện lên nhớ SRAM có kit KIT STM32F103ZET6 để phục vụ cho trình nhận dạng, lấy mẫu liệu từ nguồn khác thơng qua máy tính để phục vụ cho q trình huấn luyện mơ hình − Xây dựng hệ thống nhận dạng tiếng nói để nhận dạng tiếng nói tiếng Việt với số từ nhận dạng từ đơn: “trái”, “phải”, “tiến” “lùi”, “dừng” − Số mẫu tối đa cho từ để huấn luyện 40 lần, kết nhận dạng mô hình đọc 20 lần, tỉ lệ nhận dạng từ khoảng 80% 4.2 Nhận xét − Mặc dù kết nhận dạng từ không mạng huấn luyện trước khơng cao Nhưng kết chấp nhận điều kiện thiết bị thu âm chưa tốt điều kiện phòng thu âm chưa đạt yêu cầu Để nâng cao kết nhiều kỹ thuật cần nghiên cứu tiếp Ví dụ, tăng thêm nút ẩn, lớp ẩn Tuy nhiên, độ phức tạp tính tốn tăng − Tuy số trường hợp nhận dạng sai khơng nhận dạng cịn tồn số hạn chế như: chưa có sở tiếng nói tiếng Việt đủ lớn, chương trình tiến hành KIT có nhớ chưa đủ lớn tốc độ chưa cao, chưa có thiết bị thu âm chuẩn…, tức có nhiều thơng số chưa lựa chọn tối ưu Vì vậy, ta hồn tồn nâng cao độ xác hệ thống nhận dạng thêm − Phương pháp áp dụng để nhận dạng từ đơn Chương Kết luận hướng phát triển 68 HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG 4.3 Hạn chế đề tài: − Chương trình nhận dạng chưa nhận dạng từ ghép, chưa nhận dạng câu nói liên tục − Chương trình dừng lại mức độ nhận dạng từ đơn 4.4 Hướng phát triển đề tài − Phương hướng nghiên cứu phát triển đề tài là: xây dựng sở liệu mẫu đủ lớn So sánh với kết phương pháp kinh điển truyền thống Thử mở rộng phong phú cấu trúc mạng Tiến hành thực nghiệm KIT khác mạnh hơn, kết hợp phương pháp sử dụng Neural Network với giải thuật di truyền số phương pháp đại việc nhận dạng tiếng nói nhằm nâng cao kết nhận dạng − Đi sâu thêm tăng số lượng từ vựng nhận dạng, kết hợp với phân tích ngữ pháp để nhận dạng câu tiếng nói tiếng Việt đơn giản có độ xác cao − Kết hợp giải thuật RASTA xử lý tín hiệu để nâng cao hiệu suất nhận dạng Chương Kết luận hướng phát triển 69 HVTH: LÊ HỒNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG TÀI LIỆU THAM KHẢO [1] Vũ Hải Quân, Nghiên cứu, Xây dựng hệ thống VoiceServer ứng dụng cho dịch vụ trả lời tự động qua điện thoại, Thuyết trình đề tài nghiên cứu khoa học, Đại học quốc gia Hồ Chí Minh, 2010 – 2012 [2] TS Nguyễn Như Hiền, TS Lại Khắc Lãi, Hệ mờ & Nơron kỹ thuật điều khiển, NXB Khoa học tự nhiên công nghệ Hà Nội, 2007 [3] Lawrence Rabiner – Biing – Hwan Juang, Fundamentals of speech recognition, Prentice-Hall International, 1993 [4] John Holmes, Wendy Holmes, Speech synthesis and recognition 2nd edition, British Library [5] Bian Wu, Xiaolin Ren, Chongqing Liu, Yaxin Zhang, A Robust, Real-Time Voice Activity Detection Algorithm for Embedded Mobile Devices, International Journal Of Speech Technology 8, 2005, page 133–146 [6] Hervé Bourlard, Nelson Morgan, Connectionist speech recognition a hybrid approach, Kluwer Academic Publishers, ISBN 0-7923-9396-1, 1994, page 21 – 151 [7] Ben J Shannon, Kuldip K Paliwal, A Comparative Study of Filter Bank Spacing for Speech Recognition, Microelectronic Engineering Research Conference, 2003 [8] Deller John R., Jr., Hansen John J.L., Proakis John G., Discrete-Time Processing of Speech Signals, IEEE Press, ISBN 0-7803-5386-2 Và trang web: http://vi.wikipedia.org/wiki/M%C3%B4_h%C3%ACnh_Markov_%E1%BA %A9n http://vi.wikipedia.org/wiki/M%E1%BA%A1ng_n%C6%A1-ron http://arm.vn/TinChiTiet/tabid/105/id/110/Default.aspx http://ngonngu.net/index.php?p=60 Tài liệu tham khảo 70 HVTH: LÊ HOÀNG HÂN ... nhận dạng tiếng nói phần cứng Việt Nam nhiều hạn chế, khả nhận dạng phụ thuộc vào người nói Vì lí trên, tơi chọn đề tài ? ?ứng dụng neural network vào nhận dạng tiếng nói KIT ARM Cortex- M3? ??, nhằm... nhận dạng tiếng nói, tình hình nghiên cứu ngồi nước 1.1.1 Nhận dạng tiếng nói Nhận dạng tiếng nói bao gồm nhận dạng âm tiết rời rạc, liên tục, nhận dạng người nói, ngơn ngữ nói cao cấp nhận dạng. .. nhiều lớp Nhận dạng tiếng nói Ngưỡng kích hoạt Nhận dạng mẫu Mức độ giống Mức độ tương tự Đặc trưng Phổ tín hiệu x HVTH: LÊ HỒNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex- M3 GVHD:

Ngày đăng: 16/12/2022, 19:23

Xem thêm: