(Luận văn thạc sĩ hcmute) ứng dụng neural network vào nhận dạng tiếng nói trên kit arm cortex m3

84 4 0
(Luận văn thạc sĩ hcmute) ứng dụng neural network vào nhận dạng tiếng nói trên kit arm cortex   m3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ LÊ HOÀNG HÂN ỨNG DỤNG NEURAL NETWORK VÀO NHẬN DẠNG TIẾNG NÓI TRÊN KIT ARM CORTEX-M3 NGÀNH: KỸ THUẬT ĐIỆN TỬ- 605270 S KC 0 Tp Hồ Chí Minh, tháng 10 năm 2013 Luan van BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ LÊ HOÀNG HÂN ỨNG DỤNG NEURAL NETWORK VÀO NHẬN DẠNG TIẾNG NÓI TRÊN KIT ARM CORTEX-M3 NGÀNH: KỸ THUẬT ĐIỆN TỬ- 605270 Hướng dẫn khoa học: PGS.TS LÊ TIẾN THƯỜNG Tp Hồ Chí Minh, tháng 10 / 2013 Luan van Luan van Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG LÝ LỊCH KHOA HỌC I LÝ LỊCH SƠ LƯỢC: Họ & tên: LÊ HỒNG HÂN Giới tính: Nam Ngày, tháng, năm sinh: 05/11/1984 Nơi sinh: Tiền Giang Quê quán: Tiền Giang Dân tộc: Kinh Chỗ riêng địa liên lạc: Số 8/9 – đường Phan Đình Giót – Kp Đơng B – Tx Dĩ An – tỉnh Bình Dương Điện thoại quan: (0650).3774647 Điện thoại nhà riêng: 0984161405 Fax: (0650) 3774573 E-mail: lehoanghan.dap@gmail.com II QUÁ TRÌNH ĐÀO TẠO Trung học chuyên nghiệp: Hệ đào tạo: Thời gian đào tạo từ ……/…… đến ……/ …… Nơi học (trường, thành phố): Ngành học: Đại học: Hệ đào tạo: Chính Quy Thời gian đào tạo từ 08/2003 đến 03/2008 Nơi học (trường, thành phố): Trường Đại Học Sư Phạm Kỹ Thuật Tp.HCM Ngành học: Kỹ Thuật Điện – Điện Tử Tên đồ án, luận án môn thi tốt nghiệp: ĐIỀU KHIỂN ROBOT BẰNG GIỌNG NÓI Ngày & nơi bảo vệ đồ án, luận án thi tốt nghiệp: 20/01/2008 – Trường Đại Học Sư Phạm Kỹ Thuật Tp.HCM Người hướng dẫn: PGS.TS HỒ ĐẮC LỘC III Q TRÌNH CƠNG TÁC CHUN MƠN KỂ TỪ KHI TỐT NGHIỆP ĐẠI HỌC: Thời gian Nơi công tác Cơng việc đảm nhiệm Kỹ sư lập trình hệ thống 03/2008 – 08/2008 Công ty TNHH Micro Design nhúng Trường Cao Đẳng Nghề Công Giảng viên môn Điện Tử 08/2008 – đến Nghệ Cao Đồng An Công Nghiệp i Luan van HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu tơi Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tp Hồ Chí Minh, ngày 14 tháng 09 năm 2013 (Ký tên ghi rõ họ tên) LÊ HOÀNG HÂN ii Luan van HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG LỜI CẢM ƠN Tơi xin chân thành cảm ơn gia đình tôi, đặc biệc cha mẹ tạo điều kiện cho ăn học ngày hôm Chính họ nguồn động viên lớn ủng hộ tơi, giúp đỡ tơi suốt q trình học tập việc thực chuyên đề Tôi xin chân thành cám ơn thầy hướng dẫn PGS TS LÊ TIẾN THƯỜNG trường Đại học Bách Khoa Tp Hồ Chí Minh tận tình dạy, hướng dẫn, đóng góp nhiều ý kiến q báu suốt q trình thực luận văn Tôi xin chân thành cám ơn thầy khoa Điện - Điện Tử nói riêng thầy cô trường Đại Học Sư Phạm Kỹ Thuật Tp Hồ Chí Minh tạo cho tơi môi trường học tập thật tuyệt vời tạo điều kiện cho tơi hồn thành luận văn Xin cám ơn tất bạn học viên đóng góp ý kiến giúp đỡ tơi hoàn thành luận văn Người thực luận văn LÊ HOÀNG HÂN iii Luan van HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG TÓM TẮT Ngay phát minh máy tính, người mơ ước máy tính nói chuyện với u cầu đơn giản máy xác định từ ngữ mà nói với máy Đó mục tiêu ngành nhận dạng tiếng nói Đối với người, việc nghe, nghe tiếng mẹ đẻ vấn đề đơn giản Còn máy tính, xác định chuỗi tín hiệu âm phát âm từ hoàn tồn khơng đơn giản, khó khăn việc học nghe ngoại ngữ Lĩnh vực nhận dạng tiếng nói nghiên cứu thập kỉ có số thành cơng Có thể kể đến hệ thống nhận dạng tiếng Anh (ví dụ: phần mềm Via Voice IBM, hệ thống nhận dạng tiếng nói tích hợp OfficeXP…) Các hệ thống hoạt động tốt (cho độ xác khoảng 90 - 95%) xa đạt đến mức mơ ước chúng ta: có hệ thống nghe xác hiểu hồn tồn điều ta nói Riêng với tiếng Việt, lĩnh vực nhận dạng tiếng nói cịn mẻ Chưa thấy xuất phần mềm nhận dạng tiếng Việt hoàn chỉnh thị trường Số cơng trình nghiên cứu nhận dạng tiếng nói tiếng Việt cơng bố hoi, kết hạn chế từ vựng, độ xác… Tiếng Việt có nhiều đặc tính khác với ngơn ngữ nghiên cứu nhận dạng nhiều tiếng Anh, tiếng Pháp Do việc nghiên cứu nhận dạng tiếng Việt cần thiết Bên cạnh đó, việc triển khai hệ thống nhận dạng tiếng nói phần cứng Việt Nam nhiều hạn chế, khả nhận dạng phụ thuộc vào người nói Vì lí trên, chọn đề tài “ứng dụng neural network vào nhận dạng tiếng nói KIT ARM Cortex-M3”, nhằm nghiên cứu phương pháp nhận dạng tiếng nói tiếng Việt thử nghiệm xây dựng hệ thống nhận dạng cỡ nhỏ.Việc nhận dạng thực thi KIT STM32F103ZET6 hãng ST, với từ vựng gồm từ đơn (tiến, lùi, trái, phải, dừng) với kết nhận dạng có độ xác khoảng 80% điều kiện bình thường Từ khóa: Hiden Markov Model, Neural Netwoks, Hydrid ANN/HMM, MFCC methods, FFT algorithm, K-mean algorithm, STM32F10x KIT iv Luan van HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG ABSTRACT The purpose with this final master degree project was to develop a speech recognition tool, to make the technology accessible The development includes an extensive study of Artifactial Neural Network, which is currently the state of the art in the field of speech recognition A speech recognizer is a complex machine developed with the purpose to understand human speech In real life this speech recognition technology might be used to get a gain in traffic security or facilitate for people with functional disability The technology can also be applied to many other areas However in a real environment there exist disturbances that might influence the performance of the speech recognizer The report includes an performance evaluation in different noise situations, in a robot environment The result shows that the recognition rate varies from 90%, in a noise free environment, to 80% in a more noisy environment v Luan van HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG MỤC LỤC LÝ LỊCH KHOA HỌC i LỜI CAM ĐOAN ii LỜI CẢM ƠN iii TÓM TẮT .iv MỤC LỤC vi DANH SÁCH CÁC HÌNH viii DANH SÁCH CÁC BẢNG ix DANH SÁCH CÁC CHỮ VIẾT TẮT x Chương TỔNG QUAN .1 1.1 Tổng quan nhận dạng tiếng nói, tình hình nghiên cứu ngồi nước 1.1.1 Nhận dạng tiếng nói 1.1.2 Tổng quan tình hình nghiên cứu 1.2 Mục đích nghiên cứu 1.3 Nhiệm vụ giới hạn đề tài 1.3.1 Nhiệm vụ 1.3.2 Giới hạn 1.4 Phương pháp nghiên cứu 1.4.1 Ý tưởng nhận dạng tiếng nói tiếng Việt sử dụng mạng Neural Networks 1.4.2 Các công việc phải làm 1.4.3 Các công cụ cần cho nghiên cứu .8 1.5 Nội dung luận văn Chương CƠ SỞ LÝ THUYẾT 10 2.1 Đặc trưng tiếng Việt (1) 10 2.1.1 Âm tiết đặc điểm âm tiết tiếng Việt 10 2.1.2 Âm vị hệ thống âm vị tiếng Việt 11 2.2 Phương pháp phân tích hệ số MFCC .14 2.2.1 Tiền xử lý .14 2.2.2 Tạo khung cửa sổ hóa tín hiệu 18 2.2.3 Trích đặc trưng .20 2.2.4 Hậu xử lý .26 2.3 Neural Networks 26 2.3.1 Mơ hình Neural Network .27 2.3.2 Sử dụng neural network nhận dạng mẫu 32 2.4 Mơ hình Markov ẩn: 33 vi Luan van HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG 2.5 Giải pháp toán học cho ba toán mơ hình Markov ẩn: 36 2.5.1 Bài tốn 1: 36 2.5.2 Bài toán 2: 38 2.5.3 Bài toán 3: 39 Chương THIẾT KẾ HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRÊN KIT ARM CORTEX-M3 43 3.1 Tổng quan KIT STM32F103ZET6 .43 3.1.1 Giới thiệu xử lý ARM Cortex-M3 43 3.1.2 Kế hoạch thiết kế phần mềm 46 3.1.3 Cấu hình KIT STM32F103ZET6 .47 3.2 Thiết kế hệ thống nhận dạng tiếng nói KIT STM32F103ZET6 .53 3.2.1 Trích đặc trưng .55 3.2.2 Lượng tử hóa vector .58 3.2.3 Huấn luyện ANN 62 3.2.4 Nhận dạng mơ hình ANN kết hợp với HMM .63 3.2.5 Kết thử nghiệm phần cứng .65 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 68 4.1 Kết luận 68 4.2 Nhận xét 68 4.3 Hạn chế đề tài: 69 4.4 Hướng phát triển đề tài 69 TÀI LIỆU THAM KHẢO .70 vii Luan van HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG temp=f[i].x; f[i].x=f[j].x; f[j].x=temp; temp=f[i].y; f[i].y=f[j].y; f[j].y=temp; } // if m=numPoints >> 1; while( (j >= m) && (m >= 2) ) { j-=m; m>>=1; } // while j+=m; } // for } // ScrAmble //************************************************** void ButterFlies(long numPoints,int logN,int dir, struct _complex *f) { double angle; _complex w,wp,temp; long i,j,k,offset; long N, halfN; double wtemp; N=1; for(k=0;k < logN;k++) { halfN=N; N •, quay lại bước (i) (L) ∗ vi Đặt 9stV − 9stV Cho i = 1, 2, …, N, đặt =∗ = = (L) Với codevector cuối Lặp lại bước thu số lượng codebook mong muốn Hình 14 Minh họa lượng tử hóa vector 3.2.3 Huấn luyện ANN Thu thập tiền xử lí tín hiệu tiếng nói giai đoạn huấn luyện thực phương pháp thủ công: sử dụng phần mềm ghi âm, lọc nhiễu cắt thành từ riêng rẽ [6] Bộ liệu xây dựng gồm: • 500 tập liệu 12 bit 8kHz, tập phát âm từ • từ “tiến”, “lùi”, “trái”, “phải”, “dừng” • 50 người nói Bộ liệu huấn luyện gồm từ chia thành 26 lớp (“t” thuộc lớp 1, “i” thuộc lớp 2, “e” thuộc lớp 3, “e” thuộc lớp 4, “s” thuộc lớp 5, “n” thuộc lớp 6, “l” thuộc lớp 7, “u” thuộc lớp 8, “f” thuộc lớp 9, “i” thuộc lớp 10, “t” thuộc lớp 11, “r” thuộc lớp 12, “a” thuộc lớp 13, “s” thuộc lớp 14, “i” thuộc lớp 15, “p” thuộc lớp 16, “h” thuộc lớp 17, “a” thuộc lớp 18, “r” thuộc lớp 19, “i” thuộc lớp 20, “d” thuộc lớp 21, “u” thuộc lớp 22, “w” thuộc lớp 23, “f” thuộc lớp 24, “n” thuộc lớp 25, “g” thuộc lớp 26 Các liệu tiếp tục chia làm phần: phần dành cho huấn luyện phần để kiểm tra Chương Thiết kế hệ thống nhận dạng tiêng nói KIT ARM Cortex-M3 62 Luan van HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG Hình 15 Lưu đồ giải thuật huấn luyện ANN 3.2.4 Nhận dạng mơ hình ANN kết hợp với HMM Vì tín hiệu tiếng nói có độ dài ngắn khác nên dãy vector đặc trưng MFCC tương ứng số phần tử Nhưng đầu vào MLP lại phải cố định Do phải thực lượng tử hóa vector đặc trưng MFCC cách đưa qua Neural Network Kết đầu vào Neural Network vector 39 thành phần Đầu mong muốn liệu nhận dạng xác định đơn giản: vector 26 thành phần (ứng với 26 lớp mẫu) Nếu thành phần tương ứng có liệu huấn Chương Thiết kế hệ thống nhận dạng tiêng nói KIT ARM Cortex-M3 63 Luan van HVTH: LÊ HỒNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG luyện thuộc lớp k, thành phần thứ k vector có xác suất lớn nhất, thành phần cịn lại có xác suất nhỏ Từ đó, ta chọn giá trị lượng tử k để tính xác suất mà k xuất [6] Hình 16 Lưu đồ giải thuật nhận dạng từ đơn sử dụng ANN − Sau vector đặc trưng hệ số đặc trưng lượng tử vector để chuyển thành chuỗi quan sát O Chương Thiết kế hệ thống nhận dạng tiêng nói KIT ARM Cortex-M3 64 Luan van HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG − Sau có chuỗi quan sát O từ cần nhận dạng, ta tiến hành đọc lần mơ hình HMM từ huấn luyện trước tính xác suất chuỗi quan sát O vừa tạo mơ hình HMM − Trên sở xác suất chuỗi quan sát O mơ hình HMM huấn luyện, ta lựa chọn xác suất có giá trị lớn chuỗi quan sát O ứng với mơ hình 3.2.5 Kết thử nghiệm phần cứng Tập liệu tiếng nói thu âm từ 50 người nói khác nhau, thuộc miền Nam, gồm nam lẫn nữ (40 nam, 10 nữ) Dữ liệu tiếng nói lấy mẫu mức 8000Hz, 12 bit từ KIT đưa lên máy tính Tập liệu tổ chức thành nhóm: 40 người hệ thống học mẫu (registered speakers) 10 người đóng vai trị người mạo danh (impostors/unknown speakers) Dữ liệu tiếng nói từ người nhóm hệ thống học mẫu phân tích thành vector đặc trưng có kích thước 39xFrame, Frame số khung liệu tiếng nói, số khung khơng giống theo thời gian theo người nói Tập hợp tất vector đặc trưng lại thực lượng tử hóa để tạo codebook Như vậy, với codebook vector đặc trưng tham số để thực huấn luyện mơ hình nhận dạng kiểm tra hiệu suất mơ hình Riêng nhóm mạo danh, khơng cần liệu huấn luyện nên tạo vector đặc trưng (không sử dụng công đoạn lượng tử hóa huấn luyện); đó, nhóm sử dụng để kiểm tra tính hiệu mơ hình Hình 17 Minh họa phân tích liệu tiếng nói thành hệ số đặc trưng để sử dụng cho huấn luyện hệ thống nhận dạng Chương Thiết kế hệ thống nhận dạng tiêng nói KIT ARM Cortex-M3 65 Luan van HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG Như vậy, từ tập liệu ban đầu, ta chia thành tập con: − Tập huấn luyện: gồm 40 người, người có mẫu Tổng cộng 400 mẫu − Tập kiểm tra: gồm 50 người (40 registered speakers 10 unknown speakers), người có mẫu Tổng cộng 500 mẫu Tập huấn luyện dùng để huấn luyện mô hình tập kiểm tra dùng để khảo sát tham số đánh giá hiệu hệ thống Tất công đoạn thực máy tính kiểm tra, mơ phần mềm MATLAB Kết thử nghiệm nhận dạng từ phần mềm MATLAB cho nhóm người mà hệ thống có học mẫu điều kiện bình thường tổng hợp bảng sau: Bảng Kết thử nghiệm cho nhóm hệ thống học mẫu Tỉ lệ nhận dạng xác Tỉ lệ nhận dạng nhầm Tỉ lệ không nhận dạng TIẾN 97,5% 2,5% 0,0% TỪ NHẬN DẠNG LÙI TRÁI PHẢI 92,5% 92,5% 95,0% 7,5% 7,5% 5,0% 0,0% 0,0% 0,0% DỪNG 92,5% 7,5% 0,0% Bảng Kết thử nghiệm cho nhóm mạo danh Tỉ lệ nhận dạng xác Tỉ lệ nhận dạng nhầm Tỉ lệ không nhận dạng TỪ NHẬN DẠNG TIẾN LÙI TRÁI PHẢI 80,0% 90,0% 90,0% 80,0% 20,0% 0,0% 10,0% 0,0% 0,0% 10,0% 0,0% 20,0% DỪNG 80,0% 0,0% 20,0% Nhìn chung kết nhận dạng xác cao Tuy nhiên, vấn đề thu mẫu, huấn luyện mẫu triển khai KIT STM32F103ZET6 mang tính khả thi khơng cao số lý sau: − Hạn chế nhớ − Hạn chế tốc độ Do đó, để đạt hiệu cao thời gian huấn luyện ANN, đặc biệt huấn luyện với số lượng mẫu lớn, không bị hạn chế không gian lưu trữ, xử lý liệu ta thực cơng đoạn huấn luyện tạo codebook máy tính phần mềm MATLAB Sau đó, ta triển khai hệ thống nhận dạng KIT STM32F103ZET6 Chương Thiết kế hệ thống nhận dạng tiêng nói KIT ARM Cortex-M3 66 Luan van HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG theo thông số ANN huấn luyện codebook lượng tử hóa Như vây, theo phương pháp ta giải hai vấn đề lớn q trình thi cơng hệ thống nhận dạng tiếng nói KIT STM32F103ZET6 cho kết nhận dạng tương đối tốt điều kiện bình thường Hình 18 Kết nhận dạng từ “TIẾN” Tiếp theo bảng tổng hợp kết nhận dạng tiếng nói người khác KIT STM32F103ZET6, có người nằm nhóm hệ thống học mẫu người mạo danh Mỗi người thử nghiệm 20 lần cho từ điều kiện bình thường, kết xét theo hiệu suất nhận dạng từ xác Bảng 3 Kết thử nghiệm nhận dạng từ KIT STM32F103ZET6 TIẾN Người thứ (hệ thống học mẫu) 85,0% Người thứ (mạo danh) 80,0% Người thứ (mạo danh) 75,0% TỪ NHẬN DẠNG LÙI TRÁI PHẢI 85,0% 80,0% 80,0% 80,0% 75,0% 75,0% 80,0% 75,0% 75,0% DỪNG 85,0% 80,0% 75,0% Như vậy, với codebook có từ hệ thống KIT STM32F103ZET6 cho kết nhân dạng xác khoảng gần 80% thời gian nhận dạng cho từ chưa đầy giây Đây kết chấp nhận triển khai hệ thống nhận dạng tiếng nói phần cứng Chương Thiết kế hệ thống nhận dạng tiêng nói KIT ARM Cortex-M3 67 Luan van HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 4.1 Kết luận Đề tài khai thác số tính KIT STM32F103ZET6 hãng ST triển khai xây dựng chương trình nhận dạng tiếng nói KIT STM32F103ZET6 cụ thể sau: − Đề tài ứng dụng ADC 12-bit để lấy mẫu tín âm lưu trữ, lưu trữ liệu huấn luyện lên nhớ SRAM có kit KIT STM32F103ZET6 để phục vụ cho trình nhận dạng, lấy mẫu liệu từ nguồn khác thơng qua máy tính để phục vụ cho q trình huấn luyện mơ hình − Xây dựng hệ thống nhận dạng tiếng nói để nhận dạng tiếng nói tiếng Việt với số từ nhận dạng từ đơn: “trái”, “phải”, “tiến” “lùi”, “dừng” − Số mẫu tối đa cho từ để huấn luyện 40 lần, kết nhận dạng mơ hình đọc 20 lần, tỉ lệ nhận dạng từ khoảng 80% 4.2 Nhận xét − Mặc dù kết nhận dạng từ không mạng huấn luyện trước không cao Nhưng kết chấp nhận điều kiện thiết bị thu âm chưa tốt điều kiện phòng thu âm chưa đạt yêu cầu Để nâng cao kết nhiều kỹ thuật cần nghiên cứu tiếp Ví dụ, tăng thêm nút ẩn, lớp ẩn Tuy nhiên, độ phức tạp tính tốn tăng − Tuy số trường hợp nhận dạng sai không nhận dạng tồn số hạn chế như: chưa có sở tiếng nói tiếng Việt đủ lớn, chương trình tiến hành KIT có nhớ chưa đủ lớn tốc độ chưa cao, chưa có thiết bị thu âm chuẩn…, tức có nhiều thơng số chưa lựa chọn tối ưu Vì vậy, ta hồn tồn nâng cao độ xác hệ thống nhận dạng thêm − Phương pháp áp dụng để nhận dạng từ đơn Chương Kết luận hướng phát triển 68 Luan van HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG 4.3 Hạn chế đề tài: − Chương trình nhận dạng chưa nhận dạng từ ghép, chưa nhận dạng câu nói liên tục − Chương trình dừng lại mức độ nhận dạng từ đơn 4.4 Hướng phát triển đề tài − Phương hướng nghiên cứu phát triển đề tài là: xây dựng sở liệu mẫu đủ lớn So sánh với kết phương pháp kinh điển truyền thống Thử mở rộng phong phú cấu trúc mạng Tiến hành thực nghiệm KIT khác mạnh hơn, kết hợp phương pháp sử dụng Neural Network với giải thuật di truyền số phương pháp đại việc nhận dạng tiếng nói nhằm nâng cao kết nhận dạng − Đi sâu thêm tăng số lượng từ vựng nhận dạng, kết hợp với phân tích ngữ pháp để nhận dạng câu tiếng nói tiếng Việt đơn giản có độ xác cao − Kết hợp giải thuật RASTA xử lý tín hiệu để nâng cao hiệu suất nhận dạng Chương Kết luận hướng phát triển 69 Luan van HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex-M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG TÀI LIỆU THAM KHẢO [1] Vũ Hải Quân, Nghiên cứu, Xây dựng hệ thống VoiceServer ứng dụng cho dịch vụ trả lời tự động qua điện thoại, Thuyết trình đề tài nghiên cứu khoa học, Đại học quốc gia Hồ Chí Minh, 2010 – 2012 [2] TS Nguyễn Như Hiền, TS Lại Khắc Lãi, Hệ mờ & Nơron kỹ thuật điều khiển, NXB Khoa học tự nhiên công nghệ Hà Nội, 2007 [3] Lawrence Rabiner – Biing – Hwan Juang, Fundamentals of speech recognition, Prentice-Hall International, 1993 [4] John Holmes, Wendy Holmes, Speech synthesis and recognition 2nd edition, British Library [5] Bian Wu, Xiaolin Ren, Chongqing Liu, Yaxin Zhang, A Robust, Real-Time Voice Activity Detection Algorithm for Embedded Mobile Devices, International Journal Of Speech Technology 8, 2005, page 133–146 [6] Hervé Bourlard, Nelson Morgan, Connectionist speech recognition a hybrid approach, Kluwer Academic Publishers, ISBN 0-7923-9396-1, 1994, page 21 – 151 [7] Ben J Shannon, Kuldip K Paliwal, A Comparative Study of Filter Bank Spacing for Speech Recognition, Microelectronic Engineering Research Conference, 2003 [8] Deller John R., Jr., Hansen John J.L., Proakis John G., Discrete-Time Processing of Speech Signals, IEEE Press, ISBN 0-7803-5386-2 Và trang web: http://vi.wikipedia.org/wiki/M%C3%B4_h%C3%ACnh_Markov_%E1%BA %A9n http://vi.wikipedia.org/wiki/M%E1%BA%A1ng_n%C6%A1-ron http://arm.vn/TinChiTiet/tabid/105/id/110/Default.aspx http://ngonngu.net/index.php?p=60 Tài liệu tham khảo 70 Luan van HVTH: LÊ HOÀNG HÂN Luan van ... nhận dạng tiếng nói phần cứng Việt Nam cịn nhiều hạn chế, khả nhận dạng phụ thuộc vào người nói Vì lí trên, tơi chọn đề tài ? ?ứng dụng neural network vào nhận dạng tiếng nói KIT ARM Cortex- M3? ??, nhằm... nhận dạng tiếng nói, tình hình nghiên cứu ngồi nước 1.1.1 Nhận dạng tiếng nói Nhận dạng tiếng nói bao gồm nhận dạng âm tiết rời rạc, liên tục, nhận dạng người nói, ngơn ngữ nói cao cấp nhận dạng. .. lớp Nhận dạng tiếng nói Ngưỡng kích hoạt Nhận dạng mẫu Mức độ giống Mức độ tương tự Đặc trưng Phổ tín hiệu x Luan van HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói KIT ARM Cortex- M3 GVHD:

Ngày đăng: 02/02/2023, 10:03

Tài liệu cùng người dùng

Tài liệu liên quan