Hcmute kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN THÀNH CHUNG KỸ THUẬT NHẬN DẠNG TIẾNG NĨI THÀNH LỆNH ỨNG DỤNG TRONG CƠNG NGHIỆP NGÀNH: KỸ THUẬT ĐIỆN TỬ - 605270 S K C0 4 Tp Hồ Chí Minh, tháng 10/2014 Luan van BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN THÀNH CHUNG KỸ THUẬT NHẬN DẠNG TIẾNG NĨI THÀNH LỆNH ỨNG DỤNG TRONG CƠNG NGHIỆP NGÀNH: KỸ THUẬT ĐIỆN TỬ- 605270 Tp Hồ Chí Minh, tháng 10/2014 Luan van BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN THÀNH CHUNG KỸ THUẬT NHẬN DẠNG TIẾNG NĨI THÀNH LỆNH ỨNG DỤNG TRONG CƠNG NGHIỆP NGÀNH: KỸ THUẬT ĐIỆN TỬ- 605270 Hướng dẫn khoa học: PGS.TS TRẦN THU HÀ Tp Hồ Chí Minh, tháng 10/2014 Luan van Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ LÝ LỊCH KHOA HỌC I LÝ LỊCH SƠ LƢỢC: Họ & tên: NGUYỄN THÀNH CHUNG Giới tính: Nam Ngày, tháng, năm sinh: 10/12/1984 Nơi sinh: Nghệ An Quê quán: Nghệ An Dân tộc: Kinh Chỗ riêng địa liên lạc: Số nhà 36/25 – đƣờng Số – Kp – Q Thủ Đức – tỉnh TP.Hồ Chí Minh Điện thoại quan: Điện thoại nhà riêng: 0918444230 Fax: E-mail:songxuan1012@yahoo.com II QUÁ TRÌNH ĐÀO TẠO Trung học chuyên nghiệp: Hệ đào tạo: Nghề bậc 4/7 Thời gian đào tạo từ 10/ 2002 đến 10 /2004 Nơi học (trƣờng, thành phố): Trƣờng trung tâm dạy nghể kỹ thuật cao thuộc trƣờng Đại Học Dân Lập Kỹ Thuật Cơng Nghệ TP.Hồ Chí Minh Ngành học: Điện Tử Đại học: Hệ đào tạo: Chính Quy Thời gian đào tạo từ10/2005đến 7/2009 Nơi học (trƣờng, thành phố): Trƣờng Đại Học Sƣ Phạm Kỹ Thuật Tp.HCM Ngành học: Kỹ Thuật Điện – Điện Tử Tên đồ án, luận án môn thi tốt nghiệp: ĐIỀU KHIỂN VÀ GIÁM SÁT DÂY CHUYỀN SẢN XUẤT THỨC ĂN GIA SÚC Ngày & nơi bảo vệ đồ án, luận án thi tốt nghiệp: 19/07/2009 – Trƣờng Đại Học Sƣ Phạm Kỹ Thuật Tp.HCM Ngƣời hƣớng dẫn: ThS NGUYỄN TẤN ĐỜI III QUÁ TRÌNH CÔNG TÁC CHUYÊN MÔN KỂ TỪ KHI TỐT NGHIỆP ĐẠI HỌC: Thời gian Nơi công tác Công việc đảm nhiệm 10/2009 – 08/2010 08/2010 – đến Công ty TNHH Xn Phát Ở nhà Kỹ sƣ bảo trì Cơng việc tự i Luan van HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu Các số liệu, kết nêu luận văn trung thực chƣa đƣợc công bố cơng trình khác Tp Hồ Chí Minh, ngày tháng 10 năm 2014 (Ký tên ghi rõ họ tên) NGUYỄN THÀNH CHUNG ii Luan van HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ LỜI CẢM ƠN Tôi xin chân thành cảm ơn gia đình tơi, đặc biệc cha mẹ tạo điều kiện cho ăn học ngày hơm Chính họ nguồn động viên lớn ủng hộ tôi, giúp đỡ suốt trình học tập nhƣ việc thực luận văn Tôi xin chân thành cám ơn cô hƣớng dẫn PGS TS TRẦN THU HÀ trƣờng Đại học Kỹ Thuật Tp Hồ Chí Minh tận tình dạy, hƣớng dẫn, đóng góp nhiều ý kiến quý báu suốt q trình thực luận văn Tơi xin chân thành cám ơn thầy cô khoa Điện - Điện Tử nói riêng thầy trƣờng Đại Học Sƣ Phạm Kỹ Thuật Tp Hồ Chí Minh tạo cho môi trƣờng học tập thật tuyệt vời tạo điều kiện cho hoàn thành luận văn Xin cám ơn tất bạn học viên anh chị đóng góp ý kiến giúp đỡ tơi hồn thành luận văn Ngƣời thực luận văn NGUYỄN THÀNH CHUNG iii Luan van HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ TÓM TẮT Ngay phát minh máy tính, ngƣời mơ ƣớc máy tính nói chuyện với u cầu đơn giản máy xác định đƣợc từ ngữ mà nói với máy Đó mục tiêu ngành nhận dạng tiếng nói Đối với ngƣời, việc nghe, nghe tiếng mẹ đẻ vấn đề đơn giản Còn máy tính, xác định chuỗi tín hiệu âm phát âm từ hoàn toàn khơng đơn giản, khó khăn nhƣ việc học nghe ngoại ngữ Lĩnh vực nhận dạng tiếng nói đƣợc nghiên cứu thập kỉ có số thành cơng Có thể kể đến hệ thống nhận dạng tiếng Anh (ví dụ: phần mềm Via Voice IBM, hệ thống nhận dạng tiếng nói tích hợp OfficeXP…) Các hệ thống hoạt động tốt (cho độ xác khoảng 90 - 95%) nhƣng xa đạt đến mức mơ ƣớc chúng ta: có hệ thống nghe xác hiểu hồn tồn điều ta nói Riêng với tiếng Việt, lĩnh vực nhận dạng tiếng nói cịn mẻ Chƣa thấy xuất phần mềm nhận dạng tiếng Việt hoàn chỉnh thị trƣờng Số cơng trình nghiên cứu nhận dạng tiếng nói tiếng Việt đƣợc cơng bố hoi, kết hạn chế từ vựng, độ xác… Tiếng Việt có nhiều đặc tính khác với ngôn ngữ đãđƣợc nghiên cứu nhận dạng nhiều nhƣ tiếng Anh, tiếng Pháp Do việc nghiên cứu nhận dạng tiếng Việt cần thiết Bên cạnh đó, việc triển khai hệ thống nhận dạng tiếng nói phần cứng Việt Nam cịn nhiều hạn chế, khả nhận dạng phụ thuộc vào ngƣời nói Nhận dạng tiếng Việt ứng dụng để làm lệnh điều khiển lĩnh vực mẻ Vì lí trên, tơi chọn đề tài “Nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp”, nhằm nghiên cứu phƣơng pháp nhận dạng tiếng nói tiếng Việt thử nghiệm xây dựng hệ thống nhận dạng cỡ nhỏ.Việc nhận dạng đƣợc thực thi máy tính điều khiển thông qua Board Arduino Mega 2560, với từ vựng gồm từ đơn (vui, buồn, mệt, giận, hiền) với kết nhận dạng có độ xác khoảng 90% điều kiện bình thƣờng Từ khóa:Hiden Markov Model, Neural Netwoks, Hydrid ANN/HMM, MFCC methods, FFT algorithm, K-meanalgorithm, Board Arduino Mega 2560 iv Luan van HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ ABSTRACT The purpose with this final master degree project was to develop a speech recognitiontool, to make the technology accessible The development includes anextensive study of Hidden Markov Model, which is currently the state of the artin the field of speech recognition A speech recognizer is a complex machine developedwith the purpose to understand human speech In real life this speechrecognition technology might be used to get a gain in traffic security or facilitatefor people with functional disability The technology can also be applied to manyother areas However in a real environment there exist disturbances that mightinfluence the performance of the speech recognizer The report includes an performanceevaluation in different noise situations, in a robot environment The resultshows that the recognition rate varies from 92%, in a noise free environment, to90% in a more noisy environment v Luan van HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ MỤC LỤC LÝ LỊCH KHOA HỌC i LỜI CAM ĐOAN ii LỜI CẢM ƠN iii TÓM TẮT .iv MỤC LỤC vi DANH SÁCH CÁC HÌNH .ix DANH SÁCH CÁC BẢNG xi DANH SÁCH CÁC CHỮ VIẾT TẮT xii Chƣơng TỔNG QUAN 1.1.Tổng quan nhận dạng tiếng nói, tình hình nghiên cứu ngồi nƣớc 1.1.1.Nhận dạng tiếng nói 1.1.2.Tổng quan tình hình nghiên cứu 1.2.Mục tiêu đối tƣợng nghiên cứu đề tài 1.2.1.Mục tiêu 1.2.2.Đối tƣợng nghiên cứu 1.3.Nhiệm vụ giới hạn đề tài 1.3.1.Nhiệm vụ 1.3.2.Giới hạn 1.4.Phƣơng pháp nghiên cứu 1.5.Nội dung luận văn .7 1.6.Ý nghĩa thực tiễn đề tài Chƣơng ĐẶC TRƢNG TIẾNG NÓI TIẾNG VIỆT 2.1.TỔNG QUAN VỀ TIẾNG NÓI 2.2.Các đặc trƣng Tiếng Việt 2.2.1.Âm tiết 2.2.2.Âm vị 11 2.2.3.Nguyên âm phụ âm 11 2.2.4.Thanh điệu 12 Chƣơng MƠ HÌNH NHẬN DẠNG TIẾNG NĨI TIẾNG VIỆT 13 3.1 Phân loại hệ thống nhận dạng tiếng nói 13 3.1.1 Nhận dạng từ liên tục nhận dạng từ cách biệt 13 3.1.2 Nhận dạng phụ thuộc ngƣời nói độc lập ngƣời nói 13 3.2 Các yếu tố ảnh hƣởng đến kết nhận dạng tiếng nói : .15 3.3 Cấu trúc hệ nhận dạng tiếng nói: 16 3.4 Giải thuật hệ thống nhận dạng tiếng nói tiếng Việt dùng Markov ẩn: 17 vi Luan van HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ 3.5 Voice Acivation Detection (VAD): 18 3.6.Phƣơng pháp phân tích hệ số MFCC .19 3.6.1 Tiền xử lý 19 3.6.2 Tạo khung cửa sổ hóa tín hiệu 23 3.6.3 Trích đặc trƣng 25 3.6.4 Hậu xử lý 31 3.7 Lƣợng tử vector: 32 3.7.1 Tổng quan lƣợng tử vector (VQ): 32 3.7.2 Cấu trúc tập huấn luyện VQ: 33 3.7.3 Đo độ méo: 34 3.7.4 Phân nhóm vector huấn luyện: 34 Chƣơng 4: MƠ HÌNH MARKOV ẨN HMM 36 4.1 Quá trình Markov: 36 4.2 Mơ hình Markov ẩn: 38 4.3 Giải pháp toán học cho ba toán mơ hình Markov ẩn: 41 4.3.1 Bài toán 1: 41 4.3.2 Bài toán 2: 44 4.3.3 Bài toán 3: 45 4.4 Các loại mơ hình Markov ẩn: 49 Chƣơng 5: THIẾT KẾ PHẦN CỨNG VÀ MẠCH ĐIỀU KHIỂN ROBOT 50 5.1 Tổng quan phần cứng hệ thống : 50 5.2 Lựa chọn thiết bị: 52 5.2.1 Động cơ: 52 5.2.2 Board Arduino Mega 2560: 54 Chƣơng 6: THIẾT KẾ HỆ THỐNG NHẬN DẠNG VÀ PHẦN MỀM GIAO DIỆN NHẬN DẠNG .66 6.1.Thiết kế hệ thống nhận dạng tiếng nói máy tính 66 6.1.1.Trích đặc trƣng 67 6.1.2.Lƣợng tử hóa vector 71 6.1.3.Huấn luyện HMM 75 6.1.4.Nhận dạng mơ hình HMM 76 6.2.Thiết kế phần mềm giao diện nhận dạng 78 6.3 Kết thử nghiệm phần mềm nhận dạng 79 vii Luan van HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ Thiết kế thuật toán LBG Thuật toán LBG thuật toán đệ quy, việc giải dựa vào lựachọn hai tiêu chuẩn tối ƣu Thuật toán yêu cầu codebook ban đầuC(0) Đây codebook khởi tạo, thu đƣợc qua trình phân tách Trongphƣơng thức này, codebook đƣợc đặt giá trị trung bình tồn dãyhuấn luyện Codevector đƣợc phân tách thành hai Thuật toán lặp đƣợcchạy với hai vector đƣợc khởi tạo cho codebook Hai codebook sau đƣợcphân thành bốn trình xử lý đƣợc lặp lại thu đƣợc số lƣợngcodebook mong muốn Thuật toán đƣợc tổng kết nhƣ sau: Thiết kế thuật toán LBG: Cho T ε>0 số lƣợng nhỏ có giá trị cố định Đặt N=1 𝑐1∗ = 𝑀 𝑀 𝑥𝑚 𝑚 =1 Tính ∗ 𝐷𝑎𝑣𝑒 = 𝑀𝑘 𝑀 𝑥𝑚 − 𝑐1∗ 𝑚 =1 Phân tách: Cho i = 1, 2, …, N, đặt: (0) 𝑐𝑖 = (1 + 𝜀)𝑐𝑖∗ (0) 𝑐𝑁+1 = (1 + 𝜀)𝑐𝑖∗ Đặt N = 2N (0) ∗ Lặp lại thuật toán: Đặt 𝐷𝑎𝑣𝑒 = 𝐷𝑎𝑣𝑒 Đặt số lặp i = i Cho m = 1, 2, …, M, Tìm giá trị nhỏ : (𝑖) 𝑥𝑚 − 𝑐𝑛 với n = 1, 2, …, N Với n* số nhỏ thu đƣợc xét Đặt : (𝑖) 𝑄(𝑥𝑚 ) = 𝑐𝑛 ∗ ii Cho n = 1, 2, …,N, Cập nhật lại codevector (𝑖+1) 𝑐𝑛 (𝑖) = 𝑄(𝑥 𝑚 ) =𝑐𝑛 𝑋𝑚 (𝑖) 𝑄(𝑥 𝑚 ) =𝑐𝑛 iii Đặt i = i+1 Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng 74 Luan van HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ iv Tính (𝑖) 𝐷𝑎𝑣𝑒 (𝑖−1) 𝑖 = 𝑀𝑘 (𝑖−1) v Nếu 𝐷𝑎𝑣𝑒 − 𝐷𝑎𝑣𝑒 /𝐷𝑎𝑣𝑒 𝑀 𝑥𝑚 − 𝑄(𝑥𝑚 ) 𝑚 =1 > 𝜀, quay lại bƣớc (i) 𝑖 ∗ vi Đặt 𝐷𝑎𝑣𝑒 − 𝐷𝑎𝑣𝑒 Cho i = 1, 2, …, N, (𝑖) 𝑐𝑛∗ = 𝑐𝑛 Là giá trị cuối codevector Lặp lại bƣớc thu đƣợc số lƣợng codebookmong muốn Hình 6.4:Minh họa lƣợng tử hóa vector 6.1.3 Huấn luyện HMM Thu thập tiền xử lí tín hiệu tiếng nói giai đoạn huấn luyện đƣợc thực phƣơng pháp thủ công: sử dụng phần mềm ghi âm, lọc nhiễu cắt thành từ riêng rẽ [6] Bộ liệu xây dựng gồm:  500tập liệu 16 bit 8kHz, tập phát âm từ  từ “vui”, “buồn”, “hiền”, “giận”, “mệt”  50 ngƣời nói Các liệu đƣợc tiếp tục chia làm phần: phần dành cho huấn luyện phần để kiểm tra Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng 75 Luan van HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ Bắt đầu Ghi âm từ cần huấn luyện, từ nói nhiều lần Trích đặc trƣng MFCC 256 từ Kết hợp tất đặc trƣng từ tạo thành tập liệu huấn luyện Lƣợng tử vector tập liệu huấn luyện để tạo codebook Gán nhãn cho từ Khởi tạo HMM cho từ Huấn luyện HMM cho từ Kết thúc Hình 6.5:Lƣu đồ giải thuật huấn luyện HMM 6.1.4 Nhận dạng mô hình HMM Vì tín hiệu tiếng nói có độ dài ngắn khác nên dãy vector đặc trƣng MFCC tƣơng ứng khơng có số phần tử Nhƣng đầu vào MLP lại phải cố định.Do phải thực lƣợng tử hóa vector đặc trƣng MFCC cách đƣa qua mơ hình Markov Kết đầu vào mơ hình Markov vector 39 thành phần.Đầu mong muốncủa liệu nhận dạng đƣợc xácđịnh cách, tính xác suất chuỗi quan sát mơ hình từ Sau chọn xác suất lớn Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng 76 Luan van HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ chuỗi quan sát ứng với mơ hình từ Khi ta tìm đƣợc số từ cần đƣợc nhận dạng [6] Start Start Tách Tách từ từ khỏi khỏi khoảng khoảng lặng, lặng, xử xử lý lý nhiễu nhiễu Tín hiệu tiếng nói s(n) Trích Trích đặc đặc trƣng trƣng Các vector đặc trƣng {y1, y2, …, yT} Lƣợng Lƣợng tử tử hóa hóa vector vector M M11 Tính Tính xác xác suất suất M M22 Tính Tính xác xác suất suất P(y|M1) M MRR Tính Tính xác xác suất suất P(y|MR) P(y|M1) Chuỗi vector quan sát y = {y1, y2, …, yT} Xác Xác định định xác xác suất suất lớn lớn nhất End End Chỉ số từ đƣợc nhận dạng i*=argmax[P(y|M1)] i Hình 6.6:Lƣu đồ giải thuật nhận dạng từ đơn sử dụng HMM Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng 77 Luan van HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ  Sau vector đặc trƣng hệ số đặc trƣng đƣợc lƣợng tử vector để chuyển thành chuỗi quan sát O  Sau có đƣợc chuỗi quan sát O từ cần nhận dạng, ta tiến hành đọc lần đƣợc mơ hình HMM từ đƣợc huấn luyện trƣớc tính xác suất chuỗi quan sát O vừa đƣợc tạo mơ hình HMM  Trên sở xác suất chuỗi quan sát O mơ hình HMM đƣợc huấn luyện, ta lựa chọn xác suất có giá trị lớn chuỗi quan sát O ứng với mơ hình 6.2 Thiết kế phần mềm giao diện nhận dạng Giao diện nhận dạng giọng nói máy tính đƣợc thiết kế GUI phần mềm MATLAB.Sau thiết kế giao diện có hình dạng nhƣ hình 6.7 Hình 6.7:Giao diện nhận dạng tiếng nói Trong giao diện có nút điều khiển nút Training, nút Voice Recognition, nút Clear nút Close, có text dùng để hiển thị từ đƣợc nhận dạng cịn lại thể hình ảnh robot đƣợc nhận dạng Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng 78 Luan van HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ Các bƣớc tiến hành mô nhận dạng đƣợc thực nhƣ sau: Bƣớc 1: nhấn vào nút Training để bắt đầu huấn luyện cho mơ hình nhận dạng, sau huấn luyện thành cơng lên chữ Training Finish ô text thị chữ Bƣớc 2: nhấn vào nút Voice Recognition bắt đầu đọc từ nhận dạng từ Micro, thu tiếng nói vịng giây nên đọc từ khoảng thời gian Từ đƣợc nhận dạng đƣợc thị ô text thị chữ , đồng thời text hình ảnh hình ảnh robot thể cảm xúc tƣơng ứng với từ đƣợc nhận dạng Bƣớc 3: Để đọc từ khác ta nhấn nút Clear sau lặp lại bƣớc Muốn khỏi chƣơng trình ta nhấn nút Close 6.3 Kết thử nghiệm phần mềm nhận dạng Tập liệu tiếng nói đƣợc thu âm từ 50 ngƣời nói khác nhau, thuộc miền Nam, gồm nam lẫn nữ (40 nam, 10nữ) Dữ liệu tiếng nói đƣợc lấymẫu mức 8000Hz, 16bit đọc trực tiếp máy tính phần mềm Matlab Tập liệu đƣợc tổ chức thành nhóm: 40 ngƣời đƣợc hệ thống học mẫu(registered speakers) 10 ngƣời đóng vai trị ngƣời mạo danh (impostors/unknownspeakers) Dữ liệu tiếng nói từ ngƣời nhóm hệ thống học mẫu đƣợc phân tích thành vector đặc trƣng có kích thƣớc 39xFrame, Frame số khung liệu tiếng nói, số khung không giống theo thời gian theo ngƣời nói Tập hợp tất vector đặc trƣng lại thực lƣợng tử hóa để tạo codebook Nhƣ vậy, với codebook vector đặc trƣng tham số để thực huấn luyện mơ hình nhận dạng kiểm tra hiệu suất mơ hình Riêng nhóm mạo danh, không cần liệu huấn luyện nên tạo vector đặc trƣng (không đƣợc sử dụng cơng đoạn lƣợng tử hóa huấn luyện); đó, nhóm đƣợc sử dụng để kiểm tra tính hiệu mơ hình Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng 79 Luan van HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ Tín hiệu tiếng nói Phân tích hệ số đặc trƣng mfccN mfcc4 mfcc3 mfcc2 mfcc1 Các vector đặc trƣng Hình 6.8 Minh họa phân tích liệu tiếng nói thành hệ số đặc trƣng để sử dụng cho huấn luyện hệ thống nhận dạng Nhƣ vậy, từ tập liệu ban đầu, ta chia thành tập con:  Tập huấn luyện: gồm 40 ngƣời, ngƣời có 5mẫu Tổng cộng 400 mẫu  Tập kiểm tra: gồm 50 ngƣời (40 registered speakers 10 unknown speakers),mỗi ngƣời có 5mẫu Tổng cộng 500mẫu Tập huấn luyện đƣợc dùng để huấn luyện mô hình tập kiểm tra đƣợc dùng đểkhảo sát tham số đánh giá hiệu hệ thống Tất công đoạn đƣợc thực máy tính đƣợc kiểm tra, mơ phần mềm MATLAB Kết thử nghiệm nhận dạng từ phần mềm MATLAB cho nhóm ngƣời mà hệ thống có học mẫu điều kiện bình thƣờng đƣợc tổng hợp bảng sau: Bảng Kết thử nghiệm cho nhóm hệ thống học mẫu Tỉ lệ nhận dạng xác Tỉ lệ nhận dạng nhầm Tỉ lệ không nhận dạng TỪ NHẬN DẠNG VUI BUỒN HIỀN GIẬN 92,7% 93,5% 96% 92% 7,3% 6,5% 4,0% 8,0% 0,0% 0,0% 0,0% 0,0% Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng 80 Luan van MỆT 92,3% 7,7% 0,0% HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ Bảng Kết thử nghiệm cho nhóm mạo danh Tỉ lệ nhận dạng xác Tỉ lệ nhận dạng nhầm Tỉ lệ không nhận dạng TỪ NHẬN DẠNG BUỒN HIỀN GIẬN VUI 90,38% 91,0% 94% 90,0% 9,62% 9,0% 6,0% 10,0% 3,0% 0,0% 0,0% 5,0% MỆT 90,27% 9,73% 5,0% Trong bảng kết thử nghiệm nhóm có học mẫu khơng học mẫu Đối với nhóm có học mẫu ngƣời thử nghiệm 20 lần cho từ điều kiện bình thƣờng, nhóm học mẫu gồm 40 ngƣời sau thử nghiệm ngƣời cho kết tổng phần trăm nhận dạng từ ứng với ngƣời sau chia cho tổng số ngƣời thử nghiệm Tƣơng tự nhóm khơng học mẫu ngƣời thử nghiệm 20 lần cho từ điều kiện bình thƣờng, nhóm khơng học mẫu gồm 10 ngƣời sau thử nghiệm ngƣời cho kết tổng phần trăm nhận dạng từ ứng với ngƣời sau chia cho tổng số ngƣời thử nghiệm Kết tính theo hiệu suất nhận dạng từ xác, sau thử nghiệm đọc từ với nhiều kiểu đọc khác mà hệ thống nhận dạng từ xác Nhƣ vậy, với codebook có từ hệ thống nhận dạng cho kết nhận dạng xác 90% thời gian nhận dạng cho từ chƣa đầy giây Đây kết chấp nhận đƣợc triển khai hệ thống nhận dạng tiếng nói phần cứng Nhìn chung kết nhận dạng chấp nhận đƣợc Do đó, để đạt hiệu cao thời gian huấn luyện HMM, đặc biệt huấn luyện với số lƣợng mẫu lớn, không bị hạn chế không gian lƣu trữ, xử lý liệu việc thực cơng đoạn huấn luyện tạo codebook máy tính phần mềm MATLAB điều cần thiết Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng 81 Luan van HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ Hình 6.9: Kết nhận dạng từ “vui” Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng 82 Luan van HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ Chƣơng 7: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 7.1 Kết luận Đã thiết kế thi công hoàn thành nhiệm vụ đề tài đƣa  Xây dựng chƣơng trình nhận dạng tiếng nói tiếng việt sử dụng mơ hình Markov ẩn theo mơ hình từ Trích tham số tín hiệu tiếng nói phân tích cepstrum thông qua dãy lọc theo thang tần số Mel- Mel Frequency Cepstral Coeffcients (MFCC)  Sử dụng kỹ thuật lƣợng tử hóa vector – vector quantization dùng để lấy trung bình đặc tính frame nhƣ đánh nhãn vector đƣợc ứng dụng nhận dạng tiếng nói mơ hình Markov ẩn Chọn phân từ thành nhiều frame, frame có N mẫu Các frame tiếng nói biểu diễn qua hàm lƣợng ngắn hạn Đã thực xử lý tiếng nói thuật tốn phát điểm đầu cuối từ vào hàm lƣợng ngắn hạn  Xây dựng giao diện phần mềm thị chữ tiếng việt giao diện điều khiển máy tính  Chọn lựa hàm số mơ hình Markov ẩn để thiết kế giao diện nhận dạng tập lệnh đối tƣợng điều khiển – robot mặt ngƣời thể cảm xúc với lệnh, “vui”, “buồn” , “hiền”, “giận”, “mệt”  Thiết kế thi công robot mặt ngƣời thể cảm xúc  Thiết kế phần mềm phần cứng để điều khiển tiếng nói tiếng Việt xuất board để điều khiển đối tƣợng cơng nghiệp  Viết chƣơng trình điều khiển trênboard Arduino Mega 2560 để ứng dụng điều khiển đối tƣợng tiếng nói  Vận hành thử mơ hình hệ thống Chương Kết luận hướng phát triển 83 Luan van HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp 7.2 GVHD: PGS.TS TRẦN THU HÀ Nhận xét  Mặc dù kết nhận dạng từ không đƣợc mạng huấn luyện trƣớc không cao Nhƣng kết chấp nhận đƣợc điều kiện thiết bị thu âm chƣa tốt điều kiện phòng thu âm chƣa đạt yêu cầu Để nâng cao kết nhiều kỹ thuật cần đƣợc nghiên cứu tiếp Tuy nhiên, độ phức tạp tính tốn tăng  Tuy số trƣờng hợp nhận dạng sai không nhận dạng đƣợc tồn số hạn chế nhƣ: chƣa có sở tiếng nói tiếng Việt đủ lớn, có nhiều thơng số chƣa đƣợc lựa chọn tối ƣu Vì vậy, ta hồn tồn nâng cao độ xác hệ thống nhận dạng thêm  Phƣơng pháp đƣợc áp dụng để nhận dạng từ đơn 7.3 Hạn chế đề tài:  Chƣơng trình nhận dạng chƣa nhận dạng đƣợc từ ghép, chƣa nhận dạng đƣợc câu nói liên tục  Chƣơng trình dừng lại mức độ nhận dạng đƣợc từ đơn  Việc thực thi chƣơng trình máy tính khả xử lý tốc độ tính tốn cao nhƣng cần tiến hành thực nghiệm KIT nhận dạng tiếng nói để biết đƣợc hiệu suất nhận dạng 7.4 Hƣớng phát triển đề tài  Đề tài phát triển làm sở liệu điều khiển nhiều dạng cơng nghiệp Tập lệnh câu lệnh  Tín hiệu điều khiển đƣợc từ xa xuất trực tiếp từ cổng COM  Phƣơng hƣớng nghiên cứu phát triển đề tài là: xây dựng sở liệu mẫu đủ lớn So sánh với kết phƣơng pháp kinh điển truyền thống Thử mở rộng phong phú cấu trúc mạng Tiến hành thực nghiệm KIT nhận dạng có tốc độ tính tốn xử lý mạnh, kết hợp phƣơng pháp sử dụng Neural Network với giải thuật di truyền số phƣơng pháp đại việc nhận dạng tiếng nói nhằm nâng cao kết nhận dạng  Đi sâu thêm tăng số lƣợng từ vựng nhận dạng, kết hợp với phân tích ngữ pháp để nhận dạng đƣợc câu tiếng nói tiếng Việt đơn giản có độ xác cao Chương Kết luận hướng phát triển 84 Luan van HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ  Kết hợp giải thuật RASTA xử lý tín hiệu để nâng cao hiệu suất nhận dạng Tuy nhiên việc nhận dạng giọng nói cịn khó khăn cho đối tƣợng điều khiển, tiếng việt đƣợc nghiên cứu chi tiết độ xác câu lệnh điều khiển tốt nhiều Chương Kết luận hướng phát triển 85 Luan van HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ TÀI LIỆU THAM KHẢO [1] Vũ Hải Quân, Nghiên cứu, Xây dựng hệ thống VoiceServer ứng dụng cho dịch vụ trả lời tự động qua điện thoại, Thuyết trình đề tài nghiên cứu khoa học, Đại học quốc gia Hồ Chí Minh, 2010 – 2012 [2] TS Nguyễn Nhƣ Hiền, TS Lại Khắc Lãi, Hệ mờ & Nơron kỹ thuật điều khiển, NXB Khoa học tự nhiên công nghệ Hà Nội, 2007 [3] Lawrence Rabiner – Biing – Hwan Juang, Fundamentals of speech recognition, Prentice-Hall International, 1993 [4] John Holmes, Wendy Holmes, Speech synthesis and recognition 2nd edition, British Library [5] Bian Wu, Xiaolin Ren, Chongqing Liu, Yaxin Zhang, A Robust, Real-Time Voice Activity Detection Algorithm for Embedded Mobile Devices, International Journal Of Speech Technology 8, 2005, page 133–146 [6] Hervé Bourlard, Nelson Morgan, Connectionist speech recognition a hybrid approach, Kluwer Academic Publishers, ISBN 0-7923-9396-1, 1994, page 21 – 151 [7] Ben J Shannon, Kuldip K Paliwal, A Comparative Study of Filter Bank Spacing for Speech Recognition, Microelectronic Engineering Research Conference, 2003 [8] Deller John R., Jr., Hansen John J.L., Proakis John G., Discrete-Time Processing of Speech Signals, IEEE Press, ISBN 0-7803-5386-2 [9] GS.TSKH Bạch Hƣng Khang, Nghiên Cứu Phát Triển Công Nghệ Nhận Dạng, Tổng Hợp Và Xử Lý Ngôn Ngữ Tiếng Việt, Viện Công Nghệ Thông Tin, 2007, 281 trang [10] TS Nguyễn Văn Giáp, KS Trần Hồng Việt, Kỹ Thuật Nhận Dạng Tiếng Nói Ứng Dụng Trong Điều Khiển, Bộ Môn Cơ Điện Tử - Khoa Cơ Khí – Trƣờng Đại Học Bách Khoa Tp.HCM [11] TS Hồng Đình Chiến, Nhận Dạng Tiếng Việt Dùng Mạng Neuron Kết Hợp Trích Đặc Trưng LPC AMDF Trƣờng Đại Học Bách Khoa Tp.HCM Tài liệu tham khảo 86 Luan van HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ Và trang web: http://vi.wikipedia.org/wiki/M%C3%B4_h%C3%ACnh_Markov_%E1%BA %A9n http://vi.wikipedia.org/wiki/M%E1%BA%A1ng_n%C6%A1-ron http://arm.vn/TinChiTiet/tabid/105/id/110/Default.aspx http://ngonngu.net/index.php?p=60 Tài liệu tham khảo 87 Luan van HVTH: NGUYỄN THÀNH CHUNG S K L 0 Luan van ... NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ khác, nhận dạng tiếng nói đƣợc phát triển thứ tiếng khác, nƣớc ta nhận dạng tiếng nói cịn... Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ Chƣơng 3: MƠ HÌNH NHẬN DẠNG TIẾNG NĨI TIẾNG VIỆT 3.1 Phân loại hệ thống nhận dạng tiếng nói: 3.1.1 Nhận dạng. .. hình nhận dạng tiếng nói Tiếng Việt 13 Luan van HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ Trong thực tế, ngƣời có giọng nói