(Đề tài NCKH) kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN THÀNH CHUNG KỸ THUẬT NHẬN DẠNG TIẾNG NĨI THÀNH LỆNH ỨNG DỤNG TRONG CƠNG NGHIỆP NGÀNH: KỸ THUẬT ĐIỆN TỬ - 605270 SKC004340 Tp Hồ Chí Minh, tháng 10/2014 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN THÀNH CHUNG KỸ THUẬT NHẬN DẠNG TIẾNG NĨI THÀNH LỆNH ỨNG DỤNG TRONG CƠNG NGHIỆP NGÀNH: KỸ THUẬT ĐIỆN TỬ- 605270 Tp Hồ Chí Minh, tháng 10/2014 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN THÀNH CHUNG KỸ THUẬT NHẬN DẠNG TIẾNG NĨI THÀNH LỆNH ỨNG DỤNG TRONG CƠNG NGHIỆP NGÀNH: KỸ THUẬT ĐIỆN TỬ- 605270 Hướng dẫn khoa học: PGS.TS TRẦN THU HÀ Tp Hồ Chí Minh, tháng 10/2014 Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ LÝ LỊCH KHOA HỌC I LÝ LỊCH SƠ LƢỢC: Họ & tên: NGUYỄN THÀNH CHUNG Giới tính: Nam Ngày, tháng, năm sinh: 10/12/1984 Nơi sinh: Nghệ An Quê quán: Nghệ An Dân tộc: Kinh Chỗ riêng địa liên lạc: Số nhà 36/25 – đƣờng Số – Kp – Q Thủ Đức – tỉnh TP.Hồ Chí Minh Điện thoại quan: Điện thoại nhà riêng: 0918444230 Fax: E-mail:songxuan1012@yahoo.com II QUÁ TRÌNH ĐÀO TẠO Trung học chuyên nghiệp: Hệ đào tạo: Nghề bậc 4/7 Thời gian đào tạo từ 10/ 2002 đến 10 /2004 Nơi học (trƣờng, thành phố): Trƣờng trung tâm dạy nghể kỹ thuật cao thuộc trƣờng Đại Học Dân Lập Kỹ Thuật Công Nghệ TP.Hồ Chí Minh Ngành học: Điện Tử 2.Đại học: Hệ đào tạo: Chính Quy Thời gian đào tạo từ10/2005đến 7/2009 Nơi học (trƣờng, thành phố): Trƣờng Đại Học Sƣ Phạm Kỹ Thuật Tp.HCM Ngành học: Kỹ Thuật Điện – Điện Tử Tên đồ án, luận án môn thi tốt nghiệp: ĐIỀU KHIỂN VÀ GIÁM SÁT DÂY CHUYỀN SẢN XUẤT THỨC ĂN GIA SÚC Ngày & nơi bảo vệ đồ án, luận án thi tốt nghiệp: 19/07/2009 – Trƣờng Đại Học Sƣ Phạm Kỹ Thuật Tp.HCM Ngƣời hƣớng dẫn: ThS NGUYỄN TẤN ĐỜI III Q TRÌNH CƠNG TÁC CHUN MƠN KỂ TỪ KHI TỐT NGHIỆP ĐẠI HỌC: Thời gian 10/2009 – 08/2010 08/2010 – đến i HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu Các số liệu, kết nêu luận văn trung thực chƣa đƣợc cơng bố cơng trình khác Tp Hồ Chí Minh, ngày tháng 10 năm 2014 (Ký tên ghi rõ họ tên) NGUYỄN THÀNH CHUNG ii HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ LỜI CẢM ƠN Tôi xin chân thành cảm ơn gia đình tơi, đặc biệc cha mẹ tạo điều kiện cho ăn học ngày hơm Chính họ nguồn động viên lớn ủng hộ tôi, giúp đỡ suốt trình học tập nhƣ việc thực luận văn Tôi xin chân thành cám ơn cô hƣớng dẫn PGS TS TRẦN THU HÀ trƣờng Đại học Kỹ Thuật Tp Hồ Chí Minh tận tình dạy, hƣớng dẫn, đóng góp nhiều ý kiến quý báu suốt q trình thực luận văn Tơi xin chân thành cám ơn thầy cô khoa Điện - Điện Tử nói riêng thầy trƣờng Đại Học Sƣ Phạm Kỹ Thuật Tp Hồ Chí Minh tạo cho môi trƣờng học tập thật tuyệt vời tạo điều kiện cho hoàn thành luận văn Xin cám ơn tất bạn học viên anh chị đóng góp ý kiến giúp đỡ tơi hồn thành luận văn Ngƣời thực luận văn NGUYỄN THÀNH CHUNG iii HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ TÓM TẮT Ngay phát minh máy tính, ngƣời mơ ƣớc máy tính nói chuyện với u cầu đơn giản máy xác định đƣợc từ ngữ mà nói với máy Đó mục tiêu ngành nhận dạng tiếng nói Đối với ngƣời, việc nghe, nghe tiếng mẹ đẻ vấn đề đơn giản Cịn máy tính, xác định chuỗi tín hiệu âm phát âm từ hồn tồn khơng đơn giản, khó khăn nhƣ việc học nghe ngoại ngữ Lĩnh vực nhận dạng tiếng nói đƣợc nghiên cứu thập kỉ có số thành cơng Có thể kể đến hệ thống nhận dạng tiếng Anh (ví dụ: phần mềm Via Voice IBM, hệ thống nhận dạng tiếng nói tích hợp OfficeXP…) Các hệ thống hoạt động tốt (cho độ xác khoảng 90 - 95%) nhƣng xa đạt đến mức mơ ƣớc chúng ta: có hệ thống nghe xác hiểu hồn tồn điều ta nói Riêng với tiếng Việt, lĩnh vực nhận dạng tiếng nói mẻ Chƣa thấy xuất phần mềm nhận dạng tiếng Việt hoàn chỉnh thị trƣờng Số cơng trình nghiên cứu nhận dạng tiếng nói tiếng Việt đƣợc cơng bố hoi, kết hạn chế từ vựng, độ xác… Tiếng Việt có nhiều đặc tính khác với ngôn ngữ đãđƣợc nghiên cứu nhận dạng nhiều nhƣ tiếng Anh, tiếng Pháp Do việc nghiên cứu nhận dạng tiếng Việt cần thiết Bên cạnh đó, việc triển khai hệ thống nhận dạng tiếng nói phần cứng Việt Nam nhiều hạn chế, khả nhận dạng phụ thuộc vào ngƣời nói Nhận dạng tiếng Việt ứng dụng để làm lệnh điều khiển lĩnh vực mẻ Vì lí trên, tơi chọn đề tài “Nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp”, nhằm nghiên cứu phƣơng pháp nhận dạng tiếng nói tiếng Việt thử nghiệm xây dựng hệ thống nhận dạng cỡ nhỏ.Việc nhận dạng đƣợc thực thi máy tính điều khiển thơng qua Board Arduino Mega 2560, với từ vựng gồm từ đơn (vui, buồn, mệt, giận, hiền) với kết nhận dạng có độ xác khoảng 90% điều kiện bình thƣờng Từ khóa:Hiden Markov Model, Neural Netwoks, Hydrid ANN/HMM, MFCC methods, FFT algorithm, K-meanalgorithm, Board Arduino Mega 2560 iv HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ ABSTRACT The purpose with this final master degree project was to develop a speech recognitiontool, to make the technology accessible The development includes anextensive study of Hidden Markov Model, which is currently the state of the artin the field of speech recognition A speech recognizer is a complex machine developedwith the purpose to understand human speech In real life this speechrecognition technology might be used to get a gain in traffic security or facilitatefor people with functional disability The technology can also be applied to manyother areas However in a real environment there exist disturbances that mightinfluence the performance of the speech recognizer The report includes an performanceevaluation in different noise situations, in a robot environment The resultshows that the recognition rate varies from 92%, in a noise free environment, to90% in a more noisy environment v HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ MỤC LỤC LÝ LỊCH KHOA HỌC i LỜI CAM ĐOAN ii LỜI CẢM ƠN iii TÓM TẮT iv MỤC LỤC vi DANH SÁCH CÁC HÌNH ix DANH SÁCH CÁC BẢNG xi DANH SÁCH CÁC CHỮ VIẾT TẮT xii Chƣơng TỔNG QUAN 1.1.Tổng quan nhận dạng tiếng nói, tình hình nghiên cứu ngồi nƣớc .1 1.1.1.Nhận dạng tiếng nói 1.1.2.Tổng quan tình hình nghiên cứu 1.2.Mục tiêu đối tƣợng nghiên cứu đề tài 1.2.1.Mục tiêu 1.2.2.Đối tƣợng nghiên cứu 1.3.Nhiệm vụ giới hạn đề tài 1.3.1.Nhiệm vụ 1.3.2.Giới hạn 1.4.Phƣơng pháp nghiên cứu 1.5.Nội dung luận văn 1.6.Ý nghĩa thực tiễn đề tài Chƣơng ĐẶC TRƢNG TIẾNG NÓI TIẾNG VIỆT 2.1.TỔNG QUAN VỀ TIẾNG NÓI 2.2.Các đặc trƣng Tiếng Việt 2.2.1.Âm tiết 2.2.2.Âm vị 11 2.2.3.Nguyên âm phụ âm 11 2.2.4.Thanh điệu 12 Chƣơng MƠ HÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT 13 3.1 Phân loại hệ thống nhận dạng tiếng nói 13 3.1.1 Nhận dạng từ liên tục nhận dạng từ cách biệt 13 3.1.2 Nhận dạng phụ thuộc ngƣời nói độc lập ngƣời nói 13 3.2 Các yếu tố ảnh hƣởng đến kết nhận dạng tiếng nói : 15 3.3 Cấu trúc hệ nhận dạng tiếng nói: 16 3.4 Giải thuật hệ thống nhận dạng tiếng nói tiếng Việt dùng Markov ẩn: 17 vi HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp 3.5 Voice Acivation Detection (VAD): 3.6.Phƣơng pháp phân tích hệ số MFCC 3.6.1 Tiền x 3.6.2.Tạo khung cửa sổ hóa tín hiệu 3.7 3.6.3 Trích 3.6.4 Hậu x Lƣợng tử vector: 3.7.1 Tổng quan lƣợng tử vector (VQ): 3.7.2 Cấu trúc tập huấn luyện VQ: 3.7.3 Đo độ méo: 3.7.4 Phân nhóm vector huấn luyện: Chƣơng 4: MƠ HÌNH MARKOV ẨN HMM 4.1 Quá trình Markov: 4.2 Mơ hình Markov ẩn: 4.3 Giải pháp toán học cho ba toán mơ hình Markov ẩn: 4.3.1 Bài tốn 1: 4.3.2 Bài toán 2: 4.3.3 Bài toán 3: 4.4 Các loại mơ hình Markov ẩn: Chƣơng 5: THIẾT KẾ PHẦN CỨNG VÀ MẠCH ĐIỀU KHIỂN ROBOT 5.1 Tổng quan phần cứng hệ thống : 5.2 Lựa chọn thiết bị: 5.2.1 Động cơ: 5.2.2 Board Arduino Mega 2560: Chƣơng 6: THIẾT KẾ HỆ THỐNG NHẬN DẠNG VÀ PHẦN MỀM GIAO DIỆN NHẬN DẠNG 6.1.Thiết kế hệ thống nhận dạng tiếng nói máy tính 6.1.1.Trích đặc trƣng 6.1.2.Lƣợng tử hóa vector 6.1.3.Huấn luyện HMM 6.1.4.Nhận dạng mơ hình HMM 6.2.Thiết kế phần mềm giao diện nhận dạng 6.3 Kết thử nghiệm phần mềm nhận dạng vii HVTH: NGUYỄN THÀNH CHUNG phần mềm giao diện nhận dạng Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp  GVHD: PGS.TS TRẦN THU HÀ Sau vector đặc trƣng hệ số đặc trƣng đƣợc lƣợng tử vector để chuyển thành chuỗi quan sát O  Sau có đƣợc chuỗi quan sát O từ cần nhận dạng, ta tiến hành đọc lần đƣợc mơ hình HMM từ đƣợc huấn luyện trƣớc tính xác suất chuỗi quan sát O vừa đƣợc tạo mơ hình HMM  Trên sở xác suất chuỗi quan sát O mơ hình HMM đƣợc huấn luyện, ta lựa chọn xác suất có giá trị lớn chuỗi quan sát O ứng với mơ hình 6.2 Thiết kế phần mềm giao diện nhận dạng Giao diện nhận dạng giọng nói máy tính đƣợc thiết kế GUI phần mềm MATLAB.Sau thiết kế giao diện có hình dạng nhƣ hình 6.7 Hình 6.7:Giao diện nhận dạng tiếng nói Trong giao diện có nút điều khiển nút Training, nút Voice Recognition, nút Clear nút Close, có text dùng để hiển thị từ đƣợc nhận dạng cịn lại thể hình ảnh robot đƣợc nhận dạng Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ Các bƣớc tiến hành mô nhận dạng đƣợc thực nhƣ sau: Bƣớc 1: nhấn vào nút Training để bắt đầu huấn luyện cho mơ hình nhận dạng, sau huấn luyện thành cơng lên chữ Training Finish ô text thị chữ Bƣớc 2: nhấn vào nút Voice Recognition bắt đầu đọc từ nhận dạng từ Micro, thu tiếng nói vịng giây nên đọc từ khoảng thời gian Từ đƣợc nhận dạng đƣợc thị ô text thị chữ , đồng thời text hình ảnh hình ảnh robot thể cảm xúc tƣơng ứng với từ đƣợc nhận dạng Bƣớc 3: Để đọc từ khác ta nhấn nút Clear sau lặp lại bƣớc Muốn khỏi chƣơng trình ta nhấn nút Close 6.3 Kết thử nghiệm phần mềm nhận dạng Tập liệu tiếng nói đƣợc thu âm từ 50 ngƣời nói khác nhau, thuộc miền Nam, gồm nam lẫn nữ (40 nam, 10nữ) Dữ liệu tiếng nói đƣợc lấymẫu mức 8000Hz, 16bit đọc trực tiếp máy tính phần mềm Matlab Tập liệu đƣợc tổ chức thành nhóm: 40 ngƣời đƣợc hệ thống học mẫu(registered speakers) 10 ngƣời đóng vai trị ngƣời mạo danh (impostors/unknownspeakers) Dữ liệu tiếng nói từ ngƣời nhóm hệ thống học mẫu đƣợc phân tích thành vector đặc trƣng có kích thƣớc 39xFrame, Frame số khung liệu tiếng nói, số khung không giống theo thời gian theo ngƣời nói Tập hợp tất vector đặc trƣng lại thực lƣợng tử hóa để tạo codebook Nhƣ vậy, với codebook vector đặc trƣng tham số để thực huấn luyện mơ hình nhận dạng kiểm tra hiệu suất mơ hình Riêng nhóm mạo danh, không cần liệu huấn luyện nên tạo vector đặc trƣng (không đƣợc sử dụng cơng đoạn lƣợng tử hóa huấn luyện); đó, nhóm đƣợc sử dụng để kiểm tra tính hiệu mơ hình Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ Tín hiệu tiếng nói Phân tích hệ số đặc trƣng mfccN mfcc1 mfc c2 mfc c3 mfc c4 Các vector đặc trƣng Hình 6.8 Minh họa phân tích liệu tiếng nói thành hệ số đặc trƣng để sử dụng cho huấn luyện hệ thống nhận dạng Nhƣ vậy, từ tập liệu ban đầu, ta chia thành tập con:  Tập huấn luyện: gồm 40 ngƣời, ngƣời có 5mẫu Tổng cộng 400 mẫu  Tập kiểm tra: gồm 50 ngƣời (40 registered speakers 10 unknown speakers),mỗi ngƣời có 5mẫu Tổng cộng 500mẫu Tập huấn luyện đƣợc dùng để huấn luyện mơ hình tập kiểm tra đƣợc dùng đểkhảo sát tham số đánh giá hiệu hệ thống Tất cơng đoạn đƣợc thực máy tính đƣợc kiểm tra, mô phần mềm MATLAB Kết thử nghiệm nhận dạng từ phần mềm MATLAB cho nhóm ngƣời mà hệ thống có học mẫu điều kiện bình thƣờng đƣợc tổng hợp bảng sau: Bảng Kết thử nghiệm cho nhóm hệ thống học mẫu Tỉ lệ nhận dạng xác Tỉ lệ nhận dạng nhầm Tỉ lệ không nhận dạng Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ Bảng Kết thử nghiệm cho nhóm mạo danh Tỉ lệ nhận dạng xác Tỉ lệ nhận dạng nhầm Tỉ lệ không nhận dạng Trong bảng kết thử nghiệm nhóm có học mẫu khơng học mẫu Đối với nhóm có học mẫu ngƣời thử nghiệm 20 lần cho từ điều kiện bình thƣờng, nhóm học mẫu gồm 40 ngƣời sau thử nghiệm ngƣời cho kết tổng phần trăm nhận dạng từ ứng với ngƣời sau chia cho tổng số ngƣời thử nghiệm Tƣơng tự nhóm khơng học mẫu ngƣời thử nghiệm 20 lần cho từ điều kiện bình thƣờng, nhóm khơng học mẫu gồm 10 ngƣời sau thử nghiệm ngƣời cho kết tổng phần trăm nhận dạng từ ứng với ngƣời sau chia cho tổng số ngƣời thử nghiệm Kết tính theo hiệu suất nhận dạng từ xác, sau thử nghiệm đọc từ với nhiều kiểu đọc khác mà hệ thống nhận dạng từ xác Nhƣ vậy, với codebook có từ hệ thống nhận dạng cho kết nhận dạng xác 90% thời gian nhận dạng cho từ chƣa đầy giây Đây kết chấp nhận đƣợc triển khai hệ thống nhận dạng tiếng nói phần cứng Nhìn chung kết nhận dạng chấp nhận đƣợc Do đó, để đạt hiệu cao thời gian huấn luyện HMM, đặc biệt huấn luyện với số lƣợng mẫu lớn, không bị hạn chế không gian lƣu trữ, xử lý liệu việc thực công đoạn huấn luyện tạo codebook máy tính phần mềm MATLAB điều cần thiết Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ Hình 6.9: Kết nhận dạng từ “vui” Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ Chƣơng 7: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 7.1 Kết luận Đã thiết kế thi công hoàn thành nhiệm vụ đề tài đƣa  Xây dựng chƣơng trình nhận dạng tiếng nói tiếng việt sử dụng mơ hình Markov ẩn theo mơ hình từ Trích tham số tín hiệu tiếng nói phân tích cepstrum thông qua dãy lọc theo thang tần số Mel- Mel Frequency Cepstral Coeffcients (MFCC)  Sử dụng kỹ thuật lƣợng tử hóa vector – vector quantization dùng để lấy trung bình đặc tính frame nhƣ đánh nhãn vector đƣợc ứng dụng nhận dạng tiếng nói mơ hình Markov ẩn Chọn phân từ thành nhiều frame, frame có N mẫu Các frame tiếng nói biểu diễn qua hàm lƣợng ngắn hạn Đã thực xử lý tiếng nói thuật tốn phát điểm đầu cuối từ vào hàm lƣợng ngắn hạn  Xây dựng giao diện phần mềm thị chữ tiếng việt giao diện điều khiển máy tính  Chọn lựa hàm số mơ hình Markov ẩn để thiết kế giao diện nhận dạng tập lệnh đối tƣợng điều khiển – robot mặt ngƣời thể cảm xúc với lệnh, “vui”, “buồn” , “hiền”, “giận”, “mệt”  Thiết kế thi công robot mặt ngƣời thể cảm xúc  Thiết kế phần mềm phần cứng để điều khiển tiếng nói tiếng Việt xuất board để điều khiển đối tƣợng cơng nghiệp  Viết chƣơng trình điều khiển trênboard Arduino Mega 2560 để ứng dụng điều khiển đối tƣợng tiếng nói  Vận hành thử mơ hình hệ thống Chương Kết luận hướng phát triển 83 HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp 7.2 GVHD: PGS.TS TRẦN THU HÀ Nhận xét  Mặc dù kết nhận dạng từ không đƣợc mạng huấn luyện trƣớc khơng cao Nhƣng kết chấp nhận đƣợc điều kiện thiết bị thu âm chƣa tốt điều kiện phòng thu âm chƣa đạt yêu cầu Để nâng cao kết nhiều kỹ thuật cần đƣợc nghiên cứu tiếp Tuy nhiên, độ phức tạp tính tốn tăng  Tuy số trƣờng hợp nhận dạng sai không nhận dạng đƣợc cịn tồn số hạn chế nhƣ: chƣa có sở tiếng nói tiếng Việt đủ lớn, có nhiều thơng số chƣa đƣợc lựa chọn tối ƣu Vì vậy, ta hồn tồn nâng cao độ xác hệ thống nhận dạng thêm  7.3 Phƣơng pháp đƣợc áp dụng để nhận dạng từ đơn Hạn chế đề tài:  Chƣơng trình nhận dạng chƣa nhận dạng đƣợc từ ghép, chƣa nhận dạng đƣợc câu nói liên tục  Chƣơng trình dừng lại mức độ nhận dạng đƣợc từ đơn  Việc thực thi chƣơng trình máy tính khả xử lý tốc độ tính tốn cao nhƣng cần tiến hành thực nghiệm KIT nhận dạng tiếng nói để biết đƣợc hiệu suất nhận dạng 7.4 Hƣớng phát triển đề tài  Đề tài phát triển làm sở liệu điều khiển nhiều dạng công nghiệp Tập lệnh câu lệnh  Tín hiệu điều khiển đƣợc từ xa xuất trực tiếp từ cổng COM  Phƣơng hƣớng nghiên cứu phát triển đề tài là: xây dựng sở liệu mẫu đủ lớn So sánh với kết phƣơng pháp kinh điển truyền thống Thử mở rộng phong phú cấu trúc mạng Tiến hành thực nghiệm KIT nhận dạng có tốc độ tính tốn xử lý mạnh, kết hợp phƣơng pháp sử dụng Neural Network với giải thuật di truyền số phƣơng pháp đại việc nhận dạng tiếng nói nhằm nâng cao kết nhận dạng  Đi sâu thêm tăng số lƣợng từ vựng nhận dạng, kết hợp với phân tích ngữ pháp để nhận dạng đƣợc câu tiếng nói tiếng Việt đơn giản có độ xác cao Chương Kết luận hướng phát triển 84 HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp  GVHD: PGS.TS TRẦN THU HÀ Kết hợp giải thuật RASTA xử lý tín hiệu để nâng cao hiệu suất nhận dạng Tuy nhiên việc nhận dạng giọng nói cịn khó khăn cho đối tƣợng điều khiển, tiếng việt đƣợc nghiên cứu chi tiết độ xác câu lệnh điều khiển tốt nhiều Chương Kết luận hướng phát triển 85 HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ TÀI LIỆU THAM KHẢO [1] Vũ Hải Quân, Nghiên cứu, Xây dựng hệ thống VoiceServer ứng dụng cho dịch vụ trả lời tự động qua điện thoại, Thuyết trình đề tài nghiên cứu khoa học, Đại học quốc gia Hồ Chí Minh, 2010 – 2012 [2] TS Nguyễn Nhƣ Hiền, TS Lại Khắc Lãi, Hệ mờ & Nơron kỹ thuật điều khiển, NXB Khoa học tự nhiên công nghệ Hà Nội, 2007 [3] Lawrence Rabiner – Biing – Hwan Juang, Fundamentals of speech recognition, Prentice-Hall International, 1993 [4] John Holmes, Wendy Holmes, Speech synthesis and recognition nd edition, British Library [5] Bian Wu, Xiaolin Ren, Chongqing Liu, Yaxin Zhang, A Robust, Real-Time Voice Activity Detection Algorithm for Embedded Mobile Devices, International Journal Of Speech Technology 8, 2005, page 133–146 [6] Hervé Bourlard, Nelson Morgan, Connectionist speech recognition a hybrid approach, Kluwer Academic Publishers, ISBN 0-7923-9396-1, 1994, page 21 – 151 [7] Ben J Shannon, Kuldip K Paliwal, A Comparative Study of Filter Bank Spacing for Speech Recognition, Microelectronic Engineering Research Conference, 2003 [8] Deller John R., Jr., Hansen John J.L., Proakis John G., Discrete- Time Processing of Speech Signals, IEEE Press, ISBN 0-7803-5386-2 [9] GS.TSKH Bạch Hƣng Khang, Nghiên Cứu Phát Triển Công Nghệ Nhận Dạng, Tổng Hợp Và Xử Lý Ngôn Ngữ Tiếng Việt, Viện Công Nghệ Thông Tin, 2007, 281 trang [10] TS Nguyễn Văn Giáp, KS Trần Hồng Việt, Kỹ Thuật Nhận Dạng Tiếng Nói Ứng Dụng Trong Điều Khiển, Bộ Môn Cơ Điện Tử - Khoa Cơ Khí – Trƣờng Đại Học Bách Khoa Tp.HCM [11] TS Hồng Đình Chiến, Nhận Dạng Tiếng Việt Dùng Mạng Neuron Kết Hợp Trích Đặc Trưng LPC AMDF Trƣờng Đại Học Bách Khoa Tp.HCM Tài liệu tham khảo 86 HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ Và trang web: http://vi.wikipedia.org/wiki/M%C3%B4_h%C3%ACnh_Markov_ %E1%BA %A9n http://vi.wikipedia.org/wiki/M%E1%BA%A1ng_n%C6%A1-ron http://arm.vn/TinChiTiet/tabid/105/id/110/Default.aspx http://ngonngu.net/index.php?p=60 Tài liệu tham khảo 87 HVTH: NGUYỄN THÀNH CHUNG ... NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ khác, nhận dạng tiếng nói đƣợc phát triển thứ tiếng khác, nƣớc ta nhận dạng tiếng nói cịn... Nhận dạng tiếng nói Nhận dạng tiếng nói bao gồm nhận dạng âm tiết rời rạc, liên tục, nhận dạng ngƣời nói, ngơn ngữ nói cao cấp nhận dạng đƣợc trạng thái tâm lý ngƣời nói Có nhiều ứng dụng nhận dạng. .. nói khác phát âm khác Chương Mơ hình nhận dạng tiếng nói Tiếng Việt Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ Thu nhậ liệu Lời nói Huấn luyện Lời nói

Định dạng
Số trang	130
Dung lượng	3,29 MB