(Đồ án hcmute) nhận dạng tiếng nói thể hiện trạng thái khuôn mặt

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM KHOA ĐIỆN - ĐIỆN TỬ ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ KỸ THUẬT ĐIỆN - ĐIỆN TỬ NHẬN DẠNG TIẾNG NÓI THỂ HIỆN TRẠNG THÁI KHUÔN MẶT GVHD: PGS.TS TRẦN THU HÀ SVTH: TRƯƠNG MINH THIỆN MSSV: 10101127 SKL 0 7 Tp Hồ Chí Minh, tháng 1/2016 an BỘ GIÁO DỤC VÀ ĐẠO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM KHOA ĐIỆN ĐIỆN TỬ BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP ĐỒ ÁN TỐT NGHIỆP NGÀNH: ĐIỆN – ĐIỆN TỬ Đềtài: NHẬN DẠNG TIẾNG NÓI THỂ HIỆN TRẠNG THÁI KHUÔN MẶT GVHD: PGS.TS TRẦN THU HÀ SVTH: TRƯƠNG MINH THIỆN MSSV : 10101127 Thành phố Hồ Chí Minh – 01/2016 an Nhận dạng tiếng nói thể trạng thái khuôn mặt GVHD: PGS.TS TRẦN THU HÀ LỜI CẢM ƠN Tơi xin chân thành cảm ơn gia đình tôi, đặc biệc cha mẹ tạo điều kiện cho ăn học ngày hôm Chính họ nguồn động viên lớn ủng hộ tơi, giúp đỡ tơi suốt q trình học tập nhƣ việc thực luận văn Tôi xin chân thành cám ơn cô hƣớng dẫn PGS TS TRẦN THU HÀ trƣờng Đại học Kỹ Thuật Tp Hồ Chí Minh tận tình dạy, hƣớng dẫn, đóng góp nhiều ý kiến q báu suốt q trình thực luận văn Tôi xin chân thành cám ơn thầy khoa Điện - Điện Tử nói riêng thầy cô trƣờng Đại Học Sƣ Phạm Kỹ Thuật Tp Hồ Chí Minh tạo cho tơi môi trƣờng học tập thật tuyệt vời tạo điều kiện cho tơi hồn thành luận văn Xin cám ơn tất bạn học viên anh chịđã đóng góp ý kiến giúp đỡ tơi hồn thành luận văn Ngƣời thực luận văn TRƢƠNG MINH THIỆN i an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khn mặt GVHD: PGS.TS TRẦN THU HÀ TĨM TẮT Ngay phát minh máy tính, ngƣời mơ ƣớc máy tính nói chuyện với Yêu cầu đơn giản máy xác định đƣợc từ ngữ mà nói với máy Đó mục tiêu ngành nhận dạng tiếng nói Đối với ngƣời, việc nghe, nghe tiếng mẹ đẻ vấn đề đơn giản Còn máy tính, xác định chuỗi tín hiệu âm phát âm từ hồn tồn khơng đơn giản, khó khăn nhƣ việc học nghe ngoại ngữ Lĩnh vực nhận dạng tiếng nói đƣợc nghiên cứu thập kỉ có số thành cơng Có thể kể đến hệ thống nhận dạng tiếng Anh (ví dụ: phần mềm Via Voice IBM, hệ thống nhận dạng tiếng nói tích hợp OfficeXP…) Các hệ thống hoạt động tốt (cho độ xác khoảng 90 - 95%) nhƣng xa đạt đến mức mơ ƣớc chúng ta: có hệ thống nghe xác hiểu hồn tồn điều ta nói Riêng với tiếng Việt, lĩnh vực nhận dạng tiếng nói cịn mẻ.Chƣa thấy xuất phần mềm nhận dạng tiếng Việt hoàn chỉnh thị trƣờng Số cơng trình nghiên cứu nhận dạng tiếng nói tiếng Việt đƣợc cơng bố hoi, kết hạn chế từ vựng, độ xác… Tiếng Việt có nhiều đặc tính khác với ngơn ngữ đãđƣợc nghiên cứu nhận dạng nhiều nhƣ tiếng Anh, tiếng Pháp Do việc nghiên cứu nhận dạng tiếng Việt cần thiết Bên cạnh đó, việc triển khai hệ thống nhận dạng tiếng nói phần cứng Việt Nam cịn nhiều hạn chế, khả nhận dạng phụ thuộc vào ngƣời nói Nhận dạng tiếng Việt ứng dụng để làm lệnh điều khiển lĩnh vực mẻ Vì lí trên, tơi chọn đề tài “Nhận dạng tiếng nói thể trạng thái khuôn mặt”, nhằm nghiên cứu phƣơng pháp nhận dạng tiếng nói tiếng Việt thử nghiệm xây dựng hệ thống nhận dạng cỡ nhỏ.Việc nhận dạng đƣợc thực thi máy tính , với từ vựng gồm từ đơn (vui, buồn, mệt, giận, hiền) với kết nhận dạng có độ xác khoảng 90% điều kiện bình thƣờng Từ khóa:Hiden Markov Model, Neural Netwoks, Hydrid ANN/HMM, MFCC methods, FFT algorithm, K-mean algorithm, Board Arduino Mega 2560 ii an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khuôn mặt GVHD: PGS.TS TRẦN THU HÀ ABSTRACT The purpose with this final master degree project was to develop a speech recognitiontool, to make the technology accessible The development includes anextensive study of Hidden Markov Model, which is currently the state of the artin the field of speech recognition A speech recognizer is a complex machine developedwith the purpose to understand human speech In real life this speechrecognition technology might be used to get a gain in traffic security or facilitatefor people with functional disability The technology can also be applied to manyother areas However in a real environment there exist disturbances that mightinfluence the performance of the speech recognizer The report includes an performanceevaluation in different noise situations, in a robot environment The resultshows that the recognition rate varies from 92%, in a noise free environment, to 90% in a more noisy environment iii an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khuôn mặt GVHD: PGS.TS TRẦN THU HÀ MỤC LỤC LỜI CẢM ƠN i TÓM TẮT ii MỤC LỤC iv DANH SÁCH CÁC HÌNH .vi DANH SÁCH CÁC BẢNG vii DANH SÁCH CÁC CHỮ VIẾT TẮT viii Chƣơng TỔNG QUAN .1 1.1.Tổng quan nhận dạng tiếng nói, tình hình nghiên cứu ngồi nƣớc 1.1.1.Nhận dạng tiếng nói .1 1.1.2.Tổng quan tình hình nghiên cứu 1.2.Mục tiêu đối tƣợng nghiên cứu đề tài 1.2.1.Mục tiêu 1.2.2.Đối tƣợng nghiên cứu 1.3.Nhiệm vụ giới hạn đề tài 1.3.1.Nhiệm vụ 1.3.2.Giới hạn 1.4.Phƣơng pháp nghiên cứu 1.5.Nội dung luận văn .7 1.6.Ý nghĩa thực tiễn đề tài .8 Chƣơng ĐẶC TRƢNG TIẾNG NÓI TIẾNG VIỆT 2.1.TỔNG QUAN VỀ TIẾNG NÓI 2.2.Các đặc trƣng Tiếng Việt 2.2.1.Âm tiết 2.2.2.Âm vị 11 2.2.3.Nguyên âm phụ âm 11 2.2.4.Thanh điệu 12 Chƣơng MƠ HÌNH NHẬN DẠNG TIẾNG NĨI TIẾNG VIỆT .13 3.1 Phân loại hệ thống nhận dạng tiếng nói 13 3.1.1 Nhận dạng từ liên tục nhận dạng từ cách biệt 13 3.1.2 Nhận dạng phụ thuộc ngƣời nói độc lập ngƣời nói 13 3.2 Các yếu tố ảnh hƣởng đến kết nhận dạng tiếng nói : .15 3.3 Cấu trúc hệ nhận dạng tiếng nói: 16 3.4 Giải thuật hệ thống nhận dạng tiếng nói tiếng Việt dùng Markov ẩn: 17 3.5 Voice Acivation Detection (VAD): 18 iv an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khn mặt GVHD: PGS.TS TRẦN THU HÀ 3.6.Phƣơng pháp phân tích hệ số MFCC .19 3.6.1 Tiền xử lý .19 3.6.2 Tạo khung cửa sổ hóa tín hiệu 23 3.6.3 Trích đặc trƣng .25 3.6.4 Hậu xử lý .31 3.7 Lƣợng tử vector: 32 3.7.1 Tổng quan lƣợng tử vector (VQ): 32 3.7.2 Cấu trúc tập huấn luyện VQ: 33 3.7.3 Đo độ méo: 34 3.7.4 Phân nhóm vector huấn luyện: 34 Chƣơng 4: MƠ HÌNH MARKOV ẨN HMM .36 4.1 Quá trình Markov: 36 4.2 Mơ hình Markov ẩn: .38 4.3 Giải pháp tốn học cho ba tốn mơ hình Markov ẩn: 41 4.3.1 Bài tốn 1: 41 4.3.2 Bài toán 2: 44 4.3.3 Bài toán 3: 45 4.4 Các loại mơ hình Markov ẩn: 49 Chƣơng 5: THIẾT KẾ HỆ THỐNG NHẬN DẠNG VÀ PHẦN MỀM GIAO DIỆN NHẬN DẠNG .49 5.1.Thiết kế hệ thống nhận dạng tiếng nói máy tính 49 5.1.1.Trích đặc trƣng .50 5.1.2.Lƣợng tử hóa vector .54 5.1.3.Huấn luyện HMM 58 5.1.4.Nhận dạng mô hình HMM 59 5.2.Thiết kế phần mềm giao diện nhận dạng 61 5.3 Kết thử nghiệm phần mềm nhận dạng 62 Chƣơng KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 68 6.1 Kết luận 68 6.2 Nhận xét 69 6.3 Hạn chế đề tài: 69 6.4 Hƣớng phát triển đề tài 69 TÀI LIỆU THAM KHẢO .70 v an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khuôn mặt GVHD: PGS.TS TRẦN THU HÀ DANH SÁCH CÁC HÌNH Hình Ngƣời nói khác phát âm khác 14 Hình Mơ hình nhận dạng tiếng nói bán độc lập ngƣời nói 15 Hình 3 Cấu trúc tổng quát hệ thống nhận dạng tiếng nói 16 Hình Lƣu đồ giải thuật hệ thống nhận dạng tiếng Việt dùng Markov ẩn .17 Hình Đoạn mẫu âm trƣớc VAD 18 Hình Đoạn mẫu âm sau VAD 18 Hình Sơ đồ giải thuật phƣơng pháp phân tích thơng tin tiếng nói 19 Hình Tiền xử lý tín hiệu 19 Hình Phân tích khoảng lặng tiếng nói .21 Hình 10 Tách tiếng nói khỏi khoảng im lặng theo VAD 22 Hình 11 Từ tiếng nói có khoảng im lặng tách thành tiếng nói khơng có khoảng lặng .23 Hình 12 Frame blocking Windowing 23 Hình 13 Chia khung chuỗi tín hiệu 24 Hình 14 Cửa sổ Hamming với hệ số α khác .24 Hình 15 Tín hiệu tiếng nói sau đƣợc cửa sổ hóa so với ban đầu .25 Hình 16 Các bƣớc thực MFCC 25 Hình 17 Phổ Fourier tín hiệu gốc tín hiệu cửa sổ hóa 26 Hình 18 Băng lọc tam giác melscale miền tần số .27 Hình 19 Tính hệ số delta 29 Hình 20 Q trình rút trích đặc trƣng .30 Hình 21 Các bƣớc hậu xử lý tín hiệu 31 Hình 22 Sơ đồ khối cấu trúc VQ huấn luyện phân lớp 33 Hình 23 Lƣu đồ giải thuật VQ 35 Hình Xích Markov trạng thái S1,S2, S5 xác suất chuyển trạng thái .36 Hình Ví dụ mơ hình Markov ẩn sáu trạng thái .39 Hình Mơ tả dãy phép tốn đƣợc thực để tính αt(i) 43 Hình 4 Mơ tả dãy phép tốn đƣợc thực để tính biến βt(i) 44 Hình Sơ đồ khối mơ hình huấn luyện nhận dạng từ đơn .50 Hình Lƣu đồ giải thuật thực tách tiếng nói khỏi khoảng lặng 51 Hình Lƣu đồ giải thuật thực phân tích hệ số đặc trƣng 52 Hình 4.Minh họa lƣợng tử hóa vector .58 Hình 5 Lƣu đồ giải thuật huấn luyện HMM 59 Hình Lƣu đồ giải thuật nhận dạng từ đơn sử dụng HMM .60 Hình Giao diện nhận dạng tiếng nói 61 Hình 8.Minh họa phân tích liệu tiếng nói thành hệ số đặc trƣng để sử dụng cho huấn luyện hệ thống nhận dạng 63 Hình Kết nhận dạng từ “vui” 65 Hình 10 Kết nhận dạng từ “Buon” 65 Hình 11 Kết nhận dạng từ “Gian” .66 Hình 12 Kết nhận dạng từ “Hien” .66 Hình 13 Kết nhận dạng từ “Met” .67 vi an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khuôn mặt GVHD: PGS.TS TRẦN THU HÀ DANH SÁCH CÁC BẢNG Bảng 1:Cấu trúc tổng quát âm tiết tiếng Việt 11 Bảng Kết thử nghiệm cho nhóm hệ thống học mẫu .63 Bảng Kết thử nghiệm cho nhóm mạo danh 64 vii an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khuôn mặt GVHD: PGS.TS TRẦN THU HÀ DANH SÁCH CÁC CHỮ VIẾT TẮT Thuật ngữ Artifactial Neural Network Fast Fourier Transform Dicrette Cosine Transform Hidden Markov Model Linear predictive code Mel-scale Frequency Cepstral Coefficient Multi Layer Perceptron Speech Recognition Bias Pattern Recognition Likelihood Similarity Feature Spectral, spectrum Graphical User Interface Từ viết tắt ANN FFT DCT HMM LPC Ý nghĩa Mạng nơron nhân tạo Biến đổi Fourier nhanh Biến đổi cosin rời rạc Mơ hình Markov ẩn Hế số dự đốn tuyến tính MFCC Hệ số cepstral độ đo mel MLP SR,ASR Mạng perceptron truyền thẳng nhiều lớp Nhận dạng tiếng nói Ngƣỡng kích hoạt Nhận dạng mẫu Mức độ giống Mức độ tƣơng tự Đặc trƣng Phổ tín hiệu Giao diện ngƣời sử dụng GUI viii an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khuôn mặt GVHD: PGS.TS TRẦN THU HÀ Bắt đầu Ghi âm từ cần huấn luyện, từ nói nhiều lần Trích đặc trƣng MFCC 256 từ Kết hợp tất đặc trƣng từ tạo thành tập liệu huấn luyện Lƣợng tử vector tập liệu huấn luyện để tạo codebook Gán nhãn cho từ Khởi tạo HMM cho từ Huấn luyện HMM cho từ Kết thúc Hình 5.5:Lƣu đồ giải thuật huấn luyện HMM 5.1.4 Nhận dạng mô hình HMM Vì tín hiệu tiếng nói có độ dài ngắn khác nên dãy vector đặc trƣng MFCC tƣơng ứng khơng có số phần tử.Nhƣng đầu vào MLP lại phải cố định Do phải thực lƣợng tử hóa vector đặc trƣng MFCC cách đƣa qua mơ hình Markov Kết đầu vào mơ hình Markov vector 39 thành phần.Đầu mong muốncủa liệu nhận dạng đƣợc xácđịnh cách, tính xác suất chuỗi quan sát mơ hình từ Sau chọn xác suất lớn 59 an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khuôn mặt GVHD: PGS.TS TRẦN THU HÀ chuỗi quan sát ứng với mơ hình từ Khi ta tìm đƣợc số từ cần đƣợc nhận dạng [6] Hình 5.6:Lƣu đồ giải thuật nhận dạng từ đơn sử dụng HMM 60 an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khuôn mặt GVHD: PGS.TS TRẦN THU HÀ  Sau vector đặc trƣng hệ số đặc trƣng đƣợc lƣợng tử vector để chuyển thành chuỗi quan sát O  Sau có đƣợc chuỗi quan sát O từ cần nhận dạng, ta tiến hành đọc lần đƣợc mơ hình HMM từ đƣợc huấn luyện trƣớc tính xác suất chuỗi quan sát O vừa đƣợc tạo mơ hình HMM  Trên sở xác suất chuỗi quan sát O mơ hình HMM đƣợc huấn luyện, ta lựa chọn xác suất có giá trị lớn chuỗi quan sát O ứng với mơ hình 5.2 Thiết kế phần mềm giao diện nhận dạng Giao diện nhận dạng giọng nói máy tính đƣợc thiết kế GUI phần mềm MATLAB.Sau thiết kế giao diện có hình dạng nhƣ hình 5.7 Hình 5.7:Giao diện nhận dạng tiếng nói Trong giao diện có nút điều khiển nút Training, nút Voice Recognition, nút Clear nút Close, có text dùng để hiển thị từ đƣợc nhận dạng cịn lại thể hình ảnh robot đƣợc nhận dạng 61 an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khuôn mặt GVHD: PGS.TS TRẦN THU HÀ Các bƣớc tiến hành mô nhận dạng đƣợc thực nhƣ sau: Bƣớc 1: nhấn vào nút Training để bắt đầu huấn luyện cho mơ hình nhận dạng, sau huấn luyện thành cơng lên chữ Training Finish ô text thị chữ Bƣớc 2: nhấn vào nút Voice Recognition bắt đầu đọc từ nhận dạng từ Micro, thu tiếng nói vịng giây nên đọc từ khoảng thời gian Từ đƣợc nhận dạng đƣợc thị ô text thị chữ , đồng thời ô text hình ảnh hình ảnh robot thể cảm xúc tƣơng ứng với từ đƣợc nhận dạng Bƣớc 3: Để đọc từ khác ta nhấn nút Clear sau lặp lại bƣớc Muốn khỏi chƣơng trình ta nhấn nút Close 5.3 Kết thử nghiệm phần mềm nhận dạng Tập liệu tiếng nói đƣợc thu âm từ 50 ngƣời nói khác nhau, thuộc miền Nam, gồm nam lẫn nữ (40 nam, 10 nữ) Dữ liệu tiếng nói đƣợc lấymẫu mức 8000Hz, 16 bit đọc trực tiếp máy tính phần mềm Matlab Tập liệu đƣợc tổ chức thành nhóm: 40 ngƣời đƣợc hệ thống học mẫu (registered speakers) 10 ngƣời đóng vai trị ngƣời mạo danh (impostors/unknownspeakers) Dữ liệu tiếng nói từ ngƣời nhóm hệ thống học mẫu đƣợc phân tích thành vector đặc trƣng có kích thƣớc 39xFrame, Frame số khung liệu tiếng nói, số khung khơng giống theo thời gian theo ngƣời nói Tập hợp tất vector đặc trƣng lại thực lƣợng tử hóa để tạo codebook.Nhƣ vậy, với codebook vector đặc trƣng tham số để thực huấn luyện mô hình nhận dạng kiểm tra hiệu suất mơ hình Riêng nhóm mạo danh, khơng cần liệu huấn luyện nên tạo vector đặc trƣng (không đƣợc sử dụng công đoạn lƣợng tử hóa huấn luyện); đó, nhóm đƣợc sử dụng để kiểm tra tính hiệu mơ hình 62 an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khn mặt GVHD: PGS.TS TRẦN THU HÀ Tín hiệu tiếng nói Phân tích hệ số đặc trƣng mfccN mfcc4 mfcc3 mfcc2 mfcc1 Các vector đặc trƣng Hình 5.8 Minh họa phân tích liệu tiếng nói thành hệ số đặc trƣng để sử dụng cho huấn luyện hệ thống nhận dạng Nhƣ vậy, từ tập liệu ban đầu, ta chia thành tập con:  Tập huấn luyện: gồm 40 ngƣời, ngƣời có mẫu Tổng cộng 400 mẫu  Tập kiểm tra: gồm 50 ngƣời (40 registered speakers 10 unknown speakers),mỗi ngƣời có mẫu Tổng cộng 500 mẫu Tập huấn luyện đƣợc dùng để huấn luyện mơ hình tập kiểm tra đƣợc dùng đểkhảo sát tham số đánh giá hiệu hệ thống Tất công đoạn đƣợc thực máy tính đƣợc kiểm tra, mơ phần mềm MATLAB Kết thử nghiệm nhận dạng từ phần mềm MATLAB cho nhóm ngƣời mà hệ thống có học mẫu điều kiện bình thƣờng đƣợc tổng hợp bảng sau: Bảng 5.1 Kết thử nghiệm cho nhóm hệ thống học mẫu Tỉ lệ nhận dạng xác Tỉ lệ nhận dạng nhầm Tỉ lệ không nhận dạng TỪ NHẬN DẠNG VUI BUỒN HIỀN GIẬN 92,7% 93,5% 96% 92% 7,3% 6,5% 4,0% 8,0% 0,0% 0,0% 0,0% 0,0% 63 an MỆT 92,3% 7,7% 0,0% SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khuôn mặt GVHD: PGS.TS TRẦN THU HÀ Bảng 5.2 Kết thử nghiệm cho nhóm mạo danh Tỉ lệ nhận dạng xác Tỉ lệ nhận dạng nhầm Tỉ lệ không nhận dạng TỪ NHẬN DẠNG BUỒN HIỀN GIẬN VUI 90,38% 91,0% 94% 90,0% 9,62% 9,0% 6,0% 10,0% 3,0% 0,0% 0,0% 5,0% MỆT 90,27% 9,73% 5,0% Trong bảng kết thử nghiệm nhóm có học mẫu khơng học mẫu Đối với nhóm có học mẫu ngƣời thử nghiệm 20 lần cho từ điều kiện bình thƣờng, nhóm học mẫu gồm 40 ngƣời sau thử nghiệm ngƣời cho kết tổng phần trăm nhận dạng từ ứng với ngƣời sau chia cho tổng số ngƣời thử nghiệm Tƣơng tự nhóm khơng học mẫu ngƣời thử nghiệm 20 lần cho từ điều kiện bình thƣờng, nhóm khơng học mẫu gồm 10 ngƣời sau thử nghiệm ngƣời cho kết tổng phần trăm nhận dạng từ ứng với ngƣời sau chia cho tổng số ngƣời thử nghiệm Kết tính theo hiệu suất nhận dạng từ xác, sau thử nghiệm đọc từ với nhiều kiểu đọc khác mà hệ thống nhận dạng từ xác Nhƣ vậy, với codebook có từ hệ thống nhận dạng cho kết nhận dạng xác 90% thời gian nhận dạng cho từ chƣa đầy giây Đây kết chấp nhận đƣợc triển khai hệ thống nhận dạng tiếng nói phần cứng Nhìn chung kết nhận dạng chấp nhận đƣợc Do đó, để đạt hiệu cao thời gian huấn luyện HMM, đặc biệt huấn luyện với số lƣợng mẫu lớn, không bị hạn chế không gian lƣu trữ, xử lý liệu việc thực cơng đoạn huấn luyện tạo codebook máy tính phần mềm MATLAB điều cần thiết Sau hình ảnh kết nhận dạng phần mềm giao diện 64 an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khn mặt GVHD: PGS.TS TRẦN THU HÀ Hình 5.9: Kết nhận dạng từ “vui” Hình 5.10: Kết nhận dạng từ “Buon” 65 an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khuôn mặt GVHD: PGS.TS TRẦN THU HÀ Hình 5.11: Kết nhận dạng từ “Gian” Hình 5.12: Kết nhận dạng từ “Hien” 66 an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khn mặt GVHD: PGS.TS TRẦN THU HÀ Hình 5.13: Kết nhận dạng từ “Met” 67 an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khuôn mặt GVHD: PGS.TS TRẦN THU HÀ Chƣơng 6: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 6.1 Kết luận Đã thiết kế thi cơng hồn thành nhiệm vụ đề tài đƣa  Xây dựng chƣơng trình nhận dạng tiếng nói tiếng việt sử dụng mơ hình Markov ẩn theo mơ hình từ Trích tham số tín hiệu tiếng nói phân tích cepstrum thơng qua dãy lọc theo thang tần số Mel- Mel Frequency Cepstral Coeffcients (MFCC)  Sử dụng kỹ thuật lƣợng tử hóa vector – vector quantization dùng để lấy trung bình đặc tính frame nhƣ đánh nhãn vector đƣợc ứng dụng nhận dạng tiếng nói mơ hình Markov ẩn Chọn phân từ thành nhiều frame, frame có N mẫu Các frame tiếng nói biểu diễn qua hàm lƣợng ngắn hạn Đã thực xử lý tiếng nói thuật toán phát điểm đầu cuối từ vào hàm lƣợng ngắn hạn  Xây dựng giao diện phần mềm hiển thị chữ tiếng việt giao diện điều khiển máy tính  Chọn lựa hàm số mơ hình Markov ẩn để thiết kế giao diện nhận dạng lệnh, “vui”, “buồn” , “hiền”, “giận”, “mệt”  Vận hành thử chƣơng trình 68 an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khuôn mặt 6.2 GVHD: PGS.TS TRẦN THU HÀ Nhận xét  Mặc dù kết nhận dạng từ không đƣợc mạng huấn luyện trƣớc khơng cao Nhƣng kết chấp nhận đƣợc điều kiện thiết bị thu âm chƣa tốt điều kiện phòng thu âm chƣa đạt yêu cầu Để nâng cao kết nhiều kỹ thuật cần đƣợc nghiên cứu tiếp Tuy nhiên, độ phức tạp tính toán tăng  Tuy số trƣờng hợp nhận dạng sai khơng nhận dạng đƣợc cịn tồn số hạn chế nhƣ: chƣa có sở tiếng nói tiếng Việt đủ lớn, có nhiều thơng số chƣa đƣợc lựa chọn tối ƣu Vì vậy, ta hồn tồn nâng cao độ xác hệ thống nhận dạng thêm  Phƣơng pháp đƣợc áp dụng để nhận dạng từ đơn 6.3 Hạn chế đề tài:  Chƣơng trình nhận dạng chƣa nhận dạng đƣợc từ ghép, chƣa nhận dạng đƣợc câu nói liên tục  Chƣơng trình dừng lại mức độ nhận dạng đƣợc từ đơn  Việc thực thi chƣơng trình máy tính khả xử lý tốc độ tính toán cao nhƣng cần tiến hành thực nghiệm KIT nhận dạng tiếng nói để biết đƣợc hiệu suất nhận dạng 6.4 Hƣớng phát triển đề tài  Đề tài phát triển làm sở liệu điều khiển nhiều dạng công nghiệp Tập lệnh câu lệnh  Tín hiệu điều khiển đƣợc từ xa xuất trực tiếp từ cổng COM  Phƣơng hƣớng nghiên cứu phát triển đề tài là: xây dựng sở liệu mẫu đủ lớn So sánh với kết phƣơng pháp kinh điển truyền thống Thử mở rộng phong phú cấu trúc mạng Tiến hành thực nghiệm KIT nhận dạng có tốc độ tính toán xử lý mạnh, kết hợp phƣơng pháp sử dụng Neural Network với giải thuật di truyền số phƣơng pháp đại việc nhận dạng tiếng nói nhằm nâng cao kết nhận dạng  Đi sâu thêm tăng số lƣợng từ vựng nhận dạng, kết hợp với phân tích ngữ pháp để nhận dạng đƣợc câu tiếng nói tiếng Việt đơn giản có độ xác cao 69 an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khuôn mặt GVHD: PGS.TS TRẦN THU HÀ  Kết hợp giải thuật RASTA xử lý tín hiệu để nâng cao hiệu suất nhận dạng Tuy nhiên việc nhận dạng giọng nói cịn khó khăn cho đối tƣợng điều khiển, tiếng việt đƣợc nghiên cứu chi tiết độ xác câu lệnh điều khiển tốt nhiều 70 an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khuôn mặt GVHD: PGS.TS TRẦN THU HÀ TÀI LIỆU THAM KHẢO [1] PGG.TS Trần Thu Hà, Th.S Trần Tiến Đức, Mã Hóa Tiếng Nói Thành Lệnh Sử Dụng Trong Công Nghiệp Trƣờng Đại Học Sƣ Phạm Kỹ Thuật Tp.HCM [2] TS Nguyễn Nhƣ Hiền, TS Lại Khắc Lãi, Hệ mờ & Nơron kỹ thuật điều khiển, NXB Khoa học tự nhiên công nghệ Hà Nội, 2007 [3] Lawrence Rabiner – Biing – Hwan Juang, Fundamentals of speech recognition, Prentice-Hall International, 1993 [4] John Holmes, Wendy Holmes, Speech synthesis and recognition 2nd edition, British Library [5] TS Nguyễn Văn Giáp, KS Trần Hồng Việt, Kỹ Thuật Nhận Dạng Tiếng Nói Ứng Dụng Trong Điều Khiển, Bộ Mơn Cơ Điện Tử - Khoa Cơ Khí – Trƣờng Đại Học Bách Khoa Tp.HCM [6] TS Hoàng Đình Chiến, Nhận Dạng Tiếng Việt Dùng Mạng Neuron Kết Hợp Trích Đặc Trƣng LPC AMDF Trƣờng Đại Học Bách Khoa Tp.HCM 71 an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khn mặt GVHD: PGS.TS TRẦN THU HÀ Và trang web: http://vi.wikipedia.org/wiki/M%C3%B4_h%C3%ACnh_Markov_%E1%BA %A9n http://vi.wikipedia.org/wiki/M%E1%BA%A1ng_n%C6%A1-ron http://arm.vn/TinChiTiet/tabid/105/id/110/Default.aspx http://ngonngu.net/index.php?p=60 72 an SVTH: TRƢƠNG MINH THIỆN S an K L 0 ... dụng mơ hình nhận dạng tiếng nói tiếng Việt hệ thống nhận dạng, điều khiển thiết bị, robot,…bằng tiếng nói tiếng Việt an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khn mặt GVHD:... nói cần nhận dạng với mẫu đƣợc học lƣu trữ nhớ Khó khăn nhận dạng tiếng nói tiếng nói ln biến thiên theo thời gian có khác biệt an SVTH: TRƢƠNG MINH THIỆN Nhận dạng tiếng nói thể trạng thái khuôn. .. chọn đề tài ? ?Nhận dạng tiếng nói thể trạng thái khuôn mặt? ??, nhằm nghiên cứu phƣơng pháp nhận dạng tiếng nói tiếng Việt thử nghiệm xây dựng hệ thống nhận dạng cỡ nhỏ.Việc nhận dạng đƣợc thực thi