(Luận văn thạc sĩ) Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp

THÔNG TIN TÀI LIỆU

(Luận văn thạc sĩ) Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp(Luận văn thạc sĩ) Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp(Luận văn thạc sĩ) Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp(Luận văn thạc sĩ) Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp(Luận văn thạc sĩ) Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp(Luận văn thạc sĩ) Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp(Luận văn thạc sĩ) Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp(Luận văn thạc sĩ) Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp(Luận văn thạc sĩ) Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp(Luận văn thạc sĩ) Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp(Luận văn thạc sĩ) Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp(Luận văn thạc sĩ) Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp(Luận văn thạc sĩ) Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp(Luận văn thạc sĩ) Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp(Luận văn thạc sĩ) Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp(Luận văn thạc sĩ) Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp(Luận văn thạc sĩ) Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp(Luận văn thạc sĩ) Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp(Luận văn thạc sĩ) Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp

Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu Các số liệu, kết nêu luận văn trung thực chƣa đƣợc công bố cơng trình khác Tp Hồ Chí Minh, ngày tháng 10 năm 2014 (Ký tên ghi rõ họ tên) NGUYỄN THÀNH CHUNG ii HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ LỜI CẢM ƠN Tôi xin chân thành cảm ơn gia đình tơi, đặc biệc cha mẹ tơi tạo điều kiện cho ăn học ngày hơm Chính họ nguồn động viên lớn ủng hộ tôi, giúp đỡ suốt trình học tập nhƣ việc thực luận văn Tôi xin chân thành cám ơn cô hƣớng dẫn PGS TS TRẦN THU HÀ trƣờng Đại học Kỹ Thuật Tp Hồ Chí Minh tận tình dạy, hƣớng dẫn, đóng góp nhiều ý kiến quý báu suốt q trình thực luận văn Tơi xin chân thành cám ơn thầy cô khoa Điện - Điện Tử nói riêng thầy trƣờng Đại Học Sƣ Phạm Kỹ Thuật Tp Hồ Chí Minh tạo cho môi trƣờng học tập thật tuyệt vời tạo điều kiện cho tơi hồn thành luận văn Xin cám ơn tất bạn học viên anh chị đóng góp ý kiến giúp đỡ tơi hồn thành luận văn Ngƣời thực luận văn NGUYỄN THÀNH CHUNG iii HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ TÓM TẮT Ngay phát minh máy tính, ngƣời mơ ƣớc máy tính nói chuyện với u cầu đơn giản máy xác định đƣợc từ ngữ mà nói với máy Đó mục tiêu ngành nhận dạng tiếng nói Đối với ngƣời, việc nghe, nghe tiếng mẹ đẻ vấn đề đơn giản Cịn máy tính, xác định chuỗi tín hiệu âm phát âm từ hồn tồn khơng đơn giản, khó khăn nhƣ việc học nghe ngoại ngữ Lĩnh vực nhận dạng tiếng nói đƣợc nghiên cứu thập kỉ có số thành cơng Có thể kể đến hệ thống nhận dạng tiếng Anh (ví dụ: phần mềm Via Voice IBM, hệ thống nhận dạng tiếng nói tích hợp OfficeXP…) Các hệ thống hoạt động tốt (cho độ xác khoảng 90 - 95%) nhƣng xa đạt đến mức mơ ƣớc chúng ta: có hệ thống nghe xác hiểu hồn tồn điều ta nói Riêng với tiếng Việt, lĩnh vực nhận dạng tiếng nói cịn mẻ Chƣa thấy xuất phần mềm nhận dạng tiếng Việt hoàn chỉnh thị trƣờng Số cơng trình nghiên cứu nhận dạng tiếng nói tiếng Việt đƣợc công bố hoi, kết cịn hạn chế từ vựng, độ xác… Tiếng Việt có nhiều đặc tính khác với ngôn ngữ đãđƣợc nghiên cứu nhận dạng nhiều nhƣ tiếng Anh, tiếng Pháp Do việc nghiên cứu nhận dạng tiếng Việt cần thiết Bên cạnh đó, việc triển khai hệ thống nhận dạng tiếng nói phần cứng Việt Nam nhiều hạn chế, khả nhận dạng cịn phụ thuộc vào ngƣời nói Nhận dạng tiếng Việt ứng dụng để làm lệnh điều khiển lĩnh vực mẻ Vì lí trên, tơi chọn đề tài “Nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp”, nhằm nghiên cứu phƣơng pháp nhận dạng tiếng nói tiếng Việt thử nghiệm xây dựng hệ thống nhận dạng cỡ nhỏ.Việc nhận dạng đƣợc thực thi máy tính điều khiển thơng qua Board Arduino Mega 2560, với từ vựng gồm từ đơn (vui, buồn, mệt, giận, hiền) với kết nhận dạng có độ xác khoảng 90% điều kiện bình thƣờng Từ khóa:Hiden Markov Model, Neural Netwoks, Hydrid ANN/HMM, MFCC methods, FFT algorithm, K-meanalgorithm, Board Arduino Mega 2560 iv HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ ABSTRACT The purpose with this final master degree project was to develop a speech recognitiontool, to make the technology accessible The development includes anextensive study of Hidden Markov Model, which is currently the state of the artin the field of speech recognition A speech recognizer is a complex machine developedwith the purpose to understand human speech In real life this speechrecognition technology might be used to get a gain in traffic security or facilitatefor people with functional disability The technology can also be applied to manyother areas However in a real environment there exist disturbances that mightinfluence the performance of the speech recognizer The report includes an performanceevaluation in different noise situations, in a robot environment The resultshows that the recognition rate varies from 92%, in a noise free environment, to90% in a more noisy environment v HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ MỤC LỤC LÝ LỊCH KHOA HỌC i LỜI CAM ĐOAN ii LỜI CẢM ƠN iii TÓM TẮT .iv MỤC LỤC vi DANH SÁCH CÁC HÌNH .ix DANH SÁCH CÁC BẢNG xi DANH SÁCH CÁC CHỮ VIẾT TẮT xii Chƣơng TỔNG QUAN 1.1.Tổng quan nhận dạng tiếng nói, tình hình nghiên cứu ngồi nƣớc 1.1.1.Nhận dạng tiếng nói 1.1.2.Tổng quan tình hình nghiên cứu 1.2.Mục tiêu đối tƣợng nghiên cứu đề tài 1.2.1.Mục tiêu 1.2.2.Đối tƣợng nghiên cứu 1.3.Nhiệm vụ giới hạn đề tài 1.3.1.Nhiệm vụ 1.3.2.Giới hạn 1.4.Phƣơng pháp nghiên cứu 1.5.Nội dung luận văn .7 1.6.Ý nghĩa thực tiễn đề tài Chƣơng ĐẶC TRƢNG TIẾNG NÓI TIẾNG VIỆT 2.1.TỔNG QUAN VỀ TIẾNG NÓI 2.2.Các đặc trƣng Tiếng Việt 2.2.1.Âm tiết 2.2.2.Âm vị 11 2.2.3.Nguyên âm phụ âm 11 2.2.4.Thanh điệu 12 Chƣơng MƠ HÌNH NHẬN DẠNG TIẾNG NĨI TIẾNG VIỆT 13 3.1 Phân loại hệ thống nhận dạng tiếng nói 13 3.1.1 Nhận dạng từ liên tục nhận dạng từ cách biệt 13 3.1.2 Nhận dạng phụ thuộc ngƣời nói độc lập ngƣời nói 13 3.2 Các yếu tố ảnh hƣởng đến kết nhận dạng tiếng nói : .15 3.3 Cấu trúc hệ nhận dạng tiếng nói: 16 3.4 Giải thuật hệ thống nhận dạng tiếng nói tiếng Việt dùng Markov ẩn: 17 vi HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ 3.5 Voice Acivation Detection (VAD): 18 3.6.Phƣơng pháp phân tích hệ số MFCC .19 3.6.1 Tiền xử lý 19 3.6.2 Tạo khung cửa sổ hóa tín hiệu 23 3.6.3 Trích đặc trƣng 25 3.6.4 Hậu xử lý 31 3.7 Lƣợng tử vector: 32 3.7.1 Tổng quan lƣợng tử vector (VQ): 32 3.7.2 Cấu trúc tập huấn luyện VQ: 33 3.7.3 Đo độ méo: 34 3.7.4 Phân nhóm vector huấn luyện: 34 Chƣơng 4: MƠ HÌNH MARKOV ẨN HMM 36 4.1 Quá trình Markov: 36 4.2 Mơ hình Markov ẩn: 38 4.3 Giải pháp toán học cho ba toán mơ hình Markov ẩn: 41 4.3.1 Bài toán 1: 41 4.3.2 Bài toán 2: 44 4.3.3 Bài toán 3: 45 4.4 Các loại mơ hình Markov ẩn: 49 Chƣơng 5: THIẾT KẾ PHẦN CỨNG VÀ MẠCH ĐIỀU KHIỂN ROBOT 50 5.1 Tổng quan phần cứng hệ thống : 50 5.2 Lựa chọn thiết bị: 52 5.2.1 Động cơ: 52 5.2.2 Board Arduino Mega 2560: 54 Chƣơng 6: THIẾT KẾ HỆ THỐNG NHẬN DẠNG VÀ PHẦN MỀM GIAO DIỆN NHẬN DẠNG .66 6.1.Thiết kế hệ thống nhận dạng tiếng nói máy tính 66 6.1.1.Trích đặc trƣng 67 6.1.2.Lƣợng tử hóa vector 71 6.1.3.Huấn luyện HMM 75 6.1.4.Nhận dạng mơ hình HMM 76 6.2.Thiết kế phần mềm giao diện nhận dạng 78 6.3 Kết thử nghiệm phần mềm nhận dạng 79 vii HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ Chƣơng KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 83 7.1 Kết luận 83 7.2 Nhận xét 84 7.3 Hạn chế đề tài: 84 7.4 Hƣớng phát triển đề tài 84 TÀI LIỆU THAM KHẢO 86 viii HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ DANH SÁCH CÁC HÌNH Hình Ngƣời nói khác phát âm khác 14 Hình Mơ hình nhận dạng tiếng nói bán độc lập ngƣời nói 15 Hình 3 Cấu trúc tổng quát hệ thống nhận dạng tiếng nói 16 Hình Lƣu đồ giải thuật hệ thống nhận dạng tiếng Việt dùng Markov ẩn .17 Hình Đoạn mẫu âm trƣớc VAD 18 Hình Đoạn mẫu âm sau VAD 18 Hình Sơ đồ giải thuật phƣơng pháp phân tích thơng tin tiếng nói 19 Hình Tiền xử lý tín hiệu 19 Hình Phân tích khoảng lặng tiếng nói 21 Hình 10 Tách tiếng nói khỏi khoảng im lặng theo VAD 22 Hình 11 Từ tiếng nói có khoảng im lặng tách thành tiếng nói khơng có khoảng lặng .23 Hình 12 Frame blocking Windowing 23 Hình 13 Chia khung chuỗi tín hiệu 24 Hình 14 Cửa sổ Hamming với hệ số α khác .24 Hình 15 Tín hiệu tiếng nói sau đƣợc cửa sổ hóa so với ban đầu 25 Hình 16 Các bƣớc thực MFCC 25 Hình 17 Phổ Fourier tín hiệu gốc tín hiệu cửa sổ hóa 26 Hình3 18 Băng lọc tam giác melscale miền tần số 27 Hình 19 Tính hệ số delta 29 Hình 20 Q trình rút trích đặc trƣng .30 Hình 21 Các bƣớc hậu xử lý tín hiệu 31 Hình 22 Sơ đồ khối cấu trúc VQ huấn luyện phân lớp 33 Hình 23 Lƣu đồ giải thuật VQ 35 Hình Xích Markov trạng thái S1,S2, S5 xác suất chuyển trạng thái .36 Hình Ví dụ mơ hình Markov ẩn sáu trạng thái .39 Hình Mơ tả dãy phép tốn đƣợc thực để tính αt(i) 43 Hình 4 Mơ tả dãy phép tốn đƣợc thực để tính biến βt(i) 44 Hình Mơ hình nhìn trƣớc 50 Hình Mơ hiǹ h nhiǹ nghiêng 50 Hình Mơ hiǹ h nhiǹ từ bên trái .51 Hình Mơ hình khn mặt thực tế robot 51 Hình 5 Cấu tạo bên RC servo 52 Hình Điều khiển vị trí trục động cách điều chế độ rộng xung 53 Hình 7.Động RC Servo EMax ES08A 54 Hình Giao diện IDE Arduino 57 Hình Board Arduino Mega 2560 (mặt trƣớc sau) 58 Hình 10.Board Arduino Mega 2560 59 Hình 11 Sơ đồ chân của ATMEGA2560 59 Hình 12 Sơ đờ ngun lý của Arduino Mega 2560 .61 Hình 13 Gõ lệnh targetinstaller vào khung Command Window s 61 Hình 14 Khung Target Installer xuấ t hiê ̣n, nhấ n Next 62 Hình 15.Matlab nhâ ̣n thông tin gói hỗ trơ ̣ thông qua ma ̣ng Internet .62 Hình 16 Lƣ̣a cho ̣n gói hỗ trơ ̣ Arduino và tiế p tu ̣c nhấ n Next 63 Hình 17 Nhấ n nút Install để cài đă ̣t 63 Hình 18 Matlab cài gói hỡ trơ ̣ Arduino 64 ix HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ Hình 19 Hồn thành tiến trình cài đặt 64 Hình 20 Arduino đã xuấ t hiê ̣n thƣ viê ̣n Simulink 65 Hình Sơ đồ khối mơ hình huấn luyện nhận dạng từ đơn .67 Hình Lƣu đồ giải thuật thực tách tiếng nói khỏi khoảng lặng 68 Hình Lƣu đồ giải thuật thực phân tích hệ số đặc trƣng 69 Hình 4.Minh họa lƣợng tử hóa vector .75 Hình Lƣu đồ giải thuật huấn luyện HMM 76 Hình 6 Lƣu đồ giải thuật nhận dạng từ đơn sử dụng HMM .77 Hình Giao diện nhận dạng tiếng nói 78 Hình 8.Minh họa phân tích liệu tiếng nói thành hệ số đặc trƣng để sử dụng cho huấn luyện hệ thống nhận dạng 80 Hình 9.Kết nhận dạng từ “vui” 82 x HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ DANH SÁCH CÁC BẢNG Bảng 1:Cấu trúc tổng quát âm tiết tiếng Việt 11 Bảng Kết thử nghiệm cho nhóm hệ thống học mẫu .80 Bảng Kết thử nghiệm cho nhóm mạo danh 81 xi HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ Thiết kế thuật toán LBG Thuật toán LBG thuật toán đệ quy, việc giải dựa vào lựachọn hai tiêu chuẩn tối ƣu Thuật toán yêu cầu codebook ban đầuC(0) Đây codebook khởi tạo, thu đƣợc qua trình phân tách Trongphƣơng thức này, codebook đƣợc đặt giá trị trung bình tồn dãyhuấn luyện Codevector đƣợc phân tách thành hai Thuật toán lặp đƣợcchạy với hai vector đƣợc khởi tạo cho codebook Hai codebook sau đƣợcphân thành bốn trình xử lý đƣợc lặp lại thu đƣợc số lƣợngcodebook mong muốn Thuật toán đƣợc tổng kết nhƣ sau: Thiết kế thuật toán LBG: Cho T ε>0 số lƣợng nhỏ có giá trị cố định Đặt N=1 𝑐1∗ = 𝑀 𝑀 𝑥𝑚 𝑚 =1 Tính ∗ 𝐷𝑎𝑣𝑒 = 𝑀𝑘 𝑀 𝑥𝑚 − 𝑐1∗ 𝑚 =1 Phân tách: Cho i = 1, 2, …, N, đặt: (0) 𝑐𝑖 = (1 + 𝜀)𝑐𝑖∗ (0) 𝑐𝑁+1 = (1 + 𝜀)𝑐𝑖∗ Đặt N = 2N (0) ∗ Lặp lại thuật toán: Đặt 𝐷𝑎𝑣𝑒 = 𝐷𝑎𝑣𝑒 Đặt số lặp i = i Cho m = 1, 2, …, M, Tìm giá trị nhỏ : (𝑖) 𝑥𝑚 − 𝑐𝑛 với n = 1, 2, …, N Với n* số nhỏ thu đƣợc xét Đặt : (𝑖) 𝑄(𝑥𝑚 ) = 𝑐𝑛 ∗ ii Cho n = 1, 2, …,N, Cập nhật lại codevector (𝑖+1) 𝑐𝑛 (𝑖) = 𝑄(𝑥 𝑚 ) =𝑐𝑛 𝑋𝑚 (𝑖) 𝑄(𝑥 𝑚 ) =𝑐𝑛 iii Đặt i = i+1 Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng 74 HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ iv Tính (𝑖) 𝐷𝑎𝑣𝑒 (𝑖−1) 𝑖 = 𝑀𝑘 (𝑖−1) v Nếu 𝐷𝑎𝑣𝑒 − 𝐷𝑎𝑣𝑒 /𝐷𝑎𝑣𝑒 𝑀 𝑥𝑚 − 𝑄(𝑥𝑚 ) 𝑚 =1 > 𝜀, quay lại bƣớc (i) 𝑖 ∗ vi Đặt 𝐷𝑎𝑣𝑒 − 𝐷𝑎𝑣𝑒 Cho i = 1, 2, …, N, (𝑖) 𝑐𝑛∗ = 𝑐𝑛 Là giá trị cuối codevector Lặp lại bƣớc thu đƣợc số lƣợng codebookmong muốn Hình 6.4:Minh họa lƣợng tử hóa vector 6.1.3 Huấn luyện HMM Thu thập tiền xử lí tín hiệu tiếng nói giai đoạn huấn luyện đƣợc thực phƣơng pháp thủ công: sử dụng phần mềm ghi âm, lọc nhiễu cắt thành từ riêng rẽ [6] Bộ liệu xây dựng gồm:  500tập liệu 16 bit 8kHz, tập phát âm từ  từ “vui”, “buồn”, “hiền”, “giận”, “mệt”  50 ngƣời nói Các liệu đƣợc tiếp tục chia làm phần: phần dành cho huấn luyện phần để kiểm tra Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng 75 HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ Bắt đầu Ghi âm từ cần huấn luyện, từ nói nhiều lần Trích đặc trƣng MFCC 256 từ Kết hợp tất đặc trƣng từ tạo thành tập liệu huấn luyện Lƣợng tử vector tập liệu huấn luyện để tạo codebook Gán nhãn cho từ Khởi tạo HMM cho từ Huấn luyện HMM cho từ Kết thúc Hình 6.5:Lƣu đồ giải thuật huấn luyện HMM 6.1.4 Nhận dạng mơ hình HMM Vì tín hiệu tiếng nói có độ dài ngắn khác nên dãy vector đặc trƣng MFCC tƣơng ứng khơng có số phần tử Nhƣng đầu vào MLP lại phải cố định.Do phải thực lƣợng tử hóa vector đặc trƣng MFCC cách đƣa qua mơ hình Markov Kết đầu vào mơ hình Markov vector 39 thành phần.Đầu mong muốncủa liệu nhận dạng đƣợc xácđịnh cách, tính xác suất chuỗi quan sát mơ hình từ Sau chọn xác suất lớn Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng 76 HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ chuỗi quan sát ứng với mơ hình từ Khi ta tìm đƣợc số từ cần đƣợc nhận dạng [6] Start Start Tách Tách từ từ khỏi khỏi khoảng khoảng lặng, lặng, xử xử lý lý nhiễu nhiễu Tín hiệu tiếng nói s(n) Trích Trích đặc đặc trƣng trƣng Các vector đặc trƣng {y1, y2, …, yT} Lƣợng Lƣợng tử tử hóa hóa vector vector M M11 Tính Tính xác xác suất suất M M22 Tính Tính xác xác suất suất P(y|M1) M MRR Tính Tính xác xác suất suất P(y|MR) P(y|M1) Chuỗi vector quan sát y = {y1, y2, …, yT} Xác Xác định định xác xác suất suất lớn lớn nhất End End Chỉ số từ đƣợc nhận dạng i*=argmax[P(y|M1)] i Hình 6.6:Lƣu đồ giải thuật nhận dạng từ đơn sử dụng HMM Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng 77 HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ  Sau vector đặc trƣng hệ số đặc trƣng đƣợc lƣợng tử vector để chuyển thành chuỗi quan sát O  Sau có đƣợc chuỗi quan sát O từ cần nhận dạng, ta tiến hành đọc lần đƣợc mô hình HMM từ đƣợc huấn luyện trƣớc tính xác suất chuỗi quan sát O vừa đƣợc tạo mơ hình HMM  Trên sở xác suất chuỗi quan sát O mơ hình HMM đƣợc huấn luyện, ta lựa chọn xác suất có giá trị lớn chuỗi quan sát O ứng với mơ hình 6.2 Thiết kế phần mềm giao diện nhận dạng Giao diện nhận dạng giọng nói máy tính đƣợc thiết kế GUI phần mềm MATLAB.Sau thiết kế giao diện có hình dạng nhƣ hình 6.7 Hình 6.7:Giao diện nhận dạng tiếng nói Trong giao diện có nút điều khiển nút Training, nút Voice Recognition, nút Clear nút Close, có text dùng để hiển thị từ đƣợc nhận dạng cịn lại thể hình ảnh robot đƣợc nhận dạng Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng 78 HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ Các bƣớc tiến hành mô nhận dạng đƣợc thực nhƣ sau: Bƣớc 1: nhấn vào nút Training để bắt đầu huấn luyện cho mơ hình nhận dạng, sau huấn luyện thành cơng lên chữ Training Finish text thị chữ Bƣớc 2: nhấn vào nút Voice Recognition bắt đầu đọc từ nhận dạng từ Micro, thu tiếng nói vòng giây nên đọc từ khoảng thời gian Từ đƣợc nhận dạng đƣợc thị ô text thị chữ , đồng thời text hình ảnh hình ảnh robot thể cảm xúc tƣơng ứng với từ đƣợc nhận dạng Bƣớc 3: Để đọc từ khác ta nhấn nút Clear sau lặp lại bƣớc Muốn khỏi chƣơng trình ta nhấn nút Close 6.3 Kết thử nghiệm phần mềm nhận dạng Tập liệu tiếng nói đƣợc thu âm từ 50 ngƣời nói khác nhau, thuộc miền Nam, gồm nam lẫn nữ (40 nam, 10nữ) Dữ liệu tiếng nói đƣợc lấymẫu mức 8000Hz, 16bit đọc trực tiếp máy tính phần mềm Matlab Tập liệu đƣợc tổ chức thành nhóm: 40 ngƣời đƣợc hệ thống học mẫu(registered speakers) 10 ngƣời đóng vai trị ngƣời mạo danh (impostors/unknownspeakers) Dữ liệu tiếng nói từ ngƣời nhóm hệ thống học mẫu đƣợc phân tích thành vector đặc trƣng có kích thƣớc 39xFrame, Frame số khung liệu tiếng nói, số khung khơng giống theo thời gian theo ngƣời nói Tập hợp tất vector đặc trƣng lại thực lƣợng tử hóa để tạo codebook Nhƣ vậy, với codebook vector đặc trƣng tham số để thực huấn luyện mơ hình nhận dạng kiểm tra hiệu suất mơ hình Riêng nhóm mạo danh, khơng cần liệu huấn luyện nên tạo vector đặc trƣng (không đƣợc sử dụng công đoạn lƣợng tử hóa huấn luyện); đó, nhóm đƣợc sử dụng để kiểm tra tính hiệu mơ hình Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng 79 HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ Tín hiệu tiếng nói Phân tích hệ số đặc trƣng mfccN mfcc4 mfcc3 mfcc2 mfcc1 Các vector đặc trƣng Hình 6.8 Minh họa phân tích liệu tiếng nói thành hệ số đặc trƣng để sử dụng cho huấn luyện hệ thống nhận dạng Nhƣ vậy, từ tập liệu ban đầu, ta chia thành tập con:  Tập huấn luyện: gồm 40 ngƣời, ngƣời có 5mẫu Tổng cộng 400 mẫu  Tập kiểm tra: gồm 50 ngƣời (40 registered speakers 10 unknown speakers),mỗi ngƣời có 5mẫu Tổng cộng 500mẫu Tập huấn luyện đƣợc dùng để huấn luyện mơ hình tập kiểm tra đƣợc dùng đểkhảo sát tham số đánh giá hiệu hệ thống Tất công đoạn đƣợc thực máy tính đƣợc kiểm tra, mô phần mềm MATLAB Kết thử nghiệm nhận dạng từ phần mềm MATLAB cho nhóm ngƣời mà hệ thống có học mẫu điều kiện bình thƣờng đƣợc tổng hợp bảng sau: Bảng Kết thử nghiệm cho nhóm hệ thống học mẫu Tỉ lệ nhận dạng xác Tỉ lệ nhận dạng nhầm Tỉ lệ không nhận dạng TỪ NHẬN DẠNG VUI BUỒN HIỀN GIẬN 92,7% 93,5% 96% 92% 7,3% 6,5% 4,0% 8,0% 0,0% 0,0% 0,0% 0,0% Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng 80 MỆT 92,3% 7,7% 0,0% HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ Bảng Kết thử nghiệm cho nhóm mạo danh Tỉ lệ nhận dạng xác Tỉ lệ nhận dạng nhầm Tỉ lệ không nhận dạng TỪ NHẬN DẠNG BUỒN HIỀN GIẬN VUI 90,38% 91,0% 94% 90,0% 9,62% 9,0% 6,0% 10,0% 3,0% 0,0% 0,0% 5,0% MỆT 90,27% 9,73% 5,0% Trong bảng kết thử nghiệm nhóm có học mẫu khơng học mẫu Đối với nhóm có học mẫu ngƣời thử nghiệm 20 lần cho từ điều kiện bình thƣờng, nhóm học mẫu gồm 40 ngƣời sau thử nghiệm ngƣời cho kết tổng phần trăm nhận dạng từ ứng với ngƣời sau chia cho tổng số ngƣời thử nghiệm Tƣơng tự nhóm không học mẫu ngƣời thử nghiệm 20 lần cho từ điều kiện bình thƣờng, nhóm khơng học mẫu gồm 10 ngƣời sau thử nghiệm ngƣời cho kết tổng phần trăm nhận dạng từ ứng với ngƣời sau chia cho tổng số ngƣời thử nghiệm Kết tính theo hiệu suất nhận dạng từ xác, sau thử nghiệm đọc từ với nhiều kiểu đọc khác mà hệ thống nhận dạng từ xác Nhƣ vậy, với codebook có từ hệ thống nhận dạng cho kết nhận dạng xác 90% thời gian nhận dạng cho từ chƣa đầy giây Đây kết chấp nhận đƣợc triển khai hệ thống nhận dạng tiếng nói phần cứng Nhìn chung kết nhận dạng chấp nhận đƣợc Do đó, để đạt hiệu cao thời gian huấn luyện HMM, đặc biệt huấn luyện với số lƣợng mẫu lớn, không bị hạn chế không gian lƣu trữ, xử lý liệu việc thực cơng đoạn huấn luyện tạo codebook máy tính phần mềm MATLAB điều cần thiết Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng 81 HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ Hình 6.9: Kết nhận dạng từ “vui” Chương Thiết kế hệ thống nhận dạng phần mềm giao diện nhận dạng 82 HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ Chƣơng 7: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 7.1 Kết luận Đã thiết kế thi cơng hồn thành nhiệm vụ đề tài đƣa  Xây dựng chƣơng trình nhận dạng tiếng nói tiếng việt sử dụng mơ hình Markov ẩn theo mơ hình từ Trích tham số tín hiệu tiếng nói phân tích cepstrum thông qua dãy lọc theo thang tần số Mel- Mel Frequency Cepstral Coeffcients (MFCC)  Sử dụng kỹ thuật lƣợng tử hóa vector – vector quantization dùng để lấy trung bình đặc tính frame nhƣ đánh nhãn vector đƣợc ứng dụng nhận dạng tiếng nói mơ hình Markov ẩn Chọn phân từ thành nhiều frame, frame có N mẫu Các frame tiếng nói biểu diễn qua hàm lƣợng ngắn hạn Đã thực xử lý tiếng nói thuật tốn phát điểm đầu cuối từ vào hàm lƣợng ngắn hạn  Xây dựng giao diện phần mềm thị chữ tiếng việt giao diện điều khiển máy tính  Chọn lựa hàm số mơ hình Markov ẩn để thiết kế giao diện nhận dạng tập lệnh đối tƣợng điều khiển – robot mặt ngƣời thể cảm xúc với lệnh, “vui”, “buồn” , “hiền”, “giận”, “mệt”  Thiết kế thi công robot mặt ngƣời thể cảm xúc  Thiết kế phần mềm phần cứng để điều khiển tiếng nói tiếng Việt xuất board để điều khiển đối tƣợng cơng nghiệp  Viết chƣơng trình điều khiển trênboard Arduino Mega 2560 để ứng dụng điều khiển đối tƣợng tiếng nói  Vận hành thử mơ hình hệ thống Chương Kết luận hướng phát triển 83 HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp 7.2 GVHD: PGS.TS TRẦN THU HÀ Nhận xét  Mặc dù kết nhận dạng từ không đƣợc mạng huấn luyện trƣớc khơng cao Nhƣng kết chấp nhận đƣợc điều kiện thiết bị thu âm chƣa tốt điều kiện phòng thu âm chƣa đạt yêu cầu Để nâng cao kết nhiều kỹ thuật cần đƣợc nghiên cứu tiếp Tuy nhiên, độ phức tạp tính tốn tăng  Tuy số trƣờng hợp nhận dạng sai không nhận dạng đƣợc cịn tồn số hạn chế nhƣ: chƣa có sở tiếng nói tiếng Việt đủ lớn, có nhiều thơng số chƣa đƣợc lựa chọn tối ƣu Vì vậy, ta hồn tồn nâng cao độ xác hệ thống nhận dạng thêm  Phƣơng pháp đƣợc áp dụng để nhận dạng từ đơn 7.3 Hạn chế đề tài:  Chƣơng trình nhận dạng chƣa nhận dạng đƣợc từ ghép, chƣa nhận dạng đƣợc câu nói liên tục  Chƣơng trình dừng lại mức độ nhận dạng đƣợc từ đơn  Việc thực thi chƣơng trình máy tính khả xử lý tốc độ tính tốn cao nhƣng cần tiến hành thực nghiệm KIT nhận dạng tiếng nói để biết đƣợc hiệu suất nhận dạng 7.4 Hƣớng phát triển đề tài  Đề tài phát triển làm sở liệu điều khiển nhiều dạng công nghiệp Tập lệnh câu lệnh  Tín hiệu điều khiển đƣợc từ xa xuất trực tiếp từ cổng COM  Phƣơng hƣớng nghiên cứu phát triển đề tài là: xây dựng sở liệu mẫu đủ lớn So sánh với kết phƣơng pháp kinh điển truyền thống Thử mở rộng phong phú cấu trúc mạng Tiến hành thực nghiệm KIT nhận dạng có tốc độ tính tốn xử lý mạnh, kết hợp phƣơng pháp sử dụng Neural Network với giải thuật di truyền số phƣơng pháp đại việc nhận dạng tiếng nói nhằm nâng cao kết nhận dạng  Đi sâu thêm tăng số lƣợng từ vựng nhận dạng, kết hợp với phân tích ngữ pháp để nhận dạng đƣợc câu tiếng nói tiếng Việt đơn giản có độ xác cao Chương Kết luận hướng phát triển 84 HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ  Kết hợp giải thuật RASTA xử lý tín hiệu để nâng cao hiệu suất nhận dạng Tuy nhiên việc nhận dạng giọng nói cịn khó khăn cho đối tƣợng điều khiển, tiếng việt đƣợc nghiên cứu chi tiết độ xác câu lệnh điều khiển tốt nhiều Chương Kết luận hướng phát triển 85 HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ TÀI LIỆU THAM KHẢO [1] Vũ Hải Quân, Nghiên cứu, Xây dựng hệ thống VoiceServer ứng dụng cho dịch vụ trả lời tự động qua điện thoại, Thuyết trình đề tài nghiên cứu khoa học, Đại học quốc gia Hồ Chí Minh, 2010 – 2012 [2] TS Nguyễn Nhƣ Hiền, TS Lại Khắc Lãi, Hệ mờ & Nơron kỹ thuật điều khiển, NXB Khoa học tự nhiên công nghệ Hà Nội, 2007 [3] Lawrence Rabiner – Biing – Hwan Juang, Fundamentals of speech recognition, Prentice-Hall International, 1993 [4] John Holmes, Wendy Holmes, Speech synthesis and recognition 2nd edition, British Library [5] Bian Wu, Xiaolin Ren, Chongqing Liu, Yaxin Zhang, A Robust, Real-Time Voice Activity Detection Algorithm for Embedded Mobile Devices, International Journal Of Speech Technology 8, 2005, page 133–146 [6] Hervé Bourlard, Nelson Morgan, Connectionist speech recognition a hybrid approach, Kluwer Academic Publishers, ISBN 0-7923-9396-1, 1994, page 21 – 151 [7] Ben J Shannon, Kuldip K Paliwal, A Comparative Study of Filter Bank Spacing for Speech Recognition, Microelectronic Engineering Research Conference, 2003 [8] Deller John R., Jr., Hansen John J.L., Proakis John G., Discrete-Time Processing of Speech Signals, IEEE Press, ISBN 0-7803-5386-2 [9] GS.TSKH Bạch Hƣng Khang, Nghiên Cứu Phát Triển Công Nghệ Nhận Dạng, Tổng Hợp Và Xử Lý Ngôn Ngữ Tiếng Việt, Viện Công Nghệ Thông Tin, 2007, 281 trang [10] TS Nguyễn Văn Giáp, KS Trần Hồng Việt, Kỹ Thuật Nhận Dạng Tiếng Nói Ứng Dụng Trong Điều Khiển, Bộ Mơn Cơ Điện Tử - Khoa Cơ Khí – Trƣờng Đại Học Bách Khoa Tp.HCM [11] TS Hồng Đình Chiến, Nhận Dạng Tiếng Việt Dùng Mạng Neuron Kết Hợp Trích Đặc Trưng LPC AMDF Trƣờng Đại Học Bách Khoa Tp.HCM Tài liệu tham khảo 86 HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ Và trang web: http://vi.wikipedia.org/wiki/M%C3%B4_h%C3%ACnh_Markov_%E1%BA %A9n http://vi.wikipedia.org/wiki/M%E1%BA%A1ng_n%C6%A1-ron http://arm.vn/TinChiTiet/tabid/105/id/110/Default.aspx http://ngonngu.net/index.php?p=60 Tài liệu tham khảo 87 HVTH: NGUYỄN THÀNH CHUNG S K L 0 ... NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp GVHD: PGS.TS TRẦN THU HÀ khác, nhận dạng tiếng nói đƣợc phát triển thứ tiếng khác, nƣớc ta nhận dạng tiếng nói cịn... Mơ hình nhận dạng tiếng nói Tiếng Việt 13 HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng công nghiệp GVHD: PGS.TS TRẦN THU HÀ Trong thực tế, ngƣời có giọng nói khác... Hình 1: Ngƣời nói khác phát âm khác Chương Mơ hình nhận dạng tiếng nói Tiếng Việt 14 HVTH: NGUYỄN THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng cơng nghiệp Lời nói Thu nhận liệu Rút

Ngày đăng: 14/12/2022, 20:53

Xem thêm: