Đồ án tốt nghiệp nhận dạng tiếng nói tiếng việt (speech to text) cho người có khuyết tật về giọng nói sử dụng mạng nơron (neural network) mô hình học sâu (deep learning).Đồ án này nhằm mục đích áp dụng các phương pháp học sâu thử nghiệm xâydựng hệ nhận dạng tiếng nói tiếng Việt hỗ trợ người khuyết tật giọng nói, giúpgiải quyết các vấn đề khuyết điểm của người khuyết tật giọng nói ở Việt Nam.
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐỒ ÁN TỐT NGHIỆP Thử nghiệm nhận dạng tiếng nói tiếng Việt cho người khuyết tật giọng nói phương pháp học sâu PHAN XUÂN PHÚC phuc.px156248@sis.hust.edu.vn Giảng viên hướng dẫn: TS Nguyễn Hồng Quang Chữ ký GVHD Bộ môn: Viện: Kỹ thuật máy tính Cơng nghệ thơng tin Truyền thơng HÀ NỘI, 12/2019 PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Thông tin sinh viên Họ tên sinh viên: Phan Xuân Phúc Điện thoại liên lạc: 0399150374 Lớp: CN-CNTT K60 Email: phanxuanphucnd@gmail.com Hệ đào tạo: Cử nhân công nghệ Đồ án tốt nghiệp thực tại: Viện Công nghệ thông tin Truyền thông Trường đại học Bách Khoa Hà Nội Thời gian làm ĐATN: từ 9/2019 đến 27/12/2019 Mục đích nội dung ĐATN Xây dựng, thử nghiệm nhận dạng tiếng nói tiếng Việt cho người khuyết tật giọng nói phương pháp học sâu Các nhiệm vụ cụ thể ĐATN - Tìm hiểu tổng quan xử lý tiếng nói; - Tìm hiểu mạng nơ-ron nhân tạo, mạng nơ-ron tích chập mạng hồi quy; - Tìm hiểu, nghiên cứu mơ hình học sâu đạt hiệu tốt cho nhận dạng tiếng nói; - Ứng dụng thử nghiệm vào tốn nhận dạng tiếng nói tiếng Việt cho người khuyết tật giọng nói Lời cam đoan sinh viên Tôi - Phan Xuân Phúc – cam kết ĐATN cơng trình nghiên cứu thân tơi hướng dẫn TS Nguyễn Hồng Quang Các kết nêu ĐATN trung thực, chép tồn văn cơng trình nghiên cứu khác Hà Nội, ngày 27 tháng 12 năm 2019 Tác giả đồ án tốt nghiệp Phan Xuân Phúc Xác nhận giáo viên hướng dẫn mức độ hoàn thành ĐATN cho phép bảo vệ Hà Nội, ngày 27 tháng 12 năm 2019 Giáo viên hướng dẫn TS Nguyễn Hồng Quang Lời cảm ơn Lời cảm ơn chân thành em xin gửi đến thầy cô trường Đại học Bách Khoa Hà Nội đặc biệt thầy cô Viện Công nghệ thông tin Truyền thông Trong bốn năm qua, em học khơng nhiều kiến thức mà cịn trang bị cho em hành trang vững bước sau Qua thời gian học tập, sống với Bách Khoa giúp em trở nên không ngại khó khăn thử thách, ln sẵn sàng với tinh thần chiến đấu, học hỏi, kiên trì khơng ngừng theo đuổi ước mơ, đam mê thân Đặt biệt nhất, em xin gửi lời cảm ơn chân thành tới thầy Nguyễn Hồng Quang, thầy giảng dạy trình học tập học phần trường hướng dẫn, giúp đỡ em hồn thành ĐATN Dẫu cịn nhiều thiếu sót giúp đỡ tận tình thầy giúp em có động lực hồn thành đề tài “Thử nghiệm xây dựng hệ nhận dạng tiếng nói tiếng Việt cho người khuyết tật giọng nói phương pháp học sâu” cách tốt Ngoài ra, em xin cảm ơn đến công ty Ftech, đặc biệt anh, bạn team NLP giúp đỡ tạo điều kiện để em hoàn thành tốt đồ án tốt nghiệp Cuối cùng, xin cảm ơn tới gia đình em hỗ trợ em việc thu thập liệu người bạn giúp đỡ trình học tập trường Em xin chân thành cảm ơn Sinh viên Phan Xuân Phúc Tóm tắt nội dung đồ án Đồ án nhằm mục đích áp dụng phương pháp học sâu thử nghiệm xây dựng hệ nhận dạng tiếng nói tiếng Việt hỗ trợ người khuyết tật giọng nói, giúp giải vấn đề khuyết điểm người khuyết tật giọng nói Việt Nam Bố cục đồ án gồm có 04 chương: Chương 1, Đặt vấn đề hướng giải pháp Trong chương trình bày vấn đề cần giải quyết, giới hạn phạm vi đề tài, hướng giải pháp cho vấn đề khuôn khổ đồ án Chương 2, Một số kiến thức liên quan Trong chương nói số vấn đề xử lý liệu âm tốn Phần sau chương trình bày thuật toán sử dụng cho toán số vấn đề liên quan Chương 3, Nhận dạng giọng nói người khuyết tật giọng nói Nội dung chương trình bày cách thu thập liệu, tiền xử lý liệu đầu vào, vần đề tăng cường liệu huấn luyện áp dụng mơ hình vào tốn Phần sau chương trình bày kết số thử nghiệm cho toán Chương 4, Kết luận hướng phát triển Nội dung chương trình bày điểm đạt được, điểm chưa giải hướng phát triển trình nghiên cứu Sinh viên thực MỤC LỤC CHƯƠNG ĐẶT VẤN ĐỀ VÀ HƯỚNG GIẢI PHÁP 1.1 Đặt vấn đề 1.2 Phạm vi đề tài 1.3 Hướng giải pháp CHƯƠNG MỘT SỐ KIẾN THỨC LIÊN QUAN 2.1 Một số vấn đề xử lý liệu âm Đọc liệu từ file âm Tỷ lệ lấy mẫu (Sampling rate) 2.2 Mạng nơ-ron (Neural Network) Giới thiệu tổng quan Mơ hình mạng CNN (Convolutional Neural Network) Mơ hình mạng RNN (Recurrent Neural Network) Một số vấn đề cần lưu ý CHƯƠNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT CHO NGƯỜI KHUYẾT TẬT GIỌNG NÓI 12 3.1 Dữ liệu cho toán 12 3.2 Cân liệu 14 3.3 Thực nhận dạng giọng nói 15 Tiền xử lý liệu âm / tiếng nói 15 Trích xuất đặc trưng 16 Chuẩn hóa liệu 19 Xây dựng kiến trúc mơ hình 20 Giải mã đầu (Decoding) 22 Phương pháp đánh giá 26 3.4 Kết thử nghiệm 26 3.5 Đánh giá tổng quan mơ hình cho việc áp dụng vào hệ thống nhận dạng tiếng nói cho người khuyết tật giọng nói 31 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 33 4.1 Kết luận 33 4.2 Hướng phát triển tương lai 33 TÀI LIỆU THAM KHẢO 35 PHỤ LỤC 37 DANH MỤC HÌNH VẼ Hình 1.1 Tổng quan hệ trình huấn luyện nhận dạng hệ thống Hình 2.1 Một sóng âm phát âm “mười sáu” Hình 2.2 Minh họa sóng dạng Analog Digital Nguồn [14] Hình 2.3 Ví dụ mạng neural network, hidden layer Nguồn [15] Hình 2.4 Mơ hình CNN Nguồn [16] Hình 2.5 Ma trận đầu vào kernel Hình 2.6 Ma trận Input × Kernel Feature map Hình 2.7 Ví dụ với stride=1 Hình 2.8 Ví dụ với stride=1 padding=1 Hình 2.9 Mơ hình mạng Recurrent Neural Network Nguồn [27] Hình 2.10 Cấu trúc mạng GRU Nguồn [28] Hình 2.11 Minh họa trình cập nhật gradient 10 Hình 3.1 Tổng quan phân bố âm vị tiếng Việt có tập liệu huấn luyện 12 Hình 3.2 Mười âm vị xuất nhiều tập liệu huấn luyện 13 Hình Hình Hình Hình Hình 3.3 Mười âm vị xuất tập liệu huấn luyện 13 3.4 Phân bố âm vị tập huấn luyện sau cân 14 3.5 Mơ tả hệ nhận dạng tiếng nói 15 3.6 Các bước q trình thực nhận dạng tiếng nói 15 3.7 Sơ đồ tính tốn hệ số MFCCs 16 Hình 3.8 Ví dụ phân khung đoạn tín hiệu Nguồn [22] 17 Hình 3.9 Cửa sổ Hamming 17 Hình 3.10 Mơ tả frame trước sau áp dụng cửa sổ Hamming tín hiệu phát âm “mười sáu” 18 Hình 3.11 Băng lọc tần số Mel với số lượng lọc 22, kích thước FFT 2048, sampling rate 16kHz 18 Hình 3.12 Một biểu diễn MFCCs-13 chiều phát âm “mười sáu” 19 Hình 3.13 Kiến trúc chung mơ hình cho thử nghiệm nhận dạng giọng nói tiếng Việt cho người khuyết tật giọng nói 20 Hình 3.14 Minh họa ma trận đầu CTC với phát âm “a” với chữ gồm {a, b} 23 Hình 3.15 Thuật tốn Greedy Search 24 Hình 3.16 Tất path tương ứng với đầu text “a” 24 Hình 3.17 Thuật toán Beam Search 25 Hình 3.18 Kiến trúc mơ hình thử nghiệm (Model 1) bao gồm layer Conv1D layer bi-simple RNN 27 Hình 3.19 Kiến trúc mơ hình thử nghiệm (Model 2) bao gồm layer Conv1D layer bi-GRU 28 Hình 3.20 Kết thay đổi hàm mát hai mơ hình Model1 Model2 sau 80 epochs Đường màu cam biểu thị cho Model đường màu xanh biểu thị cho Model 28 Hình 3.21 Minh họa kết so sánh Model Model với ba độ đo CER, WER SER (%) 29 Hình 3.22 Kết đánh giá Model người dựa ba độ đo CER, WER SER (%) 29 Hình 3.23 Kết đánh giá Google API người dựa độ đo CER, WER SER (%) 30 Hình 3.24 Kết so sánh mơ hình Model sử dụng Google API dựa CER, WER SER (%) 31 DANH MỤC BẢNG Bảng 3.1 Phân tích âm vị biến thể điệu phát âm “a” “đa” 12 Bảng 3.2 Mô tả liệu cho tập huấn luyện tập kiểm 14 Bảng 3.3 Kết so sánh hai mơ hình thử nghiệm sử dụng mạng bisimpleRNN bi-GRU dựa ba độ đo CER, WER SER (%) 28 Bảng 3.4 Kết đánh giá Google API cho nhận dạng tiếng nói người khuyết tật giọng nói liệu tập thử nghiệm (%) 30 DANH MỤC TỪ VIẾT TẮT API Application Programming Interface Giao diện lập trình ứng dụng CER Character Error Rate Tỷ lệ lỗi ký tự CNN Convolutional Neural Network Mạng rơ-ron tích chập CNTT Cơng nghệ thông tin CTC Connectionist Temporal Classification DNN Deep Neural Network Mạng nơ-ron sâu DTW Dynamic Time Warping Xoắn thời gian động DCT Discrete Cosine Transform Biến đổi Cosin rời rạc DFT Discrete Fourier Transform Biến đổi Fourier rời rạc ĐATN Đồ án tốt nghiệp HMM/GMM Hidden Markov Model/ Gaussian Mixed Model Mơ hình Makov ẩn / Mơ hình Gaussian hỗn hợp FFT Fast Fourier Transform Biến đổi Fourier nhanh GRU Gated Recurrent Unit class Kết unit xác suất phân loại class tương ứng thơi điểm định Kết hợp unit lại hợp thành cách “căn chỉnh” (alignment) 𝑦 cho chuỗi đầu vào 𝑥 Xác suất 𝑦 tổng xác suất tất alignments có Với ma trận xác suất đầu ra, thực việc giải mã (decoding) để lấy văn text tương ứng phát âm Có hai thuật tốn tơi tiếp cận cho việc decode đầu Greedy Search (hay gọi max decoding) Beam Search 3.3.5.1 Sử dụng thuật toán Greedy Search Thuật toán Greedy Search phương pháp tiếp cận đơn giản để decode ma trận đầu theo bước sau: (1) Nối ký tự khả thi (tức có xác suất lớn nhất) time-step, gọi Best-Candidate (2) Sau đó, loại bỏ ký tự lặp lại Và ta thu text đầu sau decoding tưng ứng với text đầu dự đốn Ví dụ cho đầu phát âm “a”, với chữ gồm {a, b} ký tự ‘_’ tương ứng với khoảng trắng, minh họa hình 3.15 Hình 3.14 Minh họa ma trận đầu CTC với phát âm “a” với chữ gồm {a, b} Với giả thuyết đầu ta truy xuất path bao gồm { a a, a b, a _, b a, b b, b _, _ a, _ b, _ _} Một path khả trước rút gọn Theo bước thuật toán decoding Greedy Search, ta có: (1): ‘_ _ ’ ( Dấu ‘_’ tương ứng với kí tự khoảng cách ) (2): ‘’ Đầu “” (tức rỗng) có xác suất tích xác suất ký tự time-step, tức 0.8*0.6 0.48 Mã giải thuật tốn Greedy Search mơ tả hình 3.15 23 Hình 3.15 Thuật tốn Greedy Search Greedy search lấy ký tự có score (điểm số) lớn tim-step Candidate đầu khả thi Ban đầu candidate khởi tạo rỗng (1) score tương ứng (2) Ở time-step lấy ký tự có score lớn (4) Nếu ký tự lấy khác với ký tự phía trước nó, tức ký tự cuối có candidate ta thêm ký tự vào candidate (6) score tương ứng tính lại cách nhân với xác suất đầu ký tự time-step tương ứng (7) Cuối cùng, ta thu đầu cho thuật toán Greedy Search score tương ứng (9) Việc sử dụng thuật toán Greedy Search mang lại tốc độ nhanh Nếu có 𝐶 ký tự 𝑇 time-steps, thuật toán chạy với độ phức tạp 𝑂(𝑇 ∗ 𝐶) Hình 3.16 Tất path tương ứng với đầu text “a” Vấn đề với sử dụng thuật toán Greedy Search đơn lấy chữ với xác suất cao time-step Trong thực tế, truy vết nhiều path thơng qua CTC cho nhãn, dựa quy tắt rút gọn sau chọn nhãn với xác xuất lớn Như ví dụ minh họa trên, path {a a, a _, _ a} cho đầu “a” với xác suất tổng xác suất tất path tương ứng Hình 3.11 mô tả tất path tương ứng với đầu “a” Tức xác suất cho đầu “a” 0.2*0.4 + 0.2*0.6 + 0.8*0.4= 0.52 > 0.48 Vì đầu “a” khả thi “” 24 Ta thấy rằng, việc áp dụng Greedy Search cịn có hạn chế số trường hợp định 3.3.5.2 Sử dụng thuật toán Beam Search Thuật toán Beam Search xây dựng nhằm mục đích giải vấn đề hạn chế thuật tốn Greedy Search Hình 3.17 mơ tả thuật tốn Beam Search Hình 3.17 Thuật tốn Beam Search Beam Search lặp lặp lại việc tạo beams scores Một beam tức đầu score điểm số tương ứng Danh sách beam ban đầu khởi tạo rỗng (1) score tương ứng (2) Sau đó, thuật tốn lặp lại tất time-step ma trận đầu (3-15) Beam-With (𝐵𝑊) số lượng beam giữ lại time-step Tại time-step, có BW có score tốt từ time-step trước giữ lại (4) Đối với beam này, score time-step tính (8) Sau đó, beam mở rộng tất ký tự (10) Ở ký tự bảng chữ tiếng Việt tính điệu ký tự khoảng cách Và sau đó, score tính (11) Sau time-step cuối cùng, beam tốt trả (16) Để tính tốn score cho beam Giả sử tổng xác suất tất path tương ứng với beam 𝑏 time-step 𝑡 𝑃𝑡𝑜𝑡(𝑏, 𝑡) Có trường hợp sảy ra: mở rộng lặp lại ký tự cuối mở rộng ký tự khác Khi thu gọn path mở rộng, thu beam không thay đổi ("a" → "𝑎") (copy) thu beam mở rộng (a"→"𝑎𝑏") Copy beam: Giả sử chung ta thêm ký tự giống với ký tự cuối beam Khi đó, cơng thức tính score sau: 𝑃𝑡𝑜𝑡(𝑏, 𝑡 )+= 𝑃𝑡𝑜𝑡(𝑏, 𝑡 − 1) 𝑚𝑎𝑡(𝑏[−1], 𝑡) Trong -1 số ký tự cuối beam Extend beam: Giả sử thêm ký tự 𝒄 khác với ký tự cuối Khi đó, cơng thức tính sau: 25 𝑃𝑡𝑜𝑡(𝑏 + 𝑐 ) = 𝑃𝑡𝑜𝑡(𝑏, 𝑡 − 1) 𝑚𝑎𝑡(𝑐, 𝑡) Phương pháp đánh giá Trong đồ án này, sử dụng độ đo tỷ lệ lỗi từ (WER) để đánh giá hiệu suất mơ hình nhận dạng tiếng nói Ngồi ra, tơi sử dụng thêm độ đo phổ biến khác tỉ lệ lỗi ký tự (CER) tỉ lệ lỗi câu (SER) để đánh giá cách tổng quan hiệu mơ hình xây dựng áp dụng cho nhận dạng tiếng nói người khuyết tật Cơng thức độ đo tính tốn sau: Word Error Rate: 𝑆+𝐷+𝐼 𝑁 Trong đó, 𝑆 số lượng từ thay thế, 𝑊𝐸𝑅 = 𝐷 số lượng từ xóa đi, 𝐼 số lượng từ thêm vào, 𝐶 số lượng từ xác, 𝑁 tổng số lượng từ transcript (𝑁 = 𝑆 + 𝐷 + 𝐶 ) Sentence Error Rate: 𝑆𝐸𝑅 = 𝐹 𝑁 Trong đó, 𝐹 số lượng câu sai, 𝑁 tổng số lượng câu Character Error Rate: 𝑠+𝑑+𝑖 𝑛 Trong đó, 𝑠 số lượng ký tự thay thế, 𝐶𝐸𝑅 = 𝑑 số lượng ký tự xóa đi, 𝑖 số lượng ký tự thêm vào, 𝑛 tổng số lượng ký tự transcript 3.4 Kết thử nghiệm Các thử nghiệm thực liệu mô tả phần 3.1 Bộ liệu bao gồm 1600 từ vựng thu âm thời điểm nói khác người nói khuyết tật khác Tôi thực việc chia liệu thành hai phần: Tập liệu training (huấn luyện): Tập liệu để huấn luyện mơ hình gồm 1600 từ vựng ghi âm thời điểm người nói Tổng cộng có 14400 phát âm Tập liệu valid (kiếm thử): 26 Tập liệu để kiểm thử mơ hình gồm 1600 từ vựng ghi âm thời điểm cịn lại người nói Tổng cộng có 4800 phát âm Phương pháp trích xuất đặc trưng MFCCs tơi áp dụng cho tồn thử nghiệm với windowing=20ms, stride=10ms Tức là, frame có độ dài 20ms khoảng cách frame 10ms Số chiều đặc trưng MFCCs 13 chiều Ban đầu, sử dụng mạng RNN hai chiều (bi-simple RNN) sau đó, tơi thử nghiệm với việc sử dụng mạng GRU hai chiều (bi-GRU) Chi tiết cụ thể hai mơ sau Model (2 Conv1D + bi-simple RNN): Kiến trúc model sử dụng hai lớp Conv1D ba lớp bidirectional-simple RNN (RNN hai chiều) Kiến trúc tốt cho mạng RNN mơ tả chi tiết hình 3.18 Các lớp Conv1D sử dụng tham số filter=512, kernel=5, stride=1, hàm kích hoạt ReLU Với lớp bidirectional-simple RNN với units=1024, dropout=0.4, merge_mode=`sum`, hàm kích hoạt Tanh Lớp cuối lớp Fully-connected với output=95 sử dụng hàm kích hoạt Softmax Hình 3.18 Kiến trúc mơ hình thử nghiệm (Model 1) bao gồm layer Conv1D layer bi-simple RNN Model (1 Conv1D + bi-GRU): Model sử dụng lớp Conv1D với filters=512, kernel=5, stride=1, hàm kích hoạt ReLU hai lớp bidirectional-GRU với units=1024, dropout=0.5, merge_mode=`sum`, hàm kích hoạt sử dụng hàm Tanh Giữa lớp sử dụng Batch Normalization Lớp cuối Fully-connected có chiều output 95 sử dụng hàm kích hoạt Softmax Chi tiết tham số, cấu trúc mơ hình mơ tả hình 3.19 27 Hình 3.19 Kiến trúc mơ hình thử nghiệm (Model 2) bao gồm layer Conv1D layer bi-GRU Hình 3.20 mơ tả kết thay đổi hàm mát hai mơ hình nói sau 80 epochs Hình 3.20 Kết thay đổi hàm mát hai mơ hình Model1 Model2 sau 80 epochs Đường màu cam biểu thị cho Model đường màu xanh biểu thị cho Model Việc decoding đầu ra, thử nghiệm sử dụng hai thuật toán Greedy Search Beam Search (BW=1000) Về bản, thử nghiệm với liệu này, hai thuật toán cho kết tương tự Kết hai mơ hình kiểm thử tập kiểm thử sau: Metrics Models Model (2 Conv1D + bi-RNN) Model (1 Conv1D + bi-GRU) CER WER SER 17.03 41.70 42.44 7.73 19.67 20.16 Bảng 3.3 Kết so sánh hai mơ hình thử nghiệm sử dụng mạng bisimpleRNN bi-GRU dựa ba độ đo CER, WER SER (%) 28 Hình 3.21 minh họa kết so sánh hai mơ hình thử nghiệm Model Model với ba độ đo CER, WER SER (%) Hình 3.21 Minh họa kết so sánh Model Model với ba độ đo CER, WER SER (%) Từ hình 3.21 kết bảng 3.3 cho ta thấy kết vượt trội mạng GRU chiều đạt với kết độ đo CER=7.73%, WER=19.67% CER=20.16% Về bản, hiệu mạng GRU so với mạng RNN chứng minh nhiều thử nghiệm khác Trong thử nghiệm đồ án này, kết cho thấy hiệu rõ rệt mạng GRU nhờ khả ghi nhớ phụ thuộc xa Hình 3.22 mơ tả kết đánh giá mơ hình Model cho kết nhận dạng tiếng nói người Hình 3.22 Kết đánh giá Model người dựa ba độ đo CER, WER SER (%) Ta thấy rằng, mơ hình học tốt với liệu tiếng nói DTM2 (tức tiếng nói tơi) với tỷ lệ lỗi thấp nhiều so với DTM1 (bố) DTM3 (anh 29 trai) Về mặt định tính thực tế đánh giá người nghe, giọng nghe rõ bố anh trai Tham số tối ưu sử dụng cho việc huấn luyện đánh giá mơ hình Model sau: Phương pháp tối ưu (Optimizer): SGD; Tốc độ học (Learning rate): 0.02; Weight decay: 1𝑒 − 6; Momentum: 0.9; Nesterove: True; Clip-norm: 5; Batch size: 32; Dropout: 0.5 Để trực quan việc đánh giá hiệu mơ hình, tơi sử dụng Google API [32] để đánh giá nhận dạng tiếng nói liệu tập thử nghiệm cho hai mô hình thử nghiệm nói so sánh với kết mơ hình tối ưu trog hai mơ hình tơi xây dựng Bảng 3.4 mơ tả kết đánh giá sử dụng Google API để nhận dạng tiếng nói cho người khuyết tật giọng nói Metrics Models Google API [32] CER WER SER 75.34 90.21 91.51 Bảng 3.4 Kết đánh giá Google API cho nhận dạng tiếng nói người khuyết tật giọng nói liệu tập thử nghiệm (%) Hình 3.23 mô tả kết đánh giá sử dụng Google API nhận dạng tiếng nói người Hình 3.23 Kết đánh giá Google API người dựa độ đo CER, WER SER (%) 30 Hình 3.23 minh họa kết so sánh độ đo mơ hình Model sử dụng Google API Hình 3.24 Kết so sánh mơ hình Model sử dụng Google API dựa CER, WER SER (%) Dựa vào kết so sánh mô hình Model Google API cho nhận dạng tiếng nói người khuyết tật giọng nói hình 3.24 ta thấy rằng, mơ hình Model vượt trội hồn toàn so với kết Google API Tuy nhiên, lý giải cho việc mơ hình Model huấn luyện với liệu tiếng nói người khuyết tật giọng nói nên hiệu mang lại tốt Từ minh chứng cho thấy mơ hình Model hoạt động tốt cho vấn đề nhận dạng tiếng nói người khuyết tật giọng nói 3.5 Đánh giá tổng quan mơ hình cho việc áp dụng vào hệ thống nhận dạng tiếng nói cho người khuyết tật giọng nói Với kết thử nghiệm nhận dạng dựa độ đo đánh giá phần 3.4, ta thấy mơ hình với kiến trúc xây dựng gồm Conv1D kết hợp với hai lớp bidirectional-GRU mang lại hiệu suất tốt liệu với người khuyết tật giọng nói liệu thử nghiệm Kết đánh giá với mơ hình tốt cho thử nghiệm (Model 2) liệu thu thập số trường hợp nhận dạng sai Cụ thể trường hợp dẫn đến trình nhận dạng sai ký tự sau: Các chữ mà phát âm giống ví dụ như: “ia” với “ya”; “iê” với “yê”; “âu” với “ô”, “au” với “o” Một số chữ mà người khuyết tật khó phát âm phân biệt như: “tr” với “t”; “x” với “s”; “gi” với “d”; “nh” với “n” Một số chữ mà người khuyết tật phát âm nghe bị lệch như: “kh” với “c”; “l” với “n”; “t” với “c”; “ng” với “n” 31 Trong số trường hợp bị phát thiếu âm chẳng hạn “q” (tức là, “quý” thành “úy”); “tr” thành “t” “” (tức “trong” thành “tong” “ong” hay “dấu” thành “ấu”… Và số trường hợp mơ hình cịn nhận dạng sai điệu nguyên âm Việc nhận dạng sai dù ký tự dẫn đến kết tỷ lệ lỗi từ cao nhiều so với tỷ lệ lỗi ký tự Tỷ lệ lỗi từ tỷ lệ lỗi câu tương đồng liệu chủ yếu từ đơn Song, bên cạnh có số từ ghép khơng nhận dạng hồn chỉnh Với mơ hình học sâu, liệu đóng vai trò quan trọng, ảnh hướng lớn đến hiệu suất mơ hình Kiến trúc mơ hình thử nghiệm lượng liệu nhỏ, cho ta thấy tính khả quan mơ hình áp dụng phương pháp học sâu Với hệ thống nhận dạng tiếng nói lớn hơn, cần thời gian thử nghiệm đánh giá Nhìn chung, phương pháp áp dụng mơ hình học sâu nói chung cho tốn nhận dạng tiếng nói tiếng Việt cho người khuyết tật giọng nói khả thi 32 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 4.1 Kết luận Đồ án trình bày thử nghiệm phương pháp sử dụng mơ hình phương pháp học sâu vào tốn nhận dạng tiếng nói tiếng Việt cho người khuyết tật giọng nói Cụ thể nội dung đạt sau: Bước đầu thực định hướng thân Nghiên cứu, xây dựng hệ thống hữu ích hỗ trợ cho người khuyết tật nói chung người khuyết tật giọng nói nói riêng Thu thập liệu thử nghiệm; nghiên cứu, tìm hiểu phương pháp tiền xử lý liệu, trích xuất đặc trưng cho liệu tiếng nói Tìm hiểu, nghiên cứu số kiến trúc mơ hình học sâu, cài đặt thử nghiệm số mơ hình phù hợp với liệu so sánh, đánh giá mơ hình thử nghiệm Những khó khăn thực đồ án: Do hạn chế mặt thời gian miền áp dụng đề tài đặt ra, liệu tốn thu thập cịn với đa dạng từ vựng, người nói độ dài ghi âm Viêc thu thập liệu thực tế từ người thân gia đình nhiều thời gian để hoàn thành tiền xử lý với liệu thu thập Với việc tìm hiểu sang lĩnh vực xử lý tiếng nói Và thử nghiệm cho tốn nhận dạng tiếng nói cho người khuyết tật, nhiều thời gian để tìm hiểu kiến thức tảng Việc kiếm soát hiểu sâu mạng rơ-ron cịn tương đối khó khăn Đồng thời việc huấn luyện, đánh giá mơ hình tốn nhiều thời gian, tài nguyên 4.2 Hướng phát triển tương lai Qua đánh giá kết thử nghiệm, thấy rõ hạn chế liệu huấn luyện phương pháp học sâu Trong tương lai, việc cải thiện kết cần thực bao gồm: Tăng cường việc thu thập liệu cải thiện độ rộng sâu tập liệu huấn luyện Tiến hành cải thiện việc tiền xử lý liệu, trích xuất đặc trưng phương pháp hiệu Cải kiến kiến trúc mơ hình âm học để học hiệu với liệu Cải tiến công đoạn decoding đầu ra, chẳng hạn tích hợp mơ hình ngôn ngữ hiệu quả, nhằm cải thiện chất lượng mô hình nhận dạng Thử nghiệm với mơ hình nhận dạng tiếng nói với liệu đa dạng thực tế hơn, nhận dạng với chuỗi phát âm dài, … 33 Nghiên cứu phương pháp để cải thiện chất lượng mơ hình nhận dạng tiếng nói đa dạng hóa người khuyết tật giọng nói Tăng cường liệu phương pháp chẳng hạn mơ hình sinh liệu, … để tăng cường liệu, đồng thời giảm hạn liệu huấn luyện cần thu thập Nghiên cứu hướng tiếp cận chuyển đổi tiếng nói người khuyết tật sang tiếng nói người nói chuẩn Biến đổi nghiên cứu thành sản phẩm ứng dụng thực tiễn, áp dụng cho người khuyết tật Bên cạnh đó, hệ thống nhận dạng tiếng nói gặp nhiều thách thức Việc giải thách thức hướng tương lai cho việc cải tiến toán 34 TÀI LIỆU THAM KHẢO [1] "Cổng thông tin lao động thương bin xã hội," 01 11 2019 [Online] Available: http://www.molisa.gov.vn/Pages/tintuc/chitiet.aspx?tintucID=29543 [Accessed 10 12 2019] [2] Đ N Đức, “Mạng nơ-ron mơ hình Markov ẩn nhận dạng tiếng nói,” Luận văn Tiến sĩ, Đại học Quốc Gia Hà Nội, 2003 [3] V T Thang, "Vietnamese tone recognition based on multi-layer perceptron network.," in Conference of Oriental Chapter of the International Coordinating Committee on Speech Database and Speech I/O System, Kyoto, 2008 [4] N H Quang, "Automatic Speech Recognition for Vietnamese using HTK system," IEEE-RIVF 2010, Ha Noi, 2010 [5] N T Thanh, "Nhận dạng tiếng việt nói sử dụng công cụ Kaldi," 2017 [6] Samouelian, "Knowledge based approach to speech recognition," 1994 [7] C Kare, "Speech recognition by Dynamic Time Warping," 2013 [8] S Boruah, "A study on HMM based speech recognition," 2016 [9] A B Nassif, "Speech Recognition Using Deep Neural Networks: A Systematic Review," 2010 [10] H A., "Deep speech: Scaling up end-to-end speech recognition," 2014 [11] A D., "Deep speech 2: End-to-end speech recognition in english and mandarin," in Proceedings of the 33rd International Conference on International Conference on Machine Learning, 2015 [12] "Wikipedia," [Online] Available: https://en.wikipedia.org/wiki/Analog_signal [Accessed 07 12 2019] [13] "Wikipedia," [Online] Available: https://en.wikipedia.org/wiki/Digital_signal [Accessed 07 12 2019] [14] "TechDifferences," [Online] Available: https://techdifferences.com/difference-between-analog-and-digitalsignal.html [Accessed 09 12 2019] [15] "CS231n Course," Stanford, [Online] Available: http://cs231n.github.io/neural-networks-1/ [Accessed 09 12 2019] [16] N L, "CNN - Convolution neural networks - Dress recognition," [Online] Available: https://narengowda.github.io/cnn-convolution-neural-networksdress-recognition/ [Accessed 10 12 2019] [17] Y L Cun, "A Theoretical Framework for Back-Propagation," 1998 35 [18] X Glorot, "Understanding the difficulty of training deep feedforward neural networks," 2010 [19] G A., "Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks.," ICML, 2006 [20] G A., "Towards end-to-end speech recognition with recurrent neural networks," ICML, 2014 [21] A Botev, "Nesterov’s Accelerated Gradient and Momentum as approximations to Regularised Update Descent," 2016 [22] S Abdoli, "End-to-end environmental sound classification using a 1d convolutional neural network," 2019 [23] "Wikipedia," [Online] Available: https://www.ezglot.com/most-frequentlyused-words.php?l=vie&s=wp-freq [Accessed 10 10 2019] [24] "Wikipedia," [Online] Available: https://en.wiktionary.org/wiki/Category:Vietnamese_compound_words [Accessed 10 10 2019] [25] "Wikipedia," [Online] Available: https://en.wikipedia.org/wiki/Regularization_(mathematics) [Accessed 11 12 2019] [26] Đ M Hải, "Hai's Blog," [Online] Available: https://dominhhai.github.io/vi/2017/12/ml-overfitting/ [Accessed 17 12 2019] [27] "Wikimedia Commons," [Online] Available: https://commons.wikimedia.org/wiki/File:Recurrent_neural_network_unfol d.svg [Accessed 05 12 2019] [28] A Adate, "Evaluation of Gated Recurrent Neural Networks on Deep Sentence Classification," 2017 [29] "Wikipedia," [Online] Available: https://en.wikipedia.org/wiki/Activation_function [Accessed 04 12 2019] [30] "Wikipedia," [Online] Available: https://en.wikipedia.org/wiki/Gradient_descent [Accessed 04 12 2019] [31] S Ruder, "An overview of gradient descent optimization algorithms," 2017 [32] "Google Cloud," [Online] Available: https://cloud.google.com/speech-totext/docs/reference/rest/?hl=vi [Accessed 25 12 2019] 36 PHỤ LỤC Thơng tin cấu hình máy tính sử dụng cho trình thực đồ án tốt nghiệp: Máy tính cá nhân: Operating System: Ubuntu 18.04 System Model: Lenovo Thinkpad X250 Processer: Intel ® Core ™ i5-5300U CPU @ 2.3GHz Memory: 8192MB RAM Máy tính server: Processor: Intel ® Core ™ i7-8700K CPU @ 3.7GHz Memory: 16384MB RAM GPU: NVIDIA Geforce GTX 1080 Ti 37