(TIỂU LUẬN) xây DỰNG ỨNG DỤNG NHẬN DẠNG TIẾNG nói TIẾNG VIỆT BẰNG PHƢƠNG PHÁP học sâu

TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT – CÔNG NGHỆ BÁO CÁO TỐT NGHIỆP XÂY DỰNG ỨNG DỤNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT BẰNG PHƢƠNG PHÁP HỌC SÂU Giảng viên hƣớng dẫn : TS Bùi Thanh Hùng Sinh viên thực : Mai Huy Hoàng Lớp : D16PM01 Khố : 2016 - 2020 Bình Dương, tháng năm 2020 TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT – CÔNG NGHỆ BÁO CÁO TỐT NGHIỆP XÂY DỰNG ỨNG DỤNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT BẰNG PHƢƠNG PHÁP HỌC SÂU Giảng viên hƣớng dẫn : TS Bùi Thanh Hùng Sinh viên thực : Mai Huy Hoàng Lớp : D16PM01 Khố : 2016 - 2020 Bình Dương, tháng năm 2020 PHIẾU ĐÁNH GIÁ ĐỒ ÁN TỐT NGHIỆP CỦA GIẢNG VIÊN HƢỚNG DẪN Họ tên sinh viên: Mai Huy Hoàng MSSV: 1624801030144 Lớp: D16PM01 Tên đề tài: Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Tổng quan Cơ sở lý thuyết Phân tích thiết kế hệ thống Cài đặt kiểm thử Kết quả_ Nhận xét_ Đánh giá Kết luận_ Hƣớng phát triển Kết luận: ●Lƣu ý: phát có chép cố ý sửa đổi số liệu bị trừ toàn số điểm phần báo cáo Nhận xét: (GV nêu nhận xét chung khả làm việc, đóng góp sinh viên; ưu/khuyết điểm đề tài) …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… Giảng viên hƣớng dẫn TS Bùi Thanh Hùng PHIẾU ĐÁNH GIÁ ĐỒ ÁN TỐT NGHIỆP CỦA GIẢNG VIÊN PHẢN BIỆN Họ tên sinh viên: Mai Huy Hoàng MSSV: 1624801030144 Lớp: D16PM01 Tên đề tài: Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Tổng quan Cơ sở lý thuyết CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Hình 4.4 Giao diện trang chủ hệ thống Hình 4.5 Giao diện trang phân tích liệu CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Hình 4.6 Giao diện trang kết thử nghiệm ứng dụng Hình 4.7 Giao diện trang nhận dạng âm tiếng nói Tiếng Việt CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Hình 4.8 Giao diện trang kết nhận diện âm 4.5.2.2 Chức Mô tả Luồng hành động Tiền điều kiện CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Ti Ti Mô tả Cho phép ngƣời dùng nghe lại đoạn âm giọng CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Bảng 4.7 Bảng chức nghe lại giọng nói đ Mơ tả Cho phép ngƣời dùng dự đoán đoạn âm giọng nói mà ngƣời dùng thu âm trƣớc nam hay nữ CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Bảng 4.8 Bảng chức dự đoán âm Mơ tả Cho phép ngƣời dùng dự đốn đoạn âm giọng nói mà ngƣời dùng thu âm trƣớc nam hay nữ CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Bảng 4.9 Bảng chức xem kết dự CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Kết đạt đƣợc Sau tìm hiểu mạng nơ ron tích chập CNN tiến hành xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt Hệ thống nhận diện tiếng nói cịn nhiều hạn chế độ xác chƣa cao, nhiên dƣới kết đạt đƣợc : - Xây dựng đƣợc hệ thống nhận diện tiếng nói Tiếng Việt phƣơng pháp học sâu sử dụng mạng nơ ron tích chập CNN - Xây dựng Website trực quan hoá kết - Xử lý liệu âm tiền xử lý âm phù hợp với mạng CNN - Website đƣợc xây dựng công nghệ Flask Framework - Phân tích đánh giá mơ hình đề xuất - Kiểm thử tập liệu kiểm thử liệu Vivos Corpus thuộc lab khoa khoa học máy tính, trƣờng đại học khoa học tự nhiên [23] Những việc chƣa làm đƣợc - Chƣa tích hợp đƣợc vào hệ thống nhận lớn - Chƣa nhận diện tốt vùng miền giọng nói độ xác thấp - Chƣa phát triển thành API - Chƣa sử dụng nhiều đặc trƣng miền âm Hạn chế - Giải thuật chƣa tối ƣu thiếu kiến thức học máy - Độ xác vùng miền nhận diện đƣợc thấp - Dữ liệu dùng để huấn luyện có độ nhiễu cao, liệu âm khơng đạt chuẩn - Các thơng số dùng để cấu hình mạng nơ ron tích chập CNN chƣa phù hợp sai số cao Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Hƣớng phát triển - Tìm kiếm xây dựng lại liệu âm có độ nhiễu thấp, đồng với - Sử dụng hƣớng xử lý giải tốn nhận diện khác ngồi CNN nhƣ GMM (Gaussian Mixture Models), AlexNet, VGGNet, ResNet, DenseNet, … - Thay đổi thông số phù hợp cho mạng CNN nhƣ tăng khả nhận diện vùng miền mơ hình - Phát triển thành API nhằm tích hợp vào hệ thống nhận diện - Phát triển thành ứng dụng có ích nhƣ nhận diện âm có phịng chat voice từ phân loại thành viên theo nam nữ đếm số lƣợng phân loại theo vùng miền Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu TÀI LIỆU THAM KHẢO [1] LeCun, Bottou, Bengio and Haffner (1998) Object Recognition with GradientBased Learning [2] Đặng Văn Đức, CSDL đa phƣơng tiện, Bài giảng cho cao học, Đại học Công nghệ thông tin truyền thông, Đại học Bách khoa - Hà Nội, Đại học Công nghệ 2005-2014 [3] Isra Khan, Rafi Ullah, Shah Muhammad Emaduddin (2019).Robust Feature Extraction Techniques in Speech Recognition: A Comparative Analysis [4] Nguyễn Hồng Quang, Trịnh Văn Loan, Phạm Ngọc Hƣng (2017) Nhận dạng phƣơng ngữ Tiếng Việt sử dụng mạng nơ ron tích chập CNN, Viện Cơng Nghệ Thơng Tin Truyền Thông, Trƣờng Đại học Sƣ Phạm Kỹ Thuật Hƣng Yên [5] Phú Thị Quyên (2016) Xây dựng hệ thống tìm kiếm âm theo nội dung dựa đặc trƣng âm miền tần số, Luận văn Thạc sĩ – Trƣờng Đại học dân lập Hải Phòng [6] Tapas Chakraborty, Bidhan Barai, Bikshan Chatterjee, Nibaran Das, Subhadip Basu and Mita Nasipuri (2020) Closed-Set Device-Independent Speaker Identification Using CNN [7] Nidhi Srivastava (2013) Speech Recognition using MFCC and Neural Networks [8] Rishabh N Tak, Dharmesh M Agrawal, and Hemant A Patil (2017) Novel Phase Encoded Mel Filterbank Energies for Environmental Sound Classification [9] Ossama Abdel-Hamid, Abdel-rahman Mohamed, Hui Jiang, Li Deng, Gerald Penn, and Dong Yu (2014) Convolutional Neural Networks for Speech Recognition [10] D.Nagajyothi, P Siddaiah (2018) Speech Recognition Using Convolutional Neural Networks Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu [11] Khalid Hussain1, Mazhar Hussain2 and Muhammad Gufran Khan (2017) Improved Acoustic Scene Classification with DNN and CNN [12] Michele Valenti, Dario Tonelli, Fabio Vesperini, Emanuele Principi, Stefano Squartini (2017) A Neural Network Approach for Sound Event Detection in Real Life Audio [13] Phú Thị Quyên, Xây dựng hệ thống tìm kiếm âm theo nội dung dựa đặc trƣng miền tần số, Đại học dân lập hải phòng 2016 [14] 2) Rosen, Stuart (2011) Signals and Systems for Speech and Hearing (ấn [15] Stevens, Stanley Smith; Volkmann; John & Newman, Edwin B (1937) Journal of the Acoustical Society of America [16] in D Scherer, A Müller, and S Behnke, “Evaluation of pooling operations convolutional architectures for object recognition,” Proc 20th Int Conf Artif Neural Netw.: Part III, Berlin/Heidelberg, Germany, 2010 [17] Pydub: https://github.com/jiaaro/pydub [18] Librosa: https://github.com/librosa/librosa [19] Keras: https://keras.io [20] Tensorflow: https://www.tensorflow.org [21] Numpy: https://numpy.org/ [22] Matplotlib: https://matplotlib.org/ [23] Vivos Corpus: https://ailab.hcmus.edu.vn/vivos ... 48 Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu 4.2 Xử lý liệu 4.3 Huấn luyện 4.4 Đánh giá 4.5 Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt. .. nhận dạng âm mạng nơ-ron tích chập (Convolutional Neural Network) phƣơng pháp học sâu từ áp dụng vào thực tế: xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu - Xây dựng ứng. .. Framework Phƣơng pháp nghiên cứu thực nghiệm: - Lập trình xây dựng ứng dụng 1.5 Ý nghĩa khoa học thực tiễn Mục tiêu đề tài nghiên cứu, xây dựng ? ?ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học