XÂY DỰNG ỨNG DỤNG NHẬN DẠNG TIẾNG nói TIẾNG VIỆT BẰNG PHƢƠNG PHÁP học sâu

TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT – CÔNG NGHỆ BÁO CÁO TỐT NGHIỆP XÂY DỰNG ỨNG DỤNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT BẰNG PHƢƠNG PHÁP HỌC SÂU Giảng viên hƣớng dẫn : TS Bùi Thanh Hùng Sinh viên thực : Mai Huy Hoàng Lớp : D16PM01 Khố : 2016 - 2020 Bình Dương, tháng năm 2020 TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT – CÔNG NGHỆ BÁO CÁO TỐT NGHIỆP XÂY DỰNG ỨNG DỤNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT BẰNG PHƢƠNG PHÁP HỌC SÂU Giảng viên hƣớng dẫn : TS Bùi Thanh Hùng Sinh viên thực : Mai Huy Hoàng Lớp : D16PM01 Khố : 2016 - 2020 Bình Dương, tháng năm 2020 PHIẾU ĐÁNH GIÁ ĐỒ ÁN TỐT NGHIỆP CỦA GIẢNG VIÊN HƢỚNG DẪN Họ tên sinh viên: Mai Huy Hoàng MSSV: 1624801030144 Lớp: D16PM01 Tên đề tài: Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Tổng quan Cơ sở lý thuyết Phân tích thiết kế hệ thống Cài đặt kiểm thử Kết quả_ Nhận xét_ Đánh giá Kết luận_ Hƣớng phát triển Kết luận: ● Lƣu ý: phát có chép cố ý sửa đổi số liệu bị trừ toàn số điểm phần báo cáo Nhận xét: (GV nêu nhận xét chung khả làm việc, đóng góp sinh viên; ưu/khuyết điểm đề tài) …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… Giảng viên hƣớng dẫn TS Bùi Thanh Hùng PHIẾU ĐÁNH GIÁ ĐỒ ÁN TỐT NGHIỆP CỦA GIẢNG VIÊN PHẢN BIỆN Họ tên sinh viên: Mai Huy Hoàng MSSV: 1624801030144 Lớp: D16PM01 Tên đề tài: Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Tổng quan Cơ sở lý thuyết Phƣơng thức dự đoán âm giọng nói bất kỳ:  Mẫu âm dự đoán đƣợc chia thành 250 frames, sử dụng phƣơng pháp trích rút đặc trƣng đƣợc mô tả trên, đƣa vào mạng CNN Nhãn tập tin đƣợc chọn chiến thuật majority voting CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu  Kết hiển thị giới tính nằm giá trị vùng miền giá trị sau 4.4 Đánh giá Kết liệu Vivos Corpus [23] thực nhận dạng tập kiểm thử: - Độ xác nhận diện giới tính 32 mẫu / 37 mẫu xác - Độ xác nhận diện vùng miền mẫu / 37 mẫu xác Bảng 4.3 Bảng kết đánh giá Từ ta thấy đƣợc hệ thống nhận diện tốt giới tính, tỉ lệ nhận diện thấp vùng miền giọng nói Tiếng Việt ngơn ngữ có điệu có nhiều phƣơng ngữ khác Chính đa dạng phƣơng ngữ tạo nên thách thức hệ thống nhận diện tự động Tiếng Việt Chỉ xét phƣơng diện phát âm, từ nhƣng địa phƣơng khác đƣợc phát âm theo cách khác Với hai phƣơng ngữ khác nhau, có âm nghe nhƣ nhƣng nội dung lại đƣợc hiểu khác theo phƣơng ngữ Chỉ riêng yếu tố gây nhầm lẫn, ảnh hƣởng đáng kể đến hệ thống nhận dạng tiếng nói Mặc dù chƣa có chƣa có ý kiến thống cách phân chia song bản, chiếm số đơng nhà nghiên cứu cho chia phƣơng ngữ Tiếng Việt thành vùng phƣơng ngữ Bắc (các tỉnh Bắc Bộ), phƣơng ngữ Trung (các tỉnh từ Thanh Hoá vào đến khu vực đèo Hải Vân) phƣơng ngữ Nam (Từ khu vực đèo Hải Vân vào tỉnh phía Nam) Việc phân chia vùng phƣơng ngữ mang tính chất tƣơng đối, khơng tách biệt hồn tồn Giữa vùng có chuyển tiếp, địa CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu phƣơng, phạm vi địa lý hẹp nhƣ làng, xã có khác biệt lớn phƣơng ngữ Từ thấy đƣợc liệu dùng để huấn luyện cho mạng nơ ron tích chập học hỏi khơng đủ bao quát đƣợc số lƣợng giọng nói cho vùng, vùng có nhiều phƣơng ngữ nhỏ khác cho vùng, rào cản lớn cho hệ thống nhận dạng đƣợc vùng miền cách xác Dữ liệu cịn có nhiều nhiễu tập tin âm cịn có tập tin có âm khác chèn giọng nói Nhƣ thấy hệ thống nhận diện tốt giới tính để nâng cao khả nhận diện vùng miền liệu đầu vào phải lớn đủ bao qt đƣợc vùng miền định tỉ lệ nhận diện vùng miền tăng lên Hình 4.1 Kết đánh giá hiển thị website CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu 4.5 Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu 4.5.1 Thiết kế Phần back-end đƣợc xây dựng ngôn ngữ python thông qua thƣ viện hỗ trợ xây dựng server Flask Server đƣợc xây dựng python hỗ trợ tốt cho việc truy xuất model đƣợc lƣu lại dễ dàng so với ngôn ngữ khác Server bao gồm chức sau: - Hiển thị trang mơ hình đánh giá kết - Hiển thị trang phân tích liệu dùng huấn luyện kiểm thử hệ thống - Hiển thị trang giới thiệu ứng dụng - Xử lý thu âm âm ngƣời dùng - Phát lại nội dung thu âm - Nhận dạng âm tiếng nói Tiếng Việt - Hiển thị kết nhận dạng Trang chủ thị kết Trang nhận dạng âm hiển Trang phân tích liệu Trang đánh giá kết CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Dự đốn âm đầu vào Nghe lại giọng nói thu Hình 4.3 Phân tích thiết kế chức 4.5.2 Ứng dụng 4.5.2.1 Giao diện Một số hình ảnh kết xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Hình 4.4 Giao diện trang chủ hệ thống Hình 4.5 Giao diện trang phân tích liệu CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Hình 4.6 Giao diện trang kết thử nghiệm ứng dụng Hình 4.7 Giao diện trang nhận dạng âm tiếng nói Tiếng Việt CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Hình 4.8 Giao diện trang kết nhận diện âm 4.5.2.2 Chức Mô tả Luồng hành động Tiền điều kiện CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Ti Ti Mô tả Cho phép ngƣời dùng nghe lại đoạn âm giọng CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Bảng 4.7 Bảng chức nghe lại giọng nói đ Mơ tả Cho phép ngƣời dùng dự đốn đoạn âm giọng nói mà ngƣời dùng thu âm trƣớc nam hay nữ CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Bảng 4.8 Bảng chức dự đốn âm Mơ tả Cho phép ngƣời dùng dự đốn đoạn âm giọng nói mà ngƣời dùng thu âm trƣớc nam hay nữ CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Bảng 4.9 Bảng chức xem kết dự CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Kết đạt đƣợc Sau tìm hiểu mạng nơ ron tích chập CNN tiến hành xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt Hệ thống nhận diện tiếng nói cịn nhiều hạn chế độ xác chƣa cao, nhiên dƣới kết đạt đƣợc : - Xây dựng đƣợc hệ thống nhận diện tiếng nói Tiếng Việt phƣơng pháp học sâu sử dụng mạng nơ ron tích chập CNN - Xây dựng Website trực quan hoá kết - Xử lý liệu âm tiền xử lý âm phù hợp với mạng CNN - Website đƣợc xây dựng công nghệ Flask Framework - Phân tích đánh giá mơ hình đề xuất - Kiểm thử tập liệu kiểm thử liệu Vivos Corpus thuộc lab khoa khoa học máy tính, trƣờng đại học khoa học tự nhiên [23] Những việc chƣa làm đƣợc - Chƣa tích hợp đƣợc vào hệ thống nhận lớn - Chƣa nhận diện tốt vùng miền giọng nói độ xác thấp - Chƣa phát triển thành API - Chƣa sử dụng nhiều đặc trƣng miền âm Hạn chế - Giải thuật chƣa tối ƣu thiếu kiến thức học máy - Độ xác vùng miền nhận diện đƣợc thấp - Dữ liệu dùng để huấn luyện có độ nhiễu cao, liệu âm không đạt chuẩn - Các thông số dùng để cấu hình mạng nơ ron tích chập CNN chƣa phù hợp sai số cao Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Hƣớng phát triển - Tìm kiếm xây dựng lại liệu âm có độ nhiễu thấp, đồng với - Sử dụng hƣớng xử lý giải toán nhận diện khác CNN nhƣ GMM (Gaussian Mixture Models), AlexNet, VGGNet, ResNet, DenseNet, … - Thay đổi thông số phù hợp cho mạng CNN nhƣ tăng khả nhận diện vùng miền mơ hình - Phát triển thành API nhằm tích hợp vào hệ thống nhận diện - Phát triển thành ứng dụng có ích nhƣ nhận diện âm có phịng chat voice từ phân loại thành viên theo nam nữ đếm số lƣợng phân loại theo vùng miền Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu TÀI LIỆU THAM KHẢO [1] LeCun, Bottou, Bengio and Haffner (1998) Object Recognition with Gradient- Based Learning [2] Đặng Văn Đức, CSDL đa phƣơng tiện, Bài giảng cho cao học, Đại học Công nghệ thông tin truyền thông, Đại học Bách khoa - Hà Nội, Đại học Công nghệ 2005-2014 [3] Isra Khan, Rafi Ullah, Shah Muhammad Emaduddin (2019).Robust Feature Extraction Techniques in Speech Recognition: A Comparative Analysis [4] Nguyễn Hồng Quang, Trịnh Văn Loan, Phạm Ngọc Hƣng (2017) Nhận dạng phƣơng ngữ Tiếng Việt sử dụng mạng nơ ron tích chập CNN, Viện Công Nghệ Thông Tin Truyền Thông, Trƣờng Đại học Sƣ Phạm Kỹ Thuật Hƣng Yên [5] Phú Thị Quyên (2016) Xây dựng hệ thống tìm kiếm âm theo nội dung dựa đặc trƣng âm miền tần số, Luận văn Thạc sĩ – Trƣờng Đại học dân lập Hải Phòng [6] Tapas Chakraborty, Bidhan Barai, Bikshan Chatterjee, Nibaran Das, Subhadip Basu and Mita Nasipuri (2020) Closed-Set Device-Independent Speaker Identification Using CNN [7] Nidhi Srivastava (2013) Speech Recognition using MFCC and Neural Networks [8] Rishabh N Tak, Dharmesh M Agrawal, and Hemant A Patil (2017) Novel Phase Encoded Mel Filterbank Energies for Environmental Sound Classification [9] Ossama Abdel-Hamid, Abdel-rahman Mohamed, Hui Jiang, Li Deng, Gerald Penn, and Dong Yu (2014) Convolutional Neural Networks for Speech Recognition [10] D.Nagajyothi, P Siddaiah (2018) Speech Recognition Using Convolutional Neural Networks Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu [11] Khalid Hussain1, Mazhar Hussain2 and Muhammad Gufran Khan (2017) Improved Acoustic Scene Classification with DNN and CNN [12] Michele Valenti, Dario Tonelli, Fabio Vesperini, Emanuele Principi, Stefano Squartini (2017) A Neural Network Approach for Sound Event Detection in Real Life Audio [13] Phú Thị Quyên, Xây dựng hệ thống tìm kiếm âm theo nội dung dựa đặc trƣng miền tần số, Đại học dân lập hải phòng 2016 [14] Rosen, Stuart (2011) Signals and Systems for Speech and Hearing (ấn 2) [15] Stevens, Stanley Smith; Volkmann; John & Newman, Edwin B (1937) Journal of the Acoustical Society of America [16] D Scherer, A Müller, and S Behnke, “Evaluation of pooling operations in convolutional architectures for object recognition,” Proc 20th Int Conf Artif Neural Netw.: Part III, Berlin/Heidelberg, Germany, 2010 [17] Pydub: https://github.com/jiaaro/pydub [18] Librosa: https://github.com/librosa/librosa [19] Keras: https://keras.io [20] Tensorflow: https://www.tensorflow.org [21] Numpy: https://numpy.org/ [22] Matplotlib: https://matplotlib.org/ [23] Vivos Corpus: https://ailab.hcmus.edu.vn/vivos ... 48 Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu 4.2 Xử lý liệu 4.3 Huấn luyện 4.4 Đánh giá 4.5 Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt. .. nhận dạng âm mạng nơ-ron tích chập (Convolutional Neural Network) phƣơng pháp học sâu từ áp dụng vào thực tế: xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu - Xây dựng ứng. .. Framework Phƣơng pháp nghiên cứu thực nghiệm: - Lập trình xây dựng ứng dụng 1.5 Ý nghĩa khoa học thực tiễn Mục tiêu đề tài nghiên cứu, xây dựng ? ?ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học