Nhận dạng tiếng nói tiếng việt bằng phương pháp học sâu

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT TRẦN THANH HIỆP NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC SÂU CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ BÌNH DƯƠNG – 2021 UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT TRẦN THANH HIỆP NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC SÂU CHUYÊN NGÀNH: HỆ THÔNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS BÙI THANH HÙNG BÌNH DƯƠNG – 2021 ii LỜI CAM ĐOAN Tên là: Trần Thanh Hiệp Sinh ngày: 14/02/1981 Học viên lớp cao học CH19HT01 – Trường Đại học Thủ Dầu Một Xin cam đoan: Đề tài “Nhận dạng tiếng nói tiếng Việt phương pháp học sâu.” Thầy TS Bùi Thanh Hùng hướng dẫn cơng trình nghiên cứu riêng Tất tài liệu tham khảo có nguồn gốc, trích dẫn rõ ràng Tác giả xin cam đoan tất nội dung luận văn nội dung đề cương yêu cầu thầy giáo hướng dẫn Nếu sai hoàn toàn chịu trách nhiệm trước hội đồng khoa học Bình Dương, tháng 09 năm 2021 Tác giả luận văn Trần Thanh Hiệp iii LỜI CẢM ƠN Sau thời gian nghiên cứu làm việc nghiêm túc, động viên, giúp đỡ hướng dẫn tận tình Thầy hướng dẫn TS Bùi Thanh Hùng, luận văn Cao học “Nhận dạng tiếng nói tiếng Việt phương pháp học sâu” hồn thành Tơi xin bày tỏ lịng biết ơn sâu sắc đến: Thầy hướng dẫn TS.Bùi Thanh Hùng tận tình dẫn, giúp đỡ tơi hồn thành luận văn Đồng thời gửi lời cảm ơn đến thầy, cô giảng dạy truyền đạt kiến thức quý báo cho suốt thời gian học tập nghiên cứu Tôi chân thành cảm ơn bạn bè, đồng nghiệp gia đình động viên, khích lệ, tạo điều kiện giúp đỡ suốt trình học tập, thực hồn thành luận văn iv MỤC LỤC MỤC LỤC .v TÓM TẮT LUẬN VĂN vii SUMMARY viii DANH MỤC CHỮ VIẾT TẮT ix DANH MỤC BẢNG BIỂU x DANH MỤC HÌNH, ĐỒ THỊ .xi CHƯƠNG 13 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU .13 1.1 Lý chọn đề tài 13 1.2 Mục tiêu nghiên cứu 13 1.3 Đối tượng, phạm vi nghiên cứu 14 1.4 Phương pháp nghiên cứu 14 1.5 Ý nghĩa khoa học thực tiễn 14 1.6 Bố cục luận văn 15 CHƯƠNG 17 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 17 2.1 Mạng Nơ-ron tích chập 17 2.1.1 Mạng Nơ-ron nhân tạo 17 2.1.2 Mạng Nơ-ron tích chập 25 2.2 Các mơ hình học sâu CNN 31 2.2.1 Sự hình thành phát triển 31 2.2.2 Các mơ hình CNN tiêu biểu 32 2.3 Xử lý âm 40 2.3.1 Các đặc trưng âm 40 2.3.2 Các phương pháp xử lý âm 42 2.4 Các nghiên cứu liên quan 43 v 2.5 Hướng đề xuất nghiên cứu 47 CHƯƠNG 49 MƠ HÌNH ĐỀ XUẤT 49 3.1 Tổng quan mơ hình đề xuất 49 3.2 Các đặc trưng mơ hình đề xuất 50 3.2.1 Trích xuất đặc trưng Log-Mel Spectrogram 50 3.2.2 Huấn luyện mơ hình 58 3.2.3 Phương pháp đánh giá 67 CHƯƠNG 70 THỰC NGHIỆM 70 4.1 Dữ liệu 70 4.1.1 Thu thập liệu 70 4.1.2 Xử lý liệu 71 4.2 Kết thực nghiệm 71 4.2.1 Công nghệ sử dụng 71 4.2.2 Trích xuất đặc trưng 72 4.2.3 Nhận dạng tiếng nói 72 4.3 Ứng dụng nhận dạng tiếng nói tiếng Việt 76 4.3.1 Thiết kế 76 4.3.2 Ứng dụng 77 CHƯƠNG 84 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 84 5.1 Kết đạt 84 5.2 Hướng phát triển 85 CƠNG TRÌNH CÔNG BỐ 86 TÀI LIỆU THAM KHẢO 87 vi TÓM TẮT LUẬN VĂN Trong kỷ nguyên kỹ thuật số, phủ nhận nhận dạng giọng nói có ý nghĩa quan trọng khía cạnh khác sống Cùng với bùng nổ trí tuệ nhân tạo, có nhiều cơng trình nghiên cứu học sâu cơng bố, số lĩnh vực xử lý ngơn ngữ tự nhiện nói chung nhận dạng tiếng nói nói riêng lĩnh vực nhiều người quan tâm Trong đó, tốn nhận dạng tiếng nói tiếng Việt phương pháp học sâu mang lại hiệu cao tính ổn định thích nghi tốt liệu đầu vào có thay đổi Giao tiếp lời nói phương tiện giao tiếp tiêu biểu đời sống người Giọng nói mang nhiều thơng tin đến người nói Để nhận giọng nói từ người, có số tính định tồn tín hiệu giọng nói Bởi thơng tin có giá trị nó, có nhiều ứng dụng sử dụng nhận dạng giọng nói như: trị chuyện, phát người, bảo mật, kinh doanh, v.v Luận văn đề xuất phương pháp sử dụng mơ hình học sâu mạng nơ-ron tích chập (CNN) để nhận dạng giọng nói tiếng Việt thơng qua trích xuất tính Mel Spectrogram sử dụng Mạng nơ ron nhân tạo để phân biệt giọng nói theo giới tính vùng miền Các thử nghiệm thực tập liệu âm VIVOS liệu từ thi phân biệt giọng nói thi Zalo AI 2019 đạt độ xác tốt dự đốn giới tính vùng miền giọng nói tiếng Việt vii SUMMARY In the digital era, it cannot be denied that speech recognition is important in various aspects of life Along with the explosion of artificial intelligence, there have been many published research works on deep learning, in which the field of natural language processing in general as well as speech recognition in particular is one of them in areas of great interest In particular, the problem of Vietnamese speech recognition by deep learning method brings high efficiency because of its very good stability and adaptability when the input data changes Verbal communication is the most typical means of communication in human life Voice carries a lot of information to the person speaking In order to receive a voice from a person, certain features exist in the signal of the voice Because of its valuable information, there are many applications that use voice recognition such as: chat, person detection, security, business, etc In this thesis, I would like to propose a method using deep learning model of convolutional neural network (CNN) to recognize Vietnamese voice through Mel Spectrogram feature extraction and using Artificial Neural Networks to distinguish voices by gender and region The tests performed on the VIVOS audio dataset and the data set from the Zalo AI 2019 speech discrimination contest achieved good accuracy in predicting the gender and region of the Vietnamese voice viii DANH MỤC CHỮ VIẾT TẮT KÝ HIỆU TÊN TIẾNG ANH DNN Deep Neural Network CNN Convolution Neural Network ANN Artificial Neural Network AI Artificial Intelligence MFCC Mel Frequency Cepstral Coefficient LPC Linear Prediction Coefficient LPCC Linear Prediction Cepstral Coefficient PLP Perceptual Linear Predictive AUC Area Under the Curve ix DANH MỤC BẢNG BIỂU Bảng 4.1 Bảng liệu huấn luyện 70 Bảng 4.2 Bảng thống kê liệu lời nói Vivos Corpus 71 Bảng 4.3 Bảng chi tiết thơng số mơ hình 73 Bảng 4.4 Bảng kết đánh giá 74 Bảng 4.5 Bảng kết đánh giá với VGG-16 75 Bảng 4.6 Bảng kết đánh giá với CNN – tầng 76 Bảng 4.7 Xem đánh giá hệ thống 81 Bảng 4.8 Xem chi tiết liệu huấn luyện 81 Bảng 4.9 Chức thu âm giọng nói 82 Bảng 4.10 Bảng chức nghe lại giọng nói thu âm 82 Bảng 4.11 Bảng chức dự đoán âm đầu vào 83 Bảng 4.12 Bảng chức xem kết dự đoán 84 x nói 1.Từ trang chủ click chuột vào biểu tượng hình ảnh có nội dung “Sound Récognition” Trên trang nhận dạng âm click vào biểu tượng Luồng hành động microphone trang web để bắt đầu thu âm giọng nói Click vào biểu tượng microphone có dấu chéo để hồn tất q trình thu âm Âm lưu vào hệ thống Người dùng cho phép hệ thống sử dụng microphone để Tiền điều kiện thu âm giọng nói Bảng 4.9 Chức thu âm giọng nói Cho phép người dùng nghe lại đoạn âm giọng nói Mơ tả mà người dùng thu âm trước Từ trang chủ click chuột vào biểu tượng hình ảnh Luồng hành động có nội dung “Sound Recognition” Trên trang nhận dạng âm click vào biểu tượng hình ảnh có nội dung “Replay sound recored” Tiền điều kiện Người dùng phải thu âm giọng nói trước sử dụng chức nghe lại âm thu Bảng 4.10 Bảng chức nghe lại giọng nói thu âm Cho phép người dùng dự đốn đoạn âm giọng nói Mơ tả mà người dùng thu âm trước nam hay nữ họ đến từ vùng Việt Nam Từ trang chủ click chuột vào biểu tượng hình ảnh Luồng hành động có nội dung “Sound Recognition” 82 Trên trang nhận dạng âm click vào biểu tượng microphone trang web để bắt đầu thu âm giọng nói Click vào biểu tượng microphone có dấu chéo để hồn tất q trình thu âm Âm lưu vào hệ thống Click vào biểu tượng hình ảnh có nội dung “Sound Recognition” để hệ thống xử lý liệu âm vừa ghi lại Tiền điều kiện Người dùng phải thu âm giọng nói trước sử dụng chức nghe lại âm thu Bảng 4.11 Bảng chức dự đoán âm đầu vào Cho phép người dùng dự đốn đoạn âm giọng nói Mơ tả mà người dùng thu âm trước nam hay nữ họ đến từ vùng Việt Nam 10 Từ trang chủ click chuột vào biểu tượng hình ảnh có nội dung “Sound Recognition” Luồng hành động 11 Trên trang nhận dạng âm click vào biểu tượng microphone trang web để bắt đầu thu âm giọng nói 83 12 Click vào biểu tượng microphone có dấu chéo để hồn tất q trình thu âm Âm lưu vào hệ thống 13 Click vào biểu tượng hình ảnh có nội dung “Sound Recognition” để hệ thống xử lý liệu âm vừa ghi lại 14 Dữ liệu dự đoán hệ thống trả hiển thị lên trang nhận dạng âm Tiền điều kiện Người dùng phải thu âm giọng nói trước sử dụng chức nghe lại âm thu Bảng 4.12 Bảng chức xem kết dự đoán CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong chương này, luận văn trình bày tổng quát kết thực hiện, đưa hướng phát triển cho mơ hình tương lai 5.1 Kết đạt Luận văn đề xuất giải pháp cho việc phân loại giới tính và khu vực giọng nói tiếng Việt cách sử dụng mơ hình mạng nơ-ron học sâu tích chập, kết hợp trích xuất tính Log-Mel Spectrogram sử dụng CNN để nhận dạng giới tính vùng miền tiếng Việt Luận văn tiến hành thử nghiệm liệu thi Zalo AI 2019 liệu Vivos Corpus thuộc Lab khoa Khoa học máy tính – Trường Đại học Khoa học Tự nhiên Thành phố Hồ Chí Minh để đánh giá kết Hệ 84 thống nhận dạng giới tính giọng nói vùng miền tiếng Việt cịn hạn chế độ xác chưa cao, nhiên đạt kết sau: ➢ Phân tích đánh giá mơ hình đề xuất ➢ Xử lý liệu âm phù hợp với mạng CNN ➢ Xây dựng hệ thống nhận dạng tiếng nói tiếng Việt phương pháp học sâu sử dụng mạng nơ ron tích chập CNN ➢ Sử dụng cơng nghệ Flask Framework để trực quan hố kết tảng website 5.2 Hướng phát triển Chuẩn hóa, xây dựng liệu âm có độ tương đồng cao, giảm tối đa độ nhiễu Ngoài việc dùng Log-Mel Spectrogram kết hợp mạng nơ-ron tích chập CNN, cần xử lý giải toán nhận dạng khác VGGNet, AlexNet, RestNet, DenseNet Tối ưu hóa giải thuật, lựa chọn thông số phù hợp cho mạng CNN nhằm tăng khả nhận dạng giọng nói vùng miền Việt Nam Phát triển thành API, tích hợp vào hệ thống nhận dạng 85 CƠNG TRÌNH CƠNG BỐ Trần Thanh Hiệp, Bùi Thanh Hùng (2021) “Nhận dạng tiếng nói tiếng Việt phương pháp học sâu”, Kỷ yếu Ngày hội Khoa học cán bộ, giảng viên trẻ học viên cao học lần V - năm 2021 Đại học Thủ Dầu Một 6.2021 Bùi Thanh Hùng, Trần Thanh Hiệp (2021) “Nhận dạng tiếng nói tiếng Việt phương pháp học sâu”, Fundamental and Applied Information Technology Research- FAIR 2021 (submitted) 86 TÀI LIỆU THAM KHẢO [1] Fukushima, Kunihiko (April 1980) "A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position" Biological Cybernetics 36 (4): 193–202 [2] Yoshua Bengio, Yann LeCun, Craig Nohl, Chris Burges “LeRec: ANN/HMM Hybrid for On-Line Handwriting Recognition”, Neural Compulation, Volume 7, Number (1995) [3] Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton “ImageNet Classification with Deep Convolutional Neural Networks”, Advances in Neural Information Processing Systems 25 (NIPS 2012) 2012 [4] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich “Going deeper with convolutions” (2014) [5] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, Zbigniew Wojna “Rethinking the Inception Architecture for Computer Vision” (2015) [6] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun “Deep Residual Learning for Image Recognition” [7] Isra Khan, Rafi Ullah, Shah Muhammad Emaduddin (2019) Robust Feature Extraction Techniques in Speech Recognition: A Comparative Analysis [8] Sayan Mandal, Sarthak Yadav and Atul Rai End-to-End Bengali Speech Recognition Staqu Technologies, India, 2020 [9] Hua Zhang, Ruoyun Gou, Jili Shang, Fangyao Shen, Yifan Wu and Guojun Dai Pre-trained Deep Convolution Neural Network Model With Attention for Speech Emotion ecognition, 2020 [10] Anvarjon Tursunov , Mustaqeem , Joon Yeon Choeh and Soonil Kwon Age and Gender Recognition Using a Convolutional Neural Network with a Specially Designed Multi-Attention Module through Speech Spectrograms, 2021 [11] Fatih Demir, Daban Abdulsalam Abdullah, Abdulkadir Sengur A New Deep CNN Model for Environmental Sound Classification, 2020 87 [12] Yu-Fu Yeh , Bo-Hao Su , Yang-Yen Ou , Jhing-Fa Wang Taiwanese Speech Recognition Based on Hybrid Deep Neural Network Architecture, 2020 [13] Shashidhar R, S Patilkulkarni, Nishanth S Murthy Visual Speech Recognition using VGG16 Convolutional Neural Network, 2021 [14] Stevens, Stanley Smith; Volkmann; John & Newman, Edwin B (1937) Journal of the Acoustical Society of America [15] Luận văn thạc sĩ ngành Công nghệ Thông tin Phú Thị Quyên, Xây dựng hệ thống tìm kiếm âm theo nội dung dựa đặc trưng miền tần số, Đại học Dân lập Hải phòng 2016 [16] D Scherer, A Müller, and S Behnke, “Evaluation of pooling operations in convolutional architectures for object recognition,” Proc 20th Int Conf Artif Neural Netw.: Part III, Berlin/Heidelberg, Germany, 2010 [17] Pydub: https://github.com/jiaaro/pydub [18] Librosa: https://github.com/librosa/librosa [19] Numpy: https://numpy.org/ [20] Keras: https://keras.io [21] Tensorflow: https://www.tensorflow.org [22] Matplotlib: https://matplotlib.org/ [23] Vivos Corpus: https://ailab.hcmus.edu.vn/vivos 88 89 90 91 92 93 94 95 96 ... vực xử lý ngơn ngữ tự nhiện nói chung nhận dạng tiếng nói nói riêng lĩnh vực nhiều người quan tâm Trong đó, tốn nhận dạng tiếng nói tiếng Việt phương pháp học sâu mang lại hiệu cao tính ổn định... thuật nhận dạng âm tiếng nói - Phạm vi nghiên cứu phương pháp học sâu, hiệu cách sử dụng chúng từ đề xuất phương pháp cụ thể hiệu 1.4 Phương pháp nghiên cứu Để thực luận văn này, sử dụng phương pháp. .. TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT TRẦN THANH HIỆP NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC SÂU CHUYÊN NGÀNH: HỆ THÔNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS

Nhận dạng tiếng nói tiếng việt bằng phương pháp học sâu

Các phương pháp xử lý âm thanh

Các nghiên cứu liên quan