Luận văn Thạc sĩ Nhận dạng tiếng nói tiếng Việt bằng phương pháp học sâu

96 0 0
Luận văn Thạc sĩ Nhận dạng tiếng nói tiếng Việt bằng phương pháp học sâu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Untitled ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT TRẦN THANH HIỆP NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC SÂU CHUYÊN NGÀNH HỆ THỐNG THÔNG TIN MÃ SỐ 8480104 LUẬN VĂN THẠC[.]

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT TRẦN THANH HIỆP NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC SÂU CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ BÌNH DƯƠNG – 2021 UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT TRẦN THANH HIỆP NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC SÂU CHUYÊN NGÀNH: HỆ THÔNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS BÙI THANH HÙNG BÌNH DƯƠNG – 2021 ii LỜI CAM ĐOAN Tên là: Trần Thanh Hiệp Sinh ngày: 14/02/1981 Học viên lớp cao học CH19HT01 – Trường Đại học Thủ Dầu Một Xin cam đoan: Đề tài “Nhận dạng tiếng nói tiếng Việt phương pháp học sâu.” Thầy TS Bùi Thanh Hùng hướng dẫn cơng trình nghiên cứu riêng Tất tài liệu tham khảo có nguồn gốc, trích dẫn rõ ràng Tác giả xin cam đoan tất nội dung luận văn nội dung đề cương yêu cầu thầy giáo hướng dẫn Nếu sai hoàn toàn chịu trách nhiệm trước hội đồng khoa học Bình Dương, tháng 09 năm 2021 Tác giả luận văn Trần Thanh Hiệp iii LỜI CẢM ƠN Sau thời gian nghiên cứu làm việc nghiêm túc, động viên, giúp đỡ hướng dẫn tận tình Thầy hướng dẫn TS Bùi Thanh Hùng, luận văn Cao học “Nhận dạng tiếng nói tiếng Việt phương pháp học sâu” hồn thành Tơi xin bày tỏ lịng biết ơn sâu sắc đến: Thầy hướng dẫn TS.Bùi Thanh Hùng tận tình dẫn, giúp đỡ tơi hồn thành luận văn Đồng thời gửi lời cảm ơn đến thầy, cô giảng dạy truyền đạt kiến thức quý báo cho suốt thời gian học tập nghiên cứu Tôi chân thành cảm ơn bạn bè, đồng nghiệp gia đình động viên, khích lệ, tạo điều kiện giúp đỡ suốt trình học tập, thực hồn thành luận văn iv MỤC LỤC MỤC LỤC .v TÓM TẮT LUẬN VĂN vii SUMMARY viii DANH MỤC CHỮ VIẾT TẮT ix DANH MỤC BẢNG BIỂU x DANH MỤC HÌNH, ĐỒ THỊ .xi CHƯƠNG 13 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU .13 1.1 Lý chọn đề tài 13 1.2 Mục tiêu nghiên cứu 13 1.3 Đối tượng, phạm vi nghiên cứu 14 1.4 Phương pháp nghiên cứu 14 1.5 Ý nghĩa khoa học thực tiễn 14 1.6 Bố cục luận văn 15 CHƯƠNG 17 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 17 2.1 Mạng Nơ-ron tích chập 17 2.1.1 Mạng Nơ-ron nhân tạo 17 2.1.2 Mạng Nơ-ron tích chập 25 2.2 Các mơ hình học sâu CNN 31 2.2.1 Sự hình thành phát triển 31 2.2.2 Các mơ hình CNN tiêu biểu 32 2.3 Xử lý âm 40 2.3.1 Các đặc trưng âm 40 2.3.2 Các phương pháp xử lý âm 42 2.4 Các nghiên cứu liên quan 43 v 2.5 Hướng đề xuất nghiên cứu 47 CHƯƠNG 49 MƠ HÌNH ĐỀ XUẤT 49 3.1 Tổng quan mơ hình đề xuất 49 3.2 Các đặc trưng mơ hình đề xuất 50 3.2.1 Trích xuất đặc trưng Log-Mel Spectrogram 50 3.2.2 Huấn luyện mơ hình 58 3.2.3 Phương pháp đánh giá 67 CHƯƠNG 70 THỰC NGHIỆM 70 4.1 Dữ liệu 70 4.1.1 Thu thập liệu 70 4.1.2 Xử lý liệu 71 4.2 Kết thực nghiệm 71 4.2.1 Công nghệ sử dụng 71 4.2.2 Trích xuất đặc trưng 72 4.2.3 Nhận dạng tiếng nói 72 4.3 Ứng dụng nhận dạng tiếng nói tiếng Việt 76 4.3.1 Thiết kế 76 4.3.2 Ứng dụng 77 CHƯƠNG 84 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 84 5.1 Kết đạt 84 5.2 Hướng phát triển 85 CƠNG TRÌNH CÔNG BỐ 86 TÀI LIỆU THAM KHẢO 87 vi TÓM TẮT LUẬN VĂN Trong kỷ nguyên kỹ thuật số, phủ nhận nhận dạng giọng nói có ý nghĩa quan trọng khía cạnh khác sống Cùng với bùng nổ trí tuệ nhân tạo, có nhiều cơng trình nghiên cứu học sâu cơng bố, số lĩnh vực xử lý ngơn ngữ tự nhiện nói chung nhận dạng tiếng nói nói riêng lĩnh vực nhiều người quan tâm Trong đó, tốn nhận dạng tiếng nói tiếng Việt phương pháp học sâu mang lại hiệu cao tính ổn định thích nghi tốt liệu đầu vào có thay đổi Giao tiếp lời nói phương tiện giao tiếp tiêu biểu đời sống người Giọng nói mang nhiều thơng tin đến người nói Để nhận giọng nói từ người, có số tính định tồn tín hiệu giọng nói Bởi thơng tin có giá trị nó, có nhiều ứng dụng sử dụng nhận dạng giọng nói như: trị chuyện, phát người, bảo mật, kinh doanh, v.v Luận văn đề xuất phương pháp sử dụng mơ hình học sâu mạng nơ-ron tích chập (CNN) để nhận dạng giọng nói tiếng Việt thơng qua trích xuất tính Mel Spectrogram sử dụng Mạng nơ ron nhân tạo để phân biệt giọng nói theo giới tính vùng miền Các thử nghiệm thực tập liệu âm VIVOS liệu từ thi phân biệt giọng nói thi Zalo AI 2019 đạt độ xác tốt dự đốn giới tính vùng miền giọng nói tiếng Việt vii SUMMARY In the digital era, it cannot be denied that speech recognition is important in various aspects of life Along with the explosion of artificial intelligence, there have been many published research works on deep learning, in which the field of natural language processing in general as well as speech recognition in particular is one of them in areas of great interest In particular, the problem of Vietnamese speech recognition by deep learning method brings high efficiency because of its very good stability and adaptability when the input data changes Verbal communication is the most typical means of communication in human life Voice carries a lot of information to the person speaking In order to receive a voice from a person, certain features exist in the signal of the voice Because of its valuable information, there are many applications that use voice recognition such as: chat, person detection, security, business, etc In this thesis, I would like to propose a method using deep learning model of convolutional neural network (CNN) to recognize Vietnamese voice through Mel Spectrogram feature extraction and using Artificial Neural Networks to distinguish voices by gender and region The tests performed on the VIVOS audio dataset and the data set from the Zalo AI 2019 speech discrimination contest achieved good accuracy in predicting the gender and region of the Vietnamese voice viii DANH MỤC CHỮ VIẾT TẮT KÝ HIỆU TÊN TIẾNG ANH DNN Deep Neural Network CNN Convolution Neural Network ANN Artificial Neural Network AI Artificial Intelligence MFCC Mel Frequency Cepstral Coefficient LPC Linear Prediction Coefficient LPCC Linear Prediction Cepstral Coefficient PLP Perceptual Linear Predictive AUC Area Under the Curve ix DANH MỤC BẢNG BIỂU Bảng 4.1 Bảng liệu huấn luyện 70 Bảng 4.2 Bảng thống kê liệu lời nói Vivos Corpus 71 Bảng 4.3 Bảng chi tiết thơng số mơ hình 73 Bảng 4.4 Bảng kết đánh giá 74 Bảng 4.5 Bảng kết đánh giá với VGG-16 75 Bảng 4.6 Bảng kết đánh giá với CNN – tầng 76 Bảng 4.7 Xem đánh giá hệ thống 81 Bảng 4.8 Xem chi tiết liệu huấn luyện 81 Bảng 4.9 Chức thu âm giọng nói 82 Bảng 4.10 Bảng chức nghe lại giọng nói thu âm 82 Bảng 4.11 Bảng chức dự đoán âm đầu vào 83 Bảng 4.12 Bảng chức xem kết dự đoán 84 x ... TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT TRẦN THANH HIỆP NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC SÂU CHUYÊN NGÀNH: HỆ THÔNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS... lĩnh vực xử lý ngơn ngữ tự nhiện nói chung nhận dạng tiếng nói nói riêng lĩnh vực nhiều người quan tâm Trong đó, tốn nhận dạng tiếng nói tiếng Việt phương pháp học sâu mang lại hiệu cao tính ổn... thuật nhận dạng âm tiếng nói - Phạm vi nghiên cứu phương pháp học sâu, hiệu cách sử dụng chúng từ đề xuất phương pháp cụ thể hiệu 1.4 Phương pháp nghiên cứu Để thực luận văn này, sử dụng phương pháp

Ngày đăng: 19/11/2022, 12:17

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan