Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 89 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
89
Dung lượng
1,44 MB
Nội dung
TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT – CÔNG NGHỆ BÁO CÁO TỐT NGHIỆP XÂY DỰNG ỨNG DỤNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT BẰNG PHƢƠNG PHÁP HỌC SÂU Giảng viên hƣớng dẫn : TS Bùi Thanh Hùng Sinh viên thực : Mai Huy Hoàng Lớp : D16PM01 Khố : 2016 - 2020 Bình Dương, tháng năm 2020 TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT – CÔNG NGHỆ BÁO CÁO TỐT NGHIỆP XÂY DỰNG ỨNG DỤNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT BẰNG PHƢƠNG PHÁP HỌC SÂU Giảng viên hƣớng dẫn : TS Bùi Thanh Hùng Sinh viên thực : Mai Huy Hoàng Lớp : D16PM01 Khố : 2016 - 2020 Bình Dương, tháng năm 2020 TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT CỘNG HÕA XÃ HỘI CHỦ NGHĨA VIỆT NAM KHOA KỸ THUẬT- CÔNG NGHỆ Độc lập – Tự – Hạnh phúc PHIẾU ĐÁNH GIÁ ĐỒ ÁN TỐT NGHIỆP CỦA GIẢNG VIÊN HƢỚNG DẪN Họ tên sinh viên: Mai Huy Hoàng Lớp: D16PM01 MSSV: 1624801030144 Tên đề tài: Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Yếu Trung bình Khá Giỏi - 2.5 3- - 7.5 - 10 Theo Theo mẫu; đặt vấn Không mẫu; nhƣng đề mục tiêu Tổng mẫu đặt vấn đề rõ ràng, nhƣng quan (Đạt 1/4 mục tiêu chƣa nội dung, giới yêu rõ ràng hạn bố cục cầu) (Đạt 2/4 chƣa rõ ràng yêu cầu) (Đạt 3/4 yêu cầu) Theo mẫu; đặt vấn đề mục tiêu rõ ràng; nội dung thực hiện, giới hạn bố cục rõ ràng (Đạt tất yêu cầu) - 2.5 3- - 10 11 - 15 Cơ Khơng trích Trích dẫn Trích dẫn Trích dẫn nguồn sở dẫn nguồn nguồn tài liệu nguồn tài liệu tài liệu tham khảo lý tài liệu tham khảo tham khảo theo mẫu; thuyết tham khảo theo theo lựa chọn, khảo theo mẫu; nhƣng mẫu; lựa chọn, sát công nghệ để Điểm mẫu chƣa lựa chọn, khảo sát công thực đầy đủ; (Không đạt khảo sát công nghệ để thực sở lý yêu nghệ để thực đầy đủ; thuyết liên quan cầu) nhƣng sở đến đề tài đầy đủ (Đạt 1/3 các lý thuyết (Đạt tất yêu cầu) liên quan đến yêu cầu) đề tài chƣa đầy đủ (Đạt 2/3 yêu cầu) 0-5 - 10 11 - 20 21 - 25 Có sơ đồ, Phân tích thiết kế hệ thống Thiếu số sơ đồ, thích giải thích (Đạt 1/4 u cầu) Có sơ đồ, thích giải thích; nhƣng thiếu đặc tả chi tiết cho sơ đồ (Đạt 2/4 yêu cầu) thích giải thích đầy đủ; có đặc tả chi tiết cho sơ đồ; nhƣng thiếu mô tả sở liệu hệ thống (Đạt 3/4 Có sơ đồ, thích giải thích đầy đủ; có đặc tả chi tiết cho sơ đồ; mô tả sở liệu hệ thống rõ ràng (Đạt tất yêu cầu) yêu cầu) Cài đặt kiểm thử 0-5 - 10 11 - 15 16 - 20 Cài đặt Cài đặt giải Cài đặt giải Cài đặt giải đƣợc thích đƣợc thích đƣợc thích đƣợc tất chức chức số chức chức hệ hệ thống hệ thống hệ thống thống; Chƣơng trình Chƣơng trình Chƣơng trình khơng giải chạy chƣa tốt chạy tốt chạy tốt thích đƣợc (Đạt 4/8 (Đạt 6/8 (Đạt tất code (Đạt yêu cầu) yêu cầu) yêu cầu) - 10 11 - 15 16 - 20 2/8 yêu cầu) 0-5 Nêu đƣợc tất Chƣa nêu đƣợc tất Kết kết quả_ làm Nhận đƣợc thông xét_ qua hình Đánh ảnh, bảng giá biểu, (Đạt 1/4 yêu cầu) kết Nêu đƣợc tất làm kết đƣợc thông làm qua hình ảnh, đƣợc thơng bảng biểu; qua hình ảnh, nhận xét.rõ bảng biểu; ràng; nhƣng nhƣng thiếu chƣa đánh giá nhận xét rõ ràng kết (Đạt 2/4 có tính ứng yêu cầu) dụng thực tế (Đạt 3/4 Nêu đƣợc tất kết làm đƣợc thơng qua hình ảnh, bảng biểu; nhận xét.rõ ràng; đánh giá rõ ràng kết có tính ứng dụng thực tế (Đạt tất yêu cầu) yêu cầu) - 2.5 3- - 7.5 - 10 Kết Chƣa nêu Nêu rõ Nêu rõ Nêu rõ kết luận_ rõ kết đạt kết đạt đạt đƣợc Hƣớng kết đạt phát đƣợc rõ ràng dựa rõ ràng dựa vào mục tiêu; triển cách rõ vào mục tiêu; vào mục tiêu; phƣơng pháp ràng dựa nhƣng phƣơng phƣơng pháp nội dung đƣợc cách đƣợc cách cách rõ ràng dựa vào mục pháp và nội đề rõ ràng; tiêu nội dung đề dung đề hƣớng phát triển chƣa rõ rõ ràng; nhƣng đề hợp lý ràng hƣớng phát (Đạt tất triển đề yêu cầu) (Đạt 1/4 yêu cầu) (Đạt 2/4 chƣa hợp lý yêu cầu) (Đạt 3/4 yêu cầu) Kết luận: □ Cho bảo vệ □ Không cho bảo vệ Điểm tổng /100 = /10 ● Lƣu ý: phát có chép cố ý sửa đổi số liệu bị trừ toàn số điểm phần báo cáo Nhận xét: (GV nêu nhận xét chung khả làm việc, đóng góp sinh viên; ưu/khuyết điểm đề tài) …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… Giảng viên hƣớng dẫn TS Bùi Thanh Hùng TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT CỘNG HÕA XÃ HỘI CHỦ NGHĨA VIỆT NAM KHOA KỸ THUẬT- CÔNG NGHỆ Độc lập – Tự – Hạnh phúc PHIẾU ĐÁNH GIÁ ĐỒ ÁN TỐT NGHIỆP CỦA GIẢNG VIÊN PHẢN BIỆN Họ tên sinh viên: Mai Huy Hoàng Lớp: D16PM01 MSSV: 1624801030144 Tên đề tài: Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Yếu Trung bình Khá Giỏi - 2.5 3- - 7.5 - 10 Theo Theo mẫu; đặt vấn Không mẫu; nhƣng đề mục tiêu Tổng mẫu đặt vấn đề rõ ràng, nhƣng quan (Đạt 1/4 mục tiêu chƣa nội dung, giới yêu rõ ràng hạn bố cục cầu) (Đạt 2/4 chƣa rõ ràng yêu cầu) (Đạt 3/4 yêu cầu) Theo mẫu; đặt vấn đề mục tiêu rõ ràng; nội dung thực hiện, giới hạn bố cục rõ ràng (Đạt tất yêu cầu) - 2.5 3- - 10 11 - 15 Cơ Khơng trích Trích dẫn Trích dẫn Trích dẫn nguồn sở dẫn nguồn nguồn tài liệu nguồn tài liệu tài liệu tham khảo lý tài liệu tham khảo tham khảo theo mẫu; thuyết tham khảo theo theo lựa chọn, khảo theo mẫu; nhƣng mẫu; lựa chọn, sát công nghệ để Điểm mẫu chƣa lựa chọn, khảo sát công thực đầy đủ; (Không đạt khảo sát công nghệ để thực sở lý yêu nghệ để thực đầy đủ; thuyết liên quan cầu) nhƣng sở đến đề tài đầy đủ (Đạt 1/3 các lý thuyết (Đạt tất yêu cầu) liên quan đến yêu cầu) đề tài chƣa đầy đủ (Đạt 2/3 yêu cầu) 0-5 - 10 11 - 20 21 - 25 Có sơ đồ, Phân tích thiết kế hệ thống Thiếu số sơ đồ, thích giải thích (Đạt 1/4 u cầu) Có sơ đồ, thích giải thích; nhƣng thiếu đặc tả chi tiết cho sơ đồ (Đạt 2/4 yêu cầu) thích giải thích đầy đủ; có đặc tả chi tiết cho sơ đồ; nhƣng thiếu mô tả sở liệu hệ thống (Đạt 3/4 Có sơ đồ, thích giải thích đầy đủ; có đặc tả chi tiết cho sơ đồ; mô tả sở liệu hệ thống rõ ràng (Đạt tất yêu cầu) yêu cầu) Cài đặt kiểm thử 0-5 - 10 11 - 15 16 - 20 Cài đặt Cài đặt giải Cài đặt giải Cài đặt giải đƣợc thích đƣợc thích đƣợc thích đƣợc tất chức chức số chức chức hệ hệ thống hệ thống hệ thống thống; Chƣơng trình Chƣơng trình Chƣơng trình khơng giải chạy chƣa tốt chạy tốt chạy tốt thích đƣợc (Đạt 4/8 (Đạt 6/8 (Đạt tất code (Đạt yêu cầu) yêu cầu) yêu cầu) - 10 11 - 15 16 - 20 2/8 yêu cầu) 0-5 Nêu đƣợc tất Chƣa nêu đƣợc tất Kết kết quả_ làm Nhận đƣợc thơng xét_ qua hình Đánh ảnh, bảng giá biểu, (Đạt 1/4 yêu cầu) kết Nêu đƣợc tất làm kết đƣợc thông làm qua hình ảnh, đƣợc thơng bảng biểu; qua hình ảnh, nhận xét.rõ bảng biểu; ràng; nhƣng nhƣng thiếu chƣa đánh giá nhận xét rõ ràng kết (Đạt 2/4 có tính ứng u cầu) dụng thực tế (Đạt 3/4 Nêu đƣợc tất kết làm đƣợc thơng qua hình ảnh, bảng biểu; nhận xét.rõ ràng; đánh giá rõ ràng kết có tính ứng dụng thực tế (Đạt tất yêu cầu) yêu cầu) - 2.5 3- - 7.5 - 10 Kết Chƣa nêu Nêu rõ Nêu rõ Nêu rõ kết luận_ rõ kết đạt kết đạt đạt đƣợc Hƣớng kết đạt phát đƣợc rõ ràng dựa rõ ràng dựa vào mục tiêu; triển cách rõ vào mục tiêu; vào mục tiêu; phƣơng pháp ràng dựa nhƣng phƣơng phƣơng pháp nội dung đƣợc cách đƣợc cách cách rõ ràng dựa vào mục pháp và nội đề rõ ràng; tiêu nội dung đề dung đề hƣớng phát triển chƣa rõ rõ ràng; nhƣng đề hợp lý ràng hƣớng phát (Đạt tất triển đề yêu cầu) (Đạt 1/4 yêu cầu) (Đạt 2/4 chƣa hợp lý yêu cầu) (Đạt 3/4 yêu cầu) Kết luận: □ Cho bảo vệ Không cho bảo vệ □ Điểm tổng /100 = /10 ● Lƣu ý: phát có chép cố ý sửa đổi số liệu bị trừ toàn số điểm phần báo cáo Nhận xét: (GV nêu nhận xét chung; Các vấn đề cần bổ sung, chỉnh sửa) …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… Câu hỏi: (Ít 02 câu) …………………………………………………………………………………… ……………………………………………………………………………………… Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu 51 Kết hiển thị giới tính nằm giá trị vùng miền giá trị sau 4.4 Đánh giá Kết liệu Vivos Corpus [23] thực nhận dạng tập kiểm thử: - Độ xác nhận diện giới tính 32 mẫu / 37 mẫu xác - Độ xác nhận diện vùng miền mẫu / 37 mẫu xác Phƣơng pháp Độ xác % (Accuracy) CNN + Log-Mel Spectrogram Giới tính Vùng Miền 86.48% 16.21% Bảng 4.3 Bảng kết đánh giá Từ ta thấy đƣợc hệ thống nhận diện tốt giới tính, tỉ lệ nhận diện thấp vùng miền giọng nói Tiếng Việt ngơn ngữ có điệu có nhiều phƣơng ngữ khác Chính đa dạng phƣơng ngữ tạo nên thách thức hệ thống nhận diện tự động Tiếng Việt Chỉ xét phƣơng diện phát âm, từ nhƣng địa phƣơng khác đƣợc phát âm theo cách khác Với hai phƣơng ngữ khác nhau, có âm nghe nhƣ nhƣng nội dung lại đƣợc hiểu khác theo phƣơng ngữ Chỉ riêng yếu tố gây nhầm lẫn, ảnh hƣởng đáng kể đến hệ thống nhận dạng tiếng nói Mặc dù chƣa có chƣa có ý kiến thống cách phân chia song bản, chiếm số đơng nhà nghiên cứu cho chia phƣơng ngữ Tiếng Việt thành vùng phƣơng ngữ Bắc (các tỉnh Bắc Bộ), phƣơng ngữ Trung (các tỉnh từ Thanh Hoá vào đến khu vực đèo Hải Vân) phƣơng ngữ Nam (Từ khu vực đèo Hải Vân vào tỉnh phía Nam) Việc phân chia vùng phƣơng ngữ mang tính chất tƣơng đối, khơng tách biệt hồn tồn Giữa vùng có chuyển tiếp, địa CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu 52 phƣơng, phạm vi địa lý hẹp nhƣ làng, xã có khác biệt lớn phƣơng ngữ Từ thấy đƣợc liệu dùng để huấn luyện cho mạng nơ ron tích chập học hỏi khơng đủ bao quát đƣợc số lƣợng giọng nói cho vùng, vùng có nhiều phƣơng ngữ nhỏ khác cho vùng, rào cản lớn cho hệ thống nhận dạng đƣợc vùng miền cách xác Dữ liệu cịn có nhiều nhiễu tập tin âm cịn có tập tin có âm khác chèn giọng nói Nhƣ thấy hệ thống nhận diện tốt giới tính để nâng cao khả nhận diện vùng miền liệu đầu vào phải lớn đủ bao quát đƣợc vùng miền định tỉ lệ nhận diện vùng miền tăng lên Hình 4.1 Kết đánh giá hiển thị website CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu 53 4.5 Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu 4.5.1 Thiết kế Phần back-end đƣợc xây dựng ngôn ngữ python thông qua thƣ viện hỗ trợ xây dựng server Flask Server đƣợc xây dựng python hỗ trợ tốt cho việc truy xuất model đƣợc lƣu lại dễ dàng so với ngôn ngữ khác Server bao gồm chức sau: - Hiển thị trang mơ hình đánh giá kết - Hiển thị trang phân tích liệu dùng huấn luyện kiểm thử hệ thống - Hiển thị trang giới thiệu ứng dụng - Xử lý thu âm âm ngƣời dùng - Phát lại nội dung thu âm - Nhận dạng âm tiếng nói Tiếng Việt - Hiển thị kết nhận dạng Trang chủ Trang nhận dạng âm hiển thị kết CHƢƠNG 4: THỰC NGHIỆM Trang phân tích Trang đánh giá liệu kết Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu 54 Hình 4.2 Phân tích giao diện thiết kế Dự đoán âm đầu vào Xem đánh giá hệ thống Xem kết dự đoán Xem chi tiết liệu huấn luyện Thu âm giọng nói Nghe lại giọng nói thu Hình 4.3 Phân tích thiết kế chức 4.5.2 Ứng dụng 4.5.2.1 Giao diện Một số hình ảnh kết xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu CHƢƠNG 4: THỰC NGHIỆM Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Hình 4.4 Giao diện trang chủ hệ thống Hình 4.5 Giao diện trang phân tích liệu CHƢƠNG 4: THỰC NGHIỆM 55 Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Hình 4.6 Giao diện trang kết thử nghiệm ứng dụng Hình 4.7 Giao diện trang nhận dạng âm tiếng nói Tiếng Việt CHƢƠNG 4: THỰC NGHIỆM 56 Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Hình 4.8 Giao diện trang kết nhận diện âm 4.5.2.2 Chức Mô tả Xem chi tiết độ xác q trình huấn luyện kiểm thử, độ xác hệ thống Luồng hành động Nhấn vào biểu tƣợng hình ảnh có nội dung “đánh giá kết quả” từ trang chủ để xem đƣợc trang đánh giá hệ thống Tiền điều kiện Không Bảng 4.4 Xem đánh giá hệ thống CHƢƠNG 4: THỰC NGHIỆM 57 Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu Xem chi tiết liệu huấn luyện hệ thống Mô tả Luồng hành động Nhấn vào biểu tƣợng hình ảnh có nội dung “phân tích liệu” từ trang chủ để xem đƣợc trang đánh giá hệ thống Khơng Tiền điều kiện Bảng 4.5 Xem chi tiết liệu huấn luyện Cho phép ngƣời dùng sử dụng chức thu âm Mơ tả giọng nói Luồng hành động 1.Từ trang chủ click chuột vào biểu tƣợng hình ảnh có nội dung “Sound Recognition” 2.Trên trang nhận dạng âm click vào biểu tƣợng microphone trang web để bắt đầu thu âm giọng nói 3.Click vào biểu tƣợng microphone có dấu chéo để hồn tất q trình thu âm Âm đƣợc lƣu vào hệ thống Ngƣời dùng cho phép hệ thống sử dụng microphone Tiền điều kiện để thu âm giọng nói Bảng 4.6 chức thu âm giọng nói Mơ tả CHƢƠNG 4: THỰC NGHIỆM Cho phép ngƣời dùng nghe lại đoạn âm giọng 58 Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu nói mà ngƣời dùng thu âm trƣớc Luồng hành động 1.Từ trang chủ click chuột vào biểu tƣợng hình ảnh có nội dung “Sound Recognition” 2.Trên trang nhận dạng âm click vào biểu tƣợng hình ảnh có nội dung “Replay sound recored” Tiền điều kiện Ngƣời dùng phải thu âm giọng nói trƣớc sử dụng chức nghe lại âm thu Bảng 4.7 Bảng chức nghe lại giọng nói thu âm Mơ tả Cho phép ngƣời dùng dự đốn đoạn âm giọng nói mà ngƣời dùng thu âm trƣớc nam hay nữ CHƢƠNG 4: THỰC NGHIỆM 59 Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu họ đến từ vùng Việt Nam Luồng hành động 1.Từ trang chủ click chuột vào biểu tƣợng hình ảnh có nội dung “Sound Recognition” 2.Trên trang nhận dạng âm click vào biểu tƣợng microphone trang web để bắt đầu thu âm giọng nói 3.Click vào biểu tƣợng microphone có dấu chéo để hồn tất q trình thu âm Âm đƣợc lƣu vào hệ thống Click vào biểu tƣợng hình ảnh có nội dung “sound recognition” để hệ thống xử lý liệu âm vừa ghi lại đƣợc Tiền điều kiện Ngƣời dùng phải thu âm giọng nói trƣớc sử dụng chức nghe lại âm thu Bảng 4.8 Bảng chức dự đoán âm đầu vào Mô tả Cho phép ngƣời dùng dự đốn đoạn âm giọng nói mà ngƣời dùng thu âm trƣớc nam hay nữ CHƢƠNG 4: THỰC NGHIỆM 60 Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu họ đến từ vùng Việt Nam Luồng hành động 1.Từ trang chủ click chuột vào biểu tƣợng hình ảnh có nội dung “Sound Recognition” 2.Trên trang nhận dạng âm click vào biểu tƣợng microphone trang web để bắt đầu thu âm giọng nói 3.Click vào biểu tƣợng microphone có dấu chéo để hồn tất q trình thu âm Âm đƣợc lƣu vào hệ thống Click vào biểu tƣợng hình ảnh có nội dung “sound recognition” để hệ thống xử lý liệu âm vừa ghi lại đƣợc Dữ liệu dự đoán đƣợc hệ thống trả hiển thị lên trang nhận dạng âm Tiền điều kiện Ngƣời dùng phải thu âm giọng nói trƣớc sử dụng chức nghe lại âm thu Bảng 4.9 Bảng chức xem kết dự đoán CHƢƠNG 4: THỰC NGHIỆM 61 Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu 62 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Kết đạt đƣợc Sau tìm hiểu mạng nơ ron tích chập CNN tiến hành xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt Hệ thống nhận diện tiếng nói cịn nhiều hạn chế độ xác chƣa cao, nhiên dƣới kết đạt đƣợc : - Xây dựng đƣợc hệ thống nhận diện tiếng nói Tiếng Việt phƣơng pháp học sâu sử dụng mạng nơ ron tích chập CNN - Xây dựng Website trực quan hoá kết - Xử lý liệu âm tiền xử lý âm phù hợp với mạng CNN - Website đƣợc xây dựng công nghệ Flask Framework - Phân tích đánh giá mơ hình đề xuất - Kiểm thử tập liệu kiểm thử liệu Vivos Corpus thuộc lab khoa khoa học máy tính, trƣờng đại học khoa học tự nhiên [23] Những việc chƣa làm đƣợc - Chƣa tích hợp đƣợc vào hệ thống nhận lớn - Chƣa nhận diện tốt vùng miền giọng nói độ xác thấp - Chƣa phát triển thành API - Chƣa sử dụng nhiều đặc trƣng miền âm Hạn chế - Giải thuật chƣa tối ƣu thiếu kiến thức học máy - Độ xác vùng miền nhận diện đƣợc thấp - Dữ liệu dùng để huấn luyện có độ nhiễu cao, liệu âm không đạt chuẩn - Các thông số dùng để cấu hình mạng nơ ron tích chập CNN chƣa phù hợp sai số cao Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu 63 Hƣớng phát triển - Tìm kiếm xây dựng lại liệu âm có độ nhiễu thấp, đồng với - Sử dụng hƣớng xử lý giải toán nhận diện khác CNN nhƣ GMM (Gaussian Mixture Models), AlexNet, VGGNet, ResNet, DenseNet, … - Thay đổi thông số phù hợp cho mạng CNN nhƣ tăng khả nhận diện vùng miền mơ hình - Phát triển thành API nhằm tích hợp vào hệ thống nhận diện - Phát triển thành ứng dụng có ích nhƣ nhận diện âm có phịng chat voice từ phân loại thành viên theo nam nữ đếm số lƣợng phân loại theo vùng miền Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu 64 TÀI LIỆU THAM KHẢO [1] LeCun, Bottou, Bengio and Haffner (1998) Object Recognition with GradientBased Learning [2] Đặng Văn Đức, CSDL đa phƣơng tiện, Bài giảng cho cao học, Đại học Công nghệ thông tin truyền thông, Đại học Bách khoa - Hà Nội, Đại học Công nghệ 2005-2014 [3] Isra Khan, Rafi Ullah, Shah Muhammad Emaduddin (2019).Robust Feature Extraction Techniques in Speech Recognition: A Comparative Analysis [4] Nguyễn Hồng Quang, Trịnh Văn Loan, Phạm Ngọc Hƣng (2017) Nhận dạng phƣơng ngữ Tiếng Việt sử dụng mạng nơ ron tích chập CNN, Viện Cơng Nghệ Thông Tin Truyền Thông, Trƣờng Đại học Sƣ Phạm Kỹ Thuật Hƣng Yên [5] Phú Thị Quyên (2016) Xây dựng hệ thống tìm kiếm âm theo nội dung dựa đặc trƣng âm miền tần số, Luận văn Thạc sĩ – Trƣờng Đại học dân lập Hải Phòng [6] Tapas Chakraborty, Bidhan Barai, Bikshan Chatterjee, Nibaran Das, Subhadip Basu and Mita Nasipuri (2020) Closed-Set Device-Independent Speaker Identification Using CNN [7] Nidhi Srivastava (2013) Speech Recognition using MFCC and Neural Networks [8] Rishabh N Tak, Dharmesh M Agrawal, and Hemant A Patil (2017) Novel Phase Encoded Mel Filterbank Energies for Environmental Sound Classification [9] Ossama Abdel-Hamid, Abdel-rahman Mohamed, Hui Jiang, Li Deng, Gerald Penn, and Dong Yu (2014) Convolutional Neural Networks for Speech Recognition [10] D.Nagajyothi, P Siddaiah (2018) Speech Recognition Using Convolutional Neural Networks Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu 65 [11] Khalid Hussain1, Mazhar Hussain2 and Muhammad Gufran Khan (2017) Improved Acoustic Scene Classification with DNN and CNN [12] Michele Valenti, Dario Tonelli, Fabio Vesperini, Emanuele Principi, Stefano Squartini (2017) A Neural Network Approach for Sound Event Detection in Real Life Audio [13] Phú Thị Quyên, Xây dựng hệ thống tìm kiếm âm theo nội dung dựa đặc trƣng miền tần số, Đại học dân lập hải phòng 2016 [14] Rosen, Stuart (2011) Signals and Systems for Speech and Hearing (ấn 2) [15] Stevens, Stanley Smith; Volkmann; John & Newman, Edwin B (1937) Journal of the Acoustical Society of America [16] D Scherer, A Müller, and S Behnke, “Evaluation of pooling operations in convolutional architectures for object recognition,” Proc 20th Int Conf Artif Neural Netw.: Part III, Berlin/Heidelberg, Germany, 2010 [17] Pydub: https://github.com/jiaaro/pydub [18] Librosa: https://github.com/librosa/librosa [19] Keras: https://keras.io [20] Tensorflow: https://www.tensorflow.org [21] Numpy: https://numpy.org/ [22] Matplotlib: https://matplotlib.org/ [23] Vivos Corpus: https://ailab.hcmus.edu.vn/vivos ... nhận dạng âm mạng nơ-ron tích chập (Convolutional Neural Network) phƣơng pháp học sâu từ áp dụng vào thực tế: xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu - Xây dựng ứng. .. nghiệm ứng dụng 56 Hình 4.7 Giao diện trang nhận dạng âm tiếng nói Tiếng Việt 56 Hình 4.8 Giao diện trang kết nhận diện âm 57 Xây dựng ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học sâu. .. Framework Phƣơng pháp nghiên cứu thực nghiệm: - Lập trình xây dựng ứng dụng 1.5 Ý nghĩa khoa học thực tiễn Mục tiêu đề tài nghiên cứu, xây dựng ? ?ứng dụng nhận dạng tiếng nói Tiếng Việt phƣơng pháp học