1. Trang chủ
  2. » Luận Văn - Báo Cáo

Mô hình chưng cất đa tác vụ cho nhận dạng giọng nói tiếng Việt

88 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

HOC VIEN CONG NGHỆ BƯU CHÍNH VIÊN THONG KHOA CONG NGHE THONG TIN Vv O:HNIVNaHVIJlWASOIGHA Détai:MOHINHCHUNGCATDATACVUCHO NHAN DANG GIONG NOI TIENG VIET Giáo viên hướng dẫn: PGS TS Phạm Văn Cường C:LLdLHLOICT Sinh viên: ĐàoHoàngMai M64 sinh viên: B1I7DCCN411 Lớp: DI7HTTT2 Niên khóa: 2017 - 2022 Hệ đào tạo: Dai hoc chinh quy Hà Nội — 01/2022 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG KHOA CÔNG NGHỆ THÔNG TIN Đề tai: MÔ HÌNH CHUNG CAT ĐA TÁC VU CHO NHẬN DẠNG GIỌNG NÓI TIENG VIỆT Giáo viên hướng dẫn: PGS TS Phạm Van Cường Sinh viên: Đào Hoàng Mai Mã sinh viên: BI7DCCN411 Lớp: D1I7HTTT2 Niên khóa: 2017 - 2022 Hệ đào tạo: Đại học chính quy Hà Nội — 01/2022 NHẬN XÉT, ĐÁNH GIÁ, CHO ĐIỂM NHẬN XÉT, ĐÁNH GIÁ, CHO ĐIỂM (Của giảng viên phản biện) Đồng ý/ Không đồng ý cho sinh viên bảo vệ trước hội đồng chấm đồ án tốt nghiệp? Hà Nội, ngày tháng 0l năm 2022 CÁN BỘ - GIẢNG VIÊN PHẢN BIỆN (Ký, ghi rõ họ tên) Sinh viên: Đào Hoàng Mai - B17DCCN4II - Lớp DI7HTTT2 1 NHẬN XÉT, ĐÁNH GIÁ, CHO ĐIỂM NHẬN XÉT, ĐÁNH GIÁ, CHO ĐIỂM (Của người hướng dẫn) Đồng ý/ Không đồng ý cho sinh viên bảo vệ trước hội đồng chấm đồ án tốt nghiệp? Hà Nội, ngày tháng 0l năm 2022 CÁN BỘ - GIẢNG VIÊN HƯỚNG DẪN (Ký, ghi rõ họ tên) Sinh viên: Đào Hoàng Mai - B17DCCN4II - Lớp DI7HTTT2 1 LỜI CẮM ƠN LỜI CẢM ƠN Lời đầu tiên, em xin gửi đến các thầy, cô đang giảng dạy tại Khoa Công nghệ Thông tin I, Học viện Công nghệ Bưu chính Viễn thông lời chúc sức khỏe và lời cảm ơn sâu sắc Sự quan tâm, chỉ bảo chu đáo của các thầy cô đã giúp em có những kiến thức và kinh nghiệm quý báu trên con đường chinh phục tri thức Đặc biệt, em xin gửi lời cảm ơn chân thành nhất tới thầy giáo - PGS TS Phạm Văn Cường, người đã dìu dắt và tận tình hướng dẫn em không chỉ trong thời gian nghiên cứu và thực hiện đồ án tốt nghiệp mà còn trong suốt hành trình 4 năm học tập tại học viện Thay vừa là người thay, người bạn và là nguồn động viên to lớn của em trong suốt những năm tháng sinh viên Em xin chân thành cảm ơn thầy giáo Nguyễn Trung Hiếu, bí thư Đoàn TNCS Học viện vì đã dành cho em những sự giúp đỡ, ủng hộ và những lời khuyên quý báu không chỉ trong học tập mà còn trong cuộc sống Em cũng xin cảm ơn thầy giáo Đỗ Xuân Chợ và thầy giáo Nguyễn Xuân Anh - những người thầy đã hỗ trợ em và cho em những lời khuyên quý báu trong quá trình học tập Những lời khuyên bảo của các thầy sẽ là kim chỉ nam cho em trong những hành trình mới sau này Em xin cảm ơn thầy Trần Tiến Công vì đã hỗ trợ em trong quá trình hoàn thành đồ án này Em xin chân thành cảm ơn anh Nguyễn Quốc Đạt - chuyên gia nghiên cứu, trưởng nhóm nghiên cứu về Xử lý Ngôn ngữ Tự nhiên tại Viện nghiên cứu Trí tuệ Nhân tạo VinAI Anh là người đã diu dắt em những bước chân đầu tiên trong sự nghiệp học thuật của mình Em xin cảm ơn anh vì đã luôn kiên nhẫn, tận tâm và vì những kiến thức quý báu mà anh đã truyền đạt cho em Em cũng xin gửi lời cảm ơn đến anh Nguyễn Thái Sơn, sinh viên lớp DI4ATTTI, người đã giúp đỡ em rất nhiều trong quá trình học tập, làm việc và thực hiện đồ án Em rất trân trọng thời gian, công sức của anh đã dành để hỗ trợ em trong mọi tình huống khó khăn trong suốt 4 năm qua và giúp em đăng ký môn học mỗi khi học kỳ mới đến Cuối cùng, em xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp tại VinAI, các Sinh viên: Đào Hoàng Mai - B17DCCN4II - Lớp DI7HTTT2 ili LỜI CẮM ƠN anh chị em trong Team 1 - CLB IT PTIT và nhóm Original Banana đã luôn ở bên quan tâm, chia sẻ, động viên, giúp đỡ em trong suốt quá trình học tập tại học viện Sự ủng hộ của mọi người là nguồn động lực giúp em vượt qua những thử thách khó khăn và ngày càng hoàn thiện bản thân Hà Nội, ngày 04 tháng 0Ì năm 2022 Tác giả Đào Hoàng Mai Sinh viên: Đào Hoàng Mai - B17DCCN4II - Lớp DI7HTTT2 iv MỤC LỤC Mục lục LỜI CẢM ƠN DANH SÁCH BANG DANH SÁCH HÌNH VE AI MỞ ĐẦU lt TONG QUAN VE CAC TAC VU CHO BAI TOAN NHAN DANG GIONG | 1.1 Bài toán nhận dạng giọng nói 1.1.1 Địnhdanhngườinói - 1.1.2 Phat hiện giọng nói gia mạo [6] 1.1.3 Nhận diện khẩu lệnh trong giọng nói li [1.2 Các phương pháp tiếp cận đương đại| 1.2.1 Các bộ dữ liệu cho nhận dạng giong nói 1.2.2 Các phương pháp nhận dạng giọng nói truyền thống| 1.2.3 Các phương pháp nhận diện giọng nói dựa trên kỹ thuật học sâu| [12] [1.3 Mục tiêu của đồán| 13] [1.4 Tổng kết chương 1] 2.2.20 0.000 Sinh viên: Dao Hoàng Mai - B17DCCN4II - Lép DI7HTTT2 Vv MỤC LỤC la NHAN DANG GIỌNG NÓI SỬ DỤNG MÔ HÌNH CHUNG CAT VÀ HOC ĐA TÁC VỤ 2.1 Giới thiệu về trí tuệ nhân tạo| 2.1.1 Trítuệ nhântạo| e e 2.2.1 Câu trúc và mô hình của một nơ-ron nhân tạo| 2.2.2 Mạng nơ-ron nhântạo| ẶẶẶ 2.2.3 Lan truyền thẳng] Lee 2.2.4 Lan truyền ngược và ha đạo hàm| Le ee 2.2.5 Hamkichhoatl 2.3 Mạng nơ-ron tích chap (Convolutional Neural Network - CNN) 2.3.1 Kiến trúc của mang nơ-ron tich chập| .- (2.3.2 Lóptchchập| 2.3.3 Lốp pooling] ẶẶẶẶẶSẶSằ 2.3.4 Lớp kết nôi đầy đủl 2.3.5 Những kiến trúc mang CNN thông dụng] 2.4 Mô hình mạng nơ-ron đồ thị sử dụng cơ chế chú ý| 241 Lópchúýđềth| c o 2.5 Nghiên cứu đề xuất mô hình học sâu da tác vụ cho nhận dạng giọng nói| 2.5.1 Các đặc trưng miễn thời gian và tần số của dữ liệu âm thanh| 2.5.2 Cấta| eee 2.5.3 Chung cất tri thức| ¬.W-.HHa HH ee Sinh viên: Đào Hoàng Mai - B17DCCN4II - Lớp DI7HTTT2 VI MỤC LỤC 2.6.1 Biểu diễn dữ liệu (Audio Representation)| ¬ 2.6.2 Mô-đun đồ thị (Graph Module)| | Graph Operation)| . - 2.6.4 Lớp chú ý chéo (Cross-Task Attention)| 2.6.5 Học chung (JointLearnng)| 2.6.6 Cat tia và chưng cất| " '.ẽ AAI ia 2.7 Tổng kết chương 2Ì S Ỉ c 3_ THỰC NGHIÊM VA KET QUA 3.1 Dữliệu| Ặ Q e e y2 3.1.1 Bộ dữ liệu đa tác vụ dành cho tiếng Việt B12 Thu thập dữliệu| 6.13 Xửlýdữlệu| Bid Thống kệdữlệ| 3.2 Cài đặt thực nghiệm| - 3P 3.hươ pháp n đánhg giá - B4 Kết quả thực nghiệm| 3.41 Kếtquảchính ẶẶẶẶẶẶẶ.o 3.4.2 Nghiêncứucắtbỏ| SẶo 3.5 Tổng két chuong3} 0 00000000 cee eee 4 TONG KET Sinh viên: Dao Hoàng Mai - B17DCCN4II - Lép DI7HTTT2 Vil DANH SÁCH BẰNG Danh sách bang 3.1 Ví dụ về bon loại dữ liệu của bộ dữ liệu nhận dạng giọng nói trong tiếng 3.2 Thong kê bộ dữ liệu tiếng Việt theo giây (s) và token (t)|_ 3.3 Kết quả thực nghiệm mô hình đề xuất và các mô hình cơ sở Sinh viên: Đào Hoàng Mai - B17DCCN4II - Lớp DI7HTTT2 Vill

Ngày đăng: 08/03/2024, 16:48

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w