Khóa luận tốt nghiệp ứng dụng học sâu trong xây dựng chatbot

143 5 0
Khóa luận tốt nghiệp ứng dụng học sâu trong xây dựng chatbot

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc ****************** NHIỆM VỤ THỰC HIỆN Họ tên Sinh viên: Nguyễn Đức Trí MSSV: 19110302 Ngành: Công nghệ Thông tin Khoa: Đào tạo chất lượng cao Tên đề tài: Ứng dụng học sâu xây dựng chatbot Họ tên Giáo viên hướng dẫn: TS Trần Nhật Quang Nội dung: Lý thuyết: - Tìm hiểu phân tích mơ hình GPT, Whisper, Tacotron2 WaveGlow - Tìm hiểu kỹ thuật tiền xử lý liệu văn âm - Tìm hiểu thư viện PyTorch - Tìm hiểu thư viện Django Angular để đưa mơ hình lên ứng dụng Thực nghiệm: Xây dựng, huấn luyện đưa mô hình lên ứng dụng Thời gian thực hiện: 20/02/2023 – 29/05/2023 TRƯỞNG KHOA (ký ghi rõ họ tên) Tp Hồ Chí Minh, ngày tháng năm GIẢNG VIÊN HƯỚNG DẪN (ký ghi rõ họ tên) CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc ****************** PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN Họ tên Sinh viên: Nguyễn Đức Trí MSSV: 19110302 Ngành: Công nghệ Thông tin Khoa: Đào tạo chất lượng cao Tên đề tài: Ứng dụng học sâu xây dựng chatbot Họ tên Giáo viên hướng dẫn: TS Trần Nhật Quang Nhận xét: Về nội dung tài khối lượng thực hiện: ……………………………………………………………………………………… ……………………………………………………………………………………… Ưu điểm: ……………………………………………………………………………………… ……………………………………………………………………………………… Khuyết điểm: ……………………………………………………………………………………… ……………………………………………………………………………………… Đề nghị cho bảo vệ hay không? ………………………………………………… Đánh giá loại: …………………………………………………………………… Điểm: …………………………………………………………………………… Tp Hồ Chí Minh, ngày tháng năm Giáo viên hướng dẫn (Ký & ghi rõ họ tên) Trần Nhật Quang CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc ****************** PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Họ tên Sinh viên: Nguyễn Đức Trí MSSV: 19110302 Ngành: Công nghệ Thông tin Khoa: Đào tạo chất lượng cao Tên đề tài: Ứng dụng học sâu xây dựng chatbot Họ tên Giáo viên phản biện: ThS Nguyễn Trần Thi Văn Nhận xét: Về nội dung tài khối lượng thực hiện: ……………………………………………………………………………………… ……………………………………………………………………………………… Ưu điểm: ……………………………………………………………………………………… ……………………………………………………………………………………… Khuyết điểm: ……………………………………………………………………………………… ……………………………………………………………………………………… Đề nghị cho bảo vệ hay không? ………………………………………………… Đánh giá loại: …………………………………………………………………… Điểm: …………………………………………………………………………… Tp Hồ Chí Minh, ngày tháng năm Giáo viên phản biện (Ký & ghi rõ họ tên) Nguyễn Trần Thi Văn KHÓA LUẬN TỐT NGHIỆP LỜI CẢM ƠN Lời đầu tiên, em xin phép cảm ơn chân thành đến khoa Đào Tạo Chất Lượng Cao – Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh tạo điều kiện cho em học hỏi, trau dồi phát triển kiến thức để thực đề tài Bên cạnh đó, em xin gửi đến thầy Trần Nhật Quang lời cảm ơn chân thành sâu sắc thầy hỗ trợ, giúp đỡ em tận tình suốt trình thực đề tài, thầy cho em lời khuyên, kinh nghiệm kiến thức hữu ích khơng cho đề tài mà cho đường phát triển tương lai em Nhờ kiến thức mà em tích lũy suốt q trình học cộng thêm kiến thức thực tiễn, học thuật kinh nghiệm có q trình nghiên cứu báo nước ngồi thực tập cơng ty mà em bước khỏi vùng an toàn thân để tự tin thực đề tài lần em tin kinh nghiệm quý báu tiền đề quan trọng để em tiếp tục phát triển thân sau Do kiến thức em hạn chế nhiên kiến thức lại vơ hạn, trình thực chắn khơng tránh khỏi sai sót em cố gắng suốt trình Những sai sót q trình thực em hi vọng đóng góp tận tình từ phía thầy (cơ) để em ngày hồn thiện kỹ thân tự tin đường phát triển sau Em xin phép chân thành cảm ơn! Sinh viên thực Nguyễn Đức Trí – 19110302 KHÓA LUẬN TỐT NGHIỆP Mục Lục MỞ ĐẦU 1 Tính cấp thiết đề tài Đối tượng nghiên cứu Phạm vi nghiên cứu Mục tiêu đề tài Ý nghĩa khoa học nghiên cứu NỘI DUNG CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.4 Mạng Neutron Hồi Quy (Recurrent Neutron Network) 1.5 Mơ hình sinh liệu mơ hình sinh liệu theo luồng (Generative Model and Flow – Based Generative Model) 11 1.6 Mô hình mã hóa – giải mã (Encoder – Decoder Model) 16 1.7 Cơ chế tập trung (Attention Mechanism) Mơ hình Transformer .16 1.8 Mơ hình Generative Pre – Trained Transformer (GPT) 31 1.9 Mơ hình Whisper 33 1.10 Mơ hình Tacotron2 36 1.11 Mơ hình WaveGlow 42 1.12 Tiền xử lý liệu văn 44 1.13 Tiền xử lý liệu âm 47 CHƯƠNG 2: THIẾT KẾ MƠ HÌNH 50 2.1 Mơ hình GPT 50 2.2 Mơ hình Whisper 63 2.3 Mơ hình Tacotron2 72 2.4 Mơ hình WaveGlow 88 CHƯƠNG 3: HUẤN LUYỆN MƠ HÌNH 95 3.1 Huấn luyện mơ hình GPT 95 3.2 Huấn luyện mơ hình Whisper 97 3.3 Huấn luyện mô hình Tacotron2 99 3.4 Huấn luyện mơ hình WaveGlow 101 CHƯƠNG 4: ỨNG DỤNG 104 4.1 Giới thiệu ứng dụng 104 KHÓA LUẬN TỐT NGHIỆP 4.1 Ứng dụng chatbot sử dụng mơ hình GPT 104 4.2 Ứng dụng chuyển giọng nói thành văn sử dụng mơ hình Whisper 106 4.3 Ứng dụng chuyển văn thành âm sử dụng mơ hình Tacotron2 WaveGlow 108 4.4 Ứng dụng voicebot sử dụng mơ hình GPT, Whisper, Tacotron2 WaveGlow 109 KẾT LUẬN 112 Kết đạt 112 Ưu điểm 113 Nhược điểm 113 Hướng phát triển 113 TÀI LIỆU THAM KHẢO 115 PHỤ LỤC 117 KHÓA LUẬN TỐT NGHIỆP DANH MỤC CÁC TỪ VIẾT TẮT STT Ký hiệu chữ viết tắt Tên đầy đủ AI Artificial Intelligence IoT Internet of Thing SOTA State – Of – The – Art NLP Natural Language Processing CBow Continuous Bag – Of – Words Word2Vec Word to Vector Seq2Seq Sequence to Sequence ffn Feed Forward Networks d_ff Dimension of Feed Forward Networks 10 d_model Dimension of Model Word Vector 11 CNN Convolutional Neutron Network 12 RNN Recurrent Neutron Network 13 LSTM Long Short – Term Memory 14 GRU Gated Recurrent Unit 12 GPU Graphic Processing Unit 15 TPU Tensor Processing Unit 16 BERT Bidirectional Encoder Representation from Transform 17 DIET Dual Intent and Entity Transformer 18 eps Epsilon 19 GPT Generative Pre – trained Transformer KHÓA LUẬN TỐT NGHIỆP DANH MỤC HÌNH ẢNH Hình 1: Mơ hình ba lớp Deep Learning Hình 2: Mơ tả xử lý ngôn ngữ tự nhiên đời sống [2] Hình 3: Logo Pytorch [4] Hình 4: Bảng so sánh tỉ lệ số lượng báo khoa học sử dùng PyTorch Tensorflow [5] Hình 5: Luồng xử lý RNN biến thể [6] Hình 6: Kiến trúc RNN [7] Hình 7: Kiến trúc LSTM [7] 10 Hình 8: Luồng thực thi mơ hình flow – based model [8] 13 Hình 9: Mơ hình Encoder – Decoder [9] 16 Hình 10: Cơ chế ánh xạ ngữ cảnh trình tập trung [11] 19 Hình 11: Mơ hình Multi – Head Attention [12] 19 Hình 12: Luồng thực thi Scaled – dot Product Attention [13] 20 Hình 13: Mơ hình Transformer [13] 21 Hình 14: Mơ hình Position wise Feed Forward Networks 25 Hình 15: Thành phần Residual Connection [13] 25 Hình 16: Luồng thực thi Residual Connection 26 Hình 17: Mơ hình Generative Pre – trained Transformer (GPT) [14] 31 Hình 18: Các thành phần bên Text and Postion Embed 32 Hình 19: Mơ hình Decoder Layer mơ hình GPT [14] 32 Hình 20: Thành phần sinh văn GPT [14] 33 Hình 21: Mơ hình Whisper [15] 33 Hình 22: Dữ liệu đầu vào khối Encoder lớp Mel Extractor mơ hình Whisper [15] 34 Hình 23: Luồng thực thi lớp Mel Extractor 34 Hình 24: Sinusoidal Positional Encoding [15] 35 Hình 25: Learned Positional Encoding [15] 35 Hình 26: Khối Encoder mơ hình Whisper [15] 35 Hình 27: Khối Decoder mơ hình Whisper [15] 36 Hình 28: Mơ hình Tacotron2 [16] 37 Hình 29: Thành phần Encoder mơ hình Tacotron2 [16] 37 KHÓA LUẬN TỐT NGHIỆP Hình 30: Ý tưởng Location Sensitive Attention [18] 38 Hình 31: Kiến trúc luồng thực thi Location Sensitive Attention 38 Hình 32: Mơ hình Tacotron2 Decoder [16] 39 Hình 33: Sơ đồ luồng thực thi Tacotron2 Decoder trình huấn luyện 40 Hình 34: Sơ đồ luồng thực thi Tacotron2 Decoder trình suy luận .41 Hình 35: Mơ hình Post – Net với n lớp convolution 41 Hình 36: Hậu xử lý Log – Mel Spectrogram mơ hình Tacotron2 .42 Hình 37: Mơ hình WaveGlow [21] 42 Hình 38: Mơ hình Affine Coupling Layer [21] 43 Hình 39: Ví dụ Tokenizer 45 Hình 40: Ví dụ Word – Based Tokenizer 45 Hình 41: Ví dụ BPE Tokenizer 46 Hình 42: Bảng âm vị tiếng Anh 47 Hình 43: Đồ thị tín hiệu âm 48 Hình 44: Thơng tin Mel – Spectrogram 48 Hình 45: Khái qt lớp mơ hình Multi – Head Attention 51 Hình 46: Khái qt mơ hình Scaled – dot Product Attention 53 Hình 47: Khái quát thực thi split – head Multi – Head Attention .54 Hình 48: Khái qt mơ hình Position wise Feed Forward Networks 56 Hình 49: Khái qt mơ hình Residual Connection 57 Hình 50: Khái qt mơ hình Decoder Layer GPT 58 Hình 51: Khái qt mơ hình GPT Decoder 59 Hình 52: Khái qt mơ hình Positional Encoding 60 Hình 53: Khái qt mơ hình Text & Embed 61 Hình 54: Khái qt mơ hình GPT 63 Hình 55: Khái qt mơ hình Mel – Extractor Whisper 65 Hình 56: Khái quát mơ hình Encoder Layer Whisper 66 Hình 57: Khái qt mơ hình Decoder Layer Whisper 67 Hình 58: Khái qt mơ hình Whisper Encoder 68 Hình 59: Khái quát mơ hình Whisper Decoder 69 Hình 60: Khái qt mơ hình Whisper 71 Hình 61: Khái qt mơ hình Encoder Tacotron2 73 KHĨA LUẬN TỐT NGHIỆP Hình 62: Khái qt mơ hình Location Sensitive Attention 76 Hình 63: Khái qt mơ hình Pre – Net 78 Hình 64: Khái qt mơ hình Post – Net 79 Hình 65: Khái qt mơ hình Decoder Tacotron2 81 Hình 66: Q trình suy luận mơ hình Tacotron2 Decoder 85 Hình 67: Khái qt mơ hình Tacotron2 86 Hình 68: Q trình suy luận mơ hình Tacotron2 87 Hình 69: Khái qt mơ hình Invertible 1x1 Convolution WaveGlow .89 Hình 70: Quá trình suy luận Invertible 1x1 Convolution WaveGlow 89 Hình 71: Khái qt mơ hình WN WaveGlow 90 Hình 72: Mơ hình WaveGlow q trình huấn luyện 92 Hình 73: Mơ hình WaveGlow q trình biến đổi 93 Hình 74: Số lượng tham số huấn luyện lớp mơ hình GPT 96 Hình 75: Train loss Validation loss mơ hình GPT 96 Hình 76: BLEU Score tập Validation mơ hình GPT 97 Hình 77: Số lượng tham số lớp mơ hình Whisper 98 Hình 78: Train loss Validation loss mơ hình Whisper 99 Hình 79: WER Score tập validation mơ hình Whisper 99 Hình 80: Số lượng tham số lớp mơ hình Tacotron2 100 Hình 81: Train loss Validation loss mơ hình Tacotron2 101 Hình 82: Số lượng tham số lớp mơ hình WaveGlow .102 Hình 83: Train loss Validation loss mơ hình WaveGlow .103 Hình 84: Trang chủ ứng dụng 104 Hình 85: Luồng thực thi ứng dụng chatbot 105 Hình 86: Giao diện chatbot 105 Hình 87: Giao diện nhắn tin với chatbot 106 Hình 88: Luồng thực thi ứng dụng chuyển đổi giọng nói thành văn 106 Hình 89: Giao diện chuyển đổi giọng nói thu từ micro thành văn .107 Hình 90: Kết hiển thị chuyển đổi giọng nói thu từ micro thành văn .107 Hình 91: Giao diện chuyển đổi file âm thành văn 108 Hình 92: Kết hiển thị chuyển đổi từ file âm thành văn .108 Hình 93: Luồng thực thi ứng dụng chuyển văn thành giọng nói .109

Ngày đăng: 11/12/2023, 09:39

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan