52 Trang 8 DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮTKý hiệuÝ nghĩaNLPNatural Language Processing - Xử lý ngôn ngữ tự nhiênTokenizationTách từTransformerMột mô hình mạng nơ ron học sâuBertBidirecti
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG KHOA CÔNG NGHỆ THÔNG TIN NÔNG HỒNG LANH NGHIÊN CỨU MƠ HÌNH TRANSFORMER VÀ ỨNG DỤNG THÊM DẤU TIẾNG VIỆT LUẬN VĂN THẠC SĨ Chuyên ngành: Khoa học máy tính Mã số: 8480101 Người hướng dẫn: TS NGUYỄN HÙNG CƯỜNG Thái Nguyên - 2023 LỜI CẢM ƠN Lời em xin gửi lời cảm ơn sâu sắc tới thầy giáo hướng dẫn TS Nguyễn Hùng Cường Thầy giao đề tài tận tình hướng dẫn em q trình hồn thành đề tài Em xin gửi lời cám ơn tới thầy cô giáo khoa Công nghệ thông tin giảng dạy giúp đỡ chúng em suốt trình học tập trường Xin chân thành cảm ơn bạn lớp CHK20 đồng hành giúp đỡ tơi q trình học tập Xin cảm ơn, gia đình, đồng nghiệp quan động viên, giúp đỡ, khích lệ tơi hồn thành khóa học Thái Nguyên, tháng năm 2023 Học viên NÔNG HỒNG LANH LỜI CAM ĐOAN Tôi xin cam đoan luận văn tơi thực hiện, hướng dẫn TS.Nguyễn Hùng Cường Các kết lý thuyết trình bày luận văn tổng hợp từ kết cơng bố có trích dẫn đầy đủ Kết chương trình thực nghiệm luận văn tác giả thực hồn tồn trung thực, sai tơi hồn tồn chịu trách nhiệm Thái Nguyên, ngày tháng năm 2023 Học viên NÔNG HỒNG LANH Mục lục DANH SÁCH HÌNH VẼ DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT MỞ ĐẦU Chương CƠ BẢN VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN 10 1.1 Các khái niệm 10 1.1.1 Xử lý ngôn ngữ tự nhiên 1.1.2 Xử lý văn 1.1.3 Chuẩn hóa token 1.2 Biến đổi word2vec 1.2.1 Onehot véc tơ 1.2.2 Mơ hình Skip-Grams 1.2.3 Mơ hình CBOW 1.3 TF-IDF 1.3.1 TF 1.3.2 IDF 1.3.3 TF-IDF 1.4 Bài toán thêm dấu tiếng Việt 1.4.1 Các công cụ thư viện cho NLP 1.4.2 Xử lý tiếng Việt 1.4.3 Bài toán thêm dấu tiếng Việt 10 12 12 13 13 13 15 15 16 17 17 18 18 19 19 Chương MƠ HÌNH TRANSFORMER 22 2.1 Cơ chế tập trung 23 2.1.1 Tầng tập trung 2.1.2 Kiến trúc tự tập trung 2.2 Mơ hình seq2seq áp dụng chế tập trung 2.2.1 Bộ mã hóa giải mã seq2seq 2.2.2 Seq2seq thêm chế tập trung 2.3 Kiến trúc Transformer 2.3.1 Kiến trúc transformer 2.3.2 Các kỹ thuật transformer 2.3.3 Bộ mã hóa giải mã transformer 2.3.4 Huấn luyện transformer 23 26 27 27 27 30 30 32 35 37 2.4 Mơ hình bert 2.4.1 Tinh chỉnh bert 2.4.2 Mặt nạ ngôn ngữ 2.4.3 Các kiến trúc mơ hình BERT 2.4.4 BERT Tiếng Việt 2.4.5 Một số kỹ thuật tokennize 38 38 39 41 42 44 Chương ỨNG DỤNG TRANSFORMER TRONG BÀI TOÁN THÊM DẤU TIẾNG VIỆT 48 3.1 Chuẩn bị liệu, môi trường thực nghiệm 49 3.2 Cấu hình transformer 50 3.3 Phân tích kết 51 3.3.1 Thiết lập mặc định 3.3.2 Kết điều chỉnh mơ hình 51 51 Kết luận 55 Tài liệu tham khảo 56 Phụ lục 58 Danh sách hình vẽ 1.1 Kiến trúc mơ hình skip-grams 14 1.2 Kiến trúc mạng nơ ron mơ hình skip - grams 14 1.3 Kiến trúc Cbow 15 2.1 Mô tả tầng tập trung 23 2.2 Cách tính đầu tầng tập trung 24 2.3 Kiến trúc tự tập trung 26 2.4 Q trình giải mã mơ hình seq2seq áp dụng chế tập trung 28 2.5 Các tầng mô hinh seq2seq áp dụng chế tập trung 29 2.6 Kiến trúc transformer 32 2.7 Kỹ thuật tập trung đa đầu 33 2.8 Kỹ thuật biểu diễn vị trí transformer 35 2.9 Minh họa dự đoán bước thời gian t tầng tự tập trung 37 2.10 Tiến trình huấn luyện trước tinh chỉnh BERT 39 2.11 Kiến trúc bert base bert large 41 3.1 Biến đổi sai số qua epoch 52 3.2 Sai số tập huấn luyện kiểm tra biến đổi theo epoch mơ hình theo thiết lập 52 3.3 Sai số tập huấn luyện kiểm tra biến đổi theo epoch mơ hình theo thiết lập 53 DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT Ký hiệu NLP Tokenization Transformer Bert Text processing NLTK whitespaceTokenizer WordPunctTokenizer TreebankWordTokenizer normalization Word2vec Skip-Grams Rn CBOW input, ouput layer TF IDF | A| Attention LSTM RNN seq2seq exp( x ) phase time step Score Weight tank( x ), softmax Concatenate Sub-layer, Encoder, Decoder Fully connected Positional Encoding Scale dot product Bleu score, Encoder, Decoder Machine Translation Fine tuning Pre training Embedding MLL NSP Pre processing Ý nghĩa Natural Language Processing - Xử lý ngôn ngữ tự nhiên Tách từ Một mô hình mạng nơ ron học sâu Bidirectional Encoder Representations from Transformers Quá trình xử lý chuỗi văn Một thư viện python hỗ trợ NLP Tách token dựa vào khoảng trắng Tách token dựa dấu câu Tách token dựa luật ngữ pháp Chuẩn hóa Biến đổi từ thành véc tơ số Một mơ hình biểu diễn từ bối cảnh thành véc tơ Không gian n chiều continueos backward model- Tên mơ hình Đầu vào, đầu lớp, tầng mơ hình mạng nơ ron Term Frequency- tần suất xuất thành phần Inverse Document Frequency Lực lượng tập hợp A Cơ chế tập trung Mạng nhớ ngắn dài hạn Mạng nơ ron hồi tiếp Mơ hình chuỗi Hàm e x Các pha xử lý mạng nơ ron Các bước thời gian Các cách tính điểm trọng số Trọng số Hàng tang hypebol, hàm sofmax Phép nối véc tơ Các tầng con, Quá trình mã hóa, giải mã mạng Kết nối đầy đủ Mã hóa vị trí từ Tích vơ hướng Các độ đo đánh giá mơ hình Bản dịch, MT Điều chỉnh, tinh chỉnh mơ hình Huấn luyện trước Biểu diễn từ, văn thành véc tơ Mơ hình ẩn ngẫu nhiên số từ, thay mask Next Sentence Prediction - Mơ hình dự đốn câu Tiền xử lý MỞ ĐẦU Học máy, học sâu, trí tuệ nhân tạo lĩnh vực thu hút quan tâm xã hội nói chung nhà nghiên cứu khoa học máy tính nói riêng năm gần Trong đó, Xử lý ngơn ngữ tự nhiên (NLP) đóng vai trị quan trọng nhiều lĩnh vực có ảnh hưởng lớn đến sống hàng ngày Trong tương tác Người-Máy, NLP cho phép máy tính hiểu tương tác với người ngơn ngữ tự nhiên Ví dụ, trợ lý ảo, trình tương tác giọng nói hệ thống trả lời tự động sử dụng NLP để hiểu đáp ứng câu hỏi yêu cầu người dùng Trong dịch máy: NLP giúp máy tính dịch văn từ ngôn ngữ sang ngôn ngữ khác Công nghệ dịch máy ngày sử dụng phương pháp NLP tiên tiến mơ hình Transformer để tạo dịch tự nhiên xác NLP cịn đóng vai trị quan trọng nhiều lĩnh vực khác Phân tích cảm xúc, tóm tắt văn bản, trích xuất thơng tin, tìm kiếm phân Loại NLP tiếng Việt lĩnh vực phát triển cộng đồng NLP Mặc dù NLP tiếng Anh có nhiều nghiên cứu ứng dụng phát triển, NLP tiếng Việt đặt thách thức riêng đặc điểm ngôn ngữ tài nguyên liệu hạn chế Một số vấn đề khó khăn đến từ: • Tách từ: Tiếng Việt có cấu trúc từ ngữ pháp phức tạp, đặc biệt khơng có dấu Việc tách từ tiếng Việt gặp nhiều khó khăn so với tiếng Anh Có phương pháp tách từ dựa từ điển, tách từ dựa quy tắc, sử dụng công cụ mã nguồn mở VnTokenizer PyViTokenizer • Xử lý dấu âm tiết: Tiếng Việt sử dụng dấu để thay đổi ý nghĩa cách đọc từ Để thêm dấu tiếng Việt vào văn khơng dấu, sử dụng phương pháp xác định ngữ cảnh từ vị trí ngữ nghĩa từ, sử dụng mơ hình NLP tiếng Việt huấn luyện trước • Xử lý từ đồng nghĩa: Tiếng Việt có nhiều từ đồng nghĩa từ mang nhiều ý nghĩa khác Điều tạo thách thức việc hiểu xử lý ngôn ngữ Các phương pháp sử dụng ngữ nghĩa từ điển, ngữ cảnh mơ hình học máy áp dụng để giải vấn đề • Dữ liệu huấn luyện tài nguyên: NLP tiếng Việt gặp khó khăn tài nguyên liệu hạn chế so với tiếng Anh Dữ liệu tiếng Việt thu thập từ nguồn trực tuyến, bao gồm báo chí, diễn đàn tài liệu khác Ngồi ra, có số tài nguyên ngôn ngữ từ điển, từ loại ngữ pháp Bài toán thêm dấu tiếng Việt toán lĩnh vực NLP Mục tiêu toán thêm dấu câu dấu vào từ tiếng Việt khơng có dấu để tạo câu hoàn chỉnh ngữ pháp Một số phương pháp giải tốn này: • Sử dụng từ điển: Xây dựng từ điển chứa từ tiếng Việt không dấu tương ứng với từ tiếng Việt có dấu Khi gặp từ khơng có dấu, tra từ điển để tìm từ có dấu tương ứng • Sử dụng quy tắc ngữ pháp: Xác định quy tắc ngữ pháp để xác định vị trí loại dấu cần thêm vào từ Ví dụ, dấu chấm câu thường thêm vào cuối câu, dấu xác định dựa ngữ cảnh từ loại từ • Sử dụng mơ hình học máy: Sử dụng mơ hình học máy mạng neural, mơ hình Transformer BERT để học quy luật cách thêm dấu tiếng Việt Mơ hình huấn luyện liệu có dấu khơng có dấu để tìm quy tắc mối quan hệ từ dấu tiếng Việt • Sử dụng phương pháp kết hợp: Kết hợp phương pháp để tăng cường hiệu độ xác việc thêm dấu tiếng Việt Kết hợp từ điển, quy tắc ngữ pháp mơ hình học máy giúp xử lý trường hợp đặc biệt đa dạng tiếng Việt Bài toán thêm dấu tiếng Việt gặp khó khăn đa nghĩa từ phụ thuộc vào ngữ cảnh Tuy nhiên, với kết hợp phương pháp tài nguyên phù hợp, toán giải cách hiệu Vì đợt học tập, làm luận văn em chọn đề tài "Nghiên cứu mơ hình Transformer ứng dụng thêm dấu tiếng Việt" thầy TS Nguyễn Hùng Cường hướng dẫn Luận văn em gồm chương: Chương 1: Trình bày tổng quan NLP khái niệm, ứng dụng, hướng nghiên cứu quan tâm Chương 2: Trình bày mơ hình transformer số kỹ thuật học sâu liên quan trực tiếp đến tốn Chương 2: Trình bày q trình ứng dụng mơ hình transformer thêm dấu tiếng Việt