Đồ án tốt nghiệp công nghệ thông tin tìm hiểu mô hình ngôn ngữ phobert cho bài toán phân loại quan điểm bình luận tiếng việt

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	20
Dung lượng	392,81 KB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUẢN LÝ VÀ CÔNG NGHỆ HẢI PHÒNG ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ THÔNG TIN Sinh viên Nguyễn Thành Long Lớp CT2101C Giảng Viên Hướng Dẫn Ths Nguyễn Thị Xuân Hư[.]

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUẢN LÝ VÀ CƠNG NGHỆ HẢI PHỊNG - ĐỒ ÁN TỐT NGHIỆP NGÀNH: CÔNG NGHỆ THÔNG TIN Sinh viên : Nguyễn Thành Long Lớp : CT2101C Giảng Viên Hướng Dẫn: Ths.Nguyễn Thị Xuân Hương Hải Phòng – 2021 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUẢN LÝ VÀ CƠNG NGHỆ HẢI PHỊNG - TÌM HIỂU VỀ MƠ HÌNH NGƠN NGỮ PHOBERT CHO BÀI TOÁN PHÂN LOẠI QUAN ĐIỂM BÌNH LUẬN TIẾNG VIỆT ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY NGÀNH: CÔNG NGHỆ THÔNG TIN Sinh Viên : Nguyễn Thành Long Lớp : CT2101C Giảng Viên Hướng Dẫn : Ths.Nguyễn Thị Xuân Hương BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUẢN LÝ VÀ CƠNG NGHỆ HẢI PHỊNG NHIỆM VỤ ĐỀ TÀI TỐT NGHIỆP Sinh viên: Nguyễn Thành Long Lớp : CT2101C Ngành : Công nghệ thông tin Mã SV : 1712111008 Tên đề tài: Tìm hiểu mơ hình ngôn ngữ PhoBert cho bài toán phân loại quan điểm bình luận tiếng Việt CÁN BỘ HƯỚNG DẪN ĐỀ TÀI TỐT NGHIỆP Họ tên : Nguyễn Thị Xuân Hương Học hàm, học vị : Thạc sĩ Cơ quan công tác : Trường Đại học Quản lý Công nghệ Hải Phịng Nội dung hướng dẫn: + Tìm hiểu về mơ hình ngơn ngữ PhoBert + Tìm hiểu về bài toán phân tích quan điểm người dùng, phân loại quan điểm bình luận Tiếng Việt + Tìm hiểu về ngôn ngữ lập trình Python Đề tài tốt nghiệp giao ngày 16 tháng 07 năm 2021 Yêu cầu phải hoàn thành xong trước ngày 03 tháng 10 năm 2021 Đã nhận nhiệm vụ ĐTTN Đã giao nhiệm vụ ĐTTN Giảng viên hướng dẫn Sinh viên Hải Phòng, ngày tháng năm 2021 TRƯỞNG KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc PHIẾU NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN TỐT NGHIỆP Họ tên giảng viên: Nguyễn Thị Xuân Hương Đơn vị công tác: Khoa Công nghệ thông tin, Trường Đại học Quản lý Cơng nghệ Hải Phịng Họ tên sinh viên: Nguyễn Thành Long Ngành: Công nghệ thông tin Nội dung hướng dẫn: + Tìm hiểu về mơ hình ngơn ngữ PhoBert + Tìm hiểu về bài toán phân tích quan điểm người dùng, phân loại quan điểm bình luận Tiếng Việt + Tìm hiểu về ngôn ngữ lập trình Python Tinh thần thái độ sinh viên trình làm đề tài tốt nghiệp ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… Đánh giá chất lượng đồ án/khóa luận (so với nội dung yêu cầu đề nhiệm vụ Đ.T T.N mặt lý luận, thực tiễn, tính tốn số liệu…) ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… Ý kiến giảng viên hướng dẫn tốt nghiệp Đạt Không đạt Điểm:…………………… Hải Phòng, ngày tháng 10 năm 2021 Giảng viên hướng dẫn (Ký ghi rõ họ tên) CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc PHIẾU NHẬN XÉT CỦA GIẢNG VIÊN CHẤM PHẢN BIỆN Họ tên giảng viên: Đỗ Văn Chiểu Đơn vị công tác: Khoa Công nghệ thông tin, Trường Đại học Quản lý Cơng nghệ Phịng Họ tên sinh viên: Nguyễn Thành Long Hải Ngành: Công nghệ thơng tin Đề tài tốt nghiệp: Tìm hiểu mơ hình ngôn ngữ PhoBert cho bài toán phân loại quan điểm bình luận Tiếng Việt Phần nhận xét giảng viên chấm phản biện Những mặt hạn chế Ý kiến giảng viên chấm phản biện Được bảo vệ Không bảo vệ Điểm:…………………… Hải Phòng, ngày tháng 10 năm 2021 Giảng viên chấm phản biện (Ký ghi rõ họ tên) MỤC LỤC MỤC LỤC LỜI CẢM ƠN MỞ ĐẦU DANH MỤC CÁC HÌNH VẼ VÀ CÁC BẢNG BẢNG CÁC TỪ VIẾT TẮT CHƯƠNG MÔ HÌNH BERT 1.1 Khái niệm 1.2 Tại lại cần BERT 10 1.3 Một số khái niệm 10 1.3.1 Nhiệm vụ phía sau (Downstream task) 10 1.3.2 Điểm khái quát đánh giá mức độ hiểu ngôn ngữ (GLUE score benchmark) 11 1.3.3 Phân tích cảm xúc (Sentiment Analysis) 11 1.3.4 Hỏi đáp (Question and Answering) 11 1.3.5 Suy luận ngôn ngữ (Natural Language Inference) 11 1.3.6 Quan hệ văn (Textual Entailment) 11 1.3.7 Ngữ cảnh (Contextual) 12 1.3.8 Phương pháp Hiện đại (SOTA) 12 1.3.9 Mơ hình LTR 12 1.3.10 Mơ hình ngơn ngữ đánh dấu MLM (Masked Language Model) 12 1.4 Ngữ cảnh (Contextual) vai trò NLP 13 1.5 Tiếp cận nông học sâu ứng dụng huấn luyện trước (pre-training) NLP 14 1.5.1 Tiếp cận nông (shallow approach) 14 1.5.2 Học sâu (deep-learning) 15 1.6 Phương pháp TRANSFORMER 16 1.6.1 Encoder và Decoder BERT 16 1.6.2 Các tiến trình self-attention encoder-decoder attention ( phương pháp transformer ) 18 1.7 Mô hình BERT 20 1.7.1 Mơ hình BERT tinh chỉnh (Fine-tuning model BERT) 20 1.8 Cách huấn luyện BERT 22 1.8.1 Mô hình ngô ngữ đánh dấu (Masked Language Model) 22 1.8.2 Next Sentence Prediction (NSP) 24 1.9 Các kiến trúc mơ hình BERT 26 1.10 RoBerta 27 1.10.1 Khái niệm RoBerta 27 1.10.2 Dữ liệu 27 1.10.3 Extract fearture từ RoBerta 31 1.10.4 Điền từ ( Filling Mask ) 32 1.10.5 Trích suất đặc trưng ( Extract feature ) cho từ 32 CHƯƠNG PHOBERT 33 2.1 Sự đời của PhoBERT 33 2.2 Cấu trúc của PhoBERT 33 2.2.1 Dữ liệu trước huấn luyện 36 2.2.2 Tối ưu hóa 36 2.2.3 Thiết lập thử nghiệm 37 2.2.4 Kết thực nghiệm 38 2.2.5 Kết luận 41 2.3 Ứng dụng của PhoBert 41 CHƯƠNG ỨNG DỤNG PHOBERT VÀO BÀI TOÁN PHÂN TÍCH QUAN ĐIỂM BÌNH LUẬN TIẾNG VIỆT 42 3.1 Phát biểu bài toán 42 3.2 Dữ liệu Công cụ, môi trường thực nghiệm: 45 3.2.1 Dữ liệu 45 3.2.2 Công cụ và môi trường thực nghiệm: 46 ❖ Công cụ 46 Ngơn ngữ lập trình Python 46 Thư viện mã nguồn mở Tensorflow 47 Thư viện Transformers 48 Thư viện fastBPE 48 Thư viện fairseq 48 Thư viện VnCoreNLP 48 PhoBERT huấn luyện trước 48 ❖ Môi trường thực nghiệm: 48 3.3 Các bước thực 48 3.3.1 Cài đặt các thư viện cần thiết 49 3.3.2 Cài đặt thư viện vncorenlp 49 3.3.3 Tải về dữ liệu huấn luyện từ trang chủ thi của AIVIVN pre-trained của PhoBERT 50 3.3.4 Tải về dữ liệu của thi Phân tích sắc thái bình ḷn 50 3.3.5 Tách dữ liệu thành tập train validation theo tỉ lệ 90:10 51 3.3.6 Tạo mask gồm giá trị 0, để làm đầu vào cho thư viện transformers 52 3.3.7 Huấn luyện mô hình 53 KẾT LUẬN 57 TÀI LIỆU THAM KHẢO 58 LỜI CẢM ƠN Lời cho em gửi lời cảm ơn sâu sắc đến gia đình, người thân của em động viên, giúp đỡ, cổ vũ, tạo cho em thêm động lực để em có thể hoàn thành đồ án thời gian giao Em xin gửi lời cảm ơn đến Ban Giám Hiệu Trường Đại học Quản lý Công nghệ Hải Phòng, Ban, Ngành hỗ trợ hết mức tạo điều kiện tốt để em có thể đăng kí đồ án tốt nghiệp Em xin cảm ơn đến thầy, cô Khoa Công nghệ thông tin, Trường Đại học Quản lý Công nghệ Hải Phòng, giúp em có những kiến thức cực kì bổ ích vịng năm vừa qua, giúp em có nền tảng kiến thức vững để em có thẻ thực đồ án Em xin gửi lời cảm ơn chân thành đến cô Ths Nguyễn Thị Xuân Hương, dành nhiều thời gian công sức, về vật chất tinh thần giúp em có thể thể hồn thành đồ án cách trơn tru Em xin chân thành cảm ơn! Hải Phòng, ngày tháng năm 2021 Sinh viên Nguyễn Thành Long MỞ ĐẦU Trong xã hội người ln có nhu cầu giao tiếp thể hiện, hình thức sử dụng phổ biến là diễn đạt ngơn ngữ Ngôn ngữ sử dụng từ ngữ dấu hiệu để diễn tả thể qua lời nói, chữ viết hình ảnh Với sự bùng nổ của Internet trang mạng xã hội, trang web tài liệu, sách báo, trang sản phẩm, email, lượng lớn dữ liệu văn của ngôn ngữ tạo ngày Để giúp máy tính hiểu những dữ liệu công việc quan trọng để hỗ trợ quyết định dựa ngôn ngữ Xử lý ngôn ngữ tự nhiên nghiên cứu sự tương tác ngôn ngữ tự nhiên giữa máy tính và người Trong thực tế, việc sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên để xử lý và phân tích dữ liệu văn (ngôn ngữ tự nhiên của người) phổ biến, chẳng hạn các mô hình ngôn ngữ hay các mô hình dịch máy Để có thể xây dựng các phương pháp xử lý ngôn ngữ thì trước tiên chúng ta cần quan tâm đến việc biểu diễn ngôn ngữ tự nhiên thế nào Một số phương pháp biểu diễn ngôn ngữ giới thiệu sử dụng các nhiệm vụ xử lý ngôn ngữ tự nhiên như: sự xuất (Presence) tần suất xuất (Frequency), mơ hình ngôn ngữ (n-gram), thông tin nhãn từ loại (Parts of Speech), thơng tin phân tích ngữ pháp (Syntactic parsing), biểu diễn véc tơ từ (Word2Vec), nhúng ký tự (Character Embedding), mạng ngữ nghĩa (WordNet), mạng từ điển quan điểm (SentiWordNet), v.v Các phương pháp biểu diễn ngôn ngữ giúp trích xuất các đặc trưng từ ngơn ngữ sử dụng cho mơ hình xử lý ngơn ngữ tự nhiên giúp nâng cao hiệu cho các phương pháp phân tích Do đó, nghiên cứu về các phương pháp biểu diễn ngôn ngữ nhằm tìm các đặc trưng hữu ích cho toán NLP nhiệm vụ quan trọng Gần đây, Google AI giới thiệu mơ hình ngơn ngữ BERT coi bước đột phá lớn học máy khả ứng dụng của vào nhiều tốn xử lý ngơn ngữ tự nhiên khác với kết tốt Tiếp theo đó, PhoBERT đời nhằm xây dựng mơ hình ngơn ngữ BERT riêng cho tiếng Việt với kết tốt cho nhiều tốn xử lý ngơn ngữ tự nhiên tiếng Việt Với sự phát triển của trang mạng xã hội và các trang đánh giá sản phẩm, dữ liệu bình luận khen chê của khách hàng gia tăng cách nhanh chóng tạo thành kho dữ liệu đánh giá khổng lồ Việc hiểu xem khách hàng đánh giá về sản phẩm, dịch vụ hay vấn đề quan tâm tích cực hay tiêu cực nhiệm vụ nhà nghiên cứu quan tâm những thập niên gần và có nhiều ứng dụng thực tế Chính những lý đó, em chọn đề tài “ Tìm hiểu mô hình PhoBert cho bài toán phân loại quan điểm bình luận Tiếng Việt ”nhằm tìm hiểu các phương pháp mới biểu diễn cho ngơn ngữ tiếng Việt áp dụng cho tốn phân loại bình ḷn tiếng Việt Đồ án thiết kế gồm chương: Chương Mô hình BERT trình bày về mơ hình BERT khái niệm liên quan, chương 2: Mô hình PhoBERT trình bày về tìm hiểu cho mơ hình PhoBERT, Chương 3: Ứng dụng PhoBERT cho bài toán phân loại bình luận tiếng Việt trình bày về tốn, cơng cụ sử dụng và các cài đặt thử nghiệm, cuối phần kết luận DANH MỤC CÁC HÌNH VẼ VÀ CÁC BẢNG Hình Sơ đồ kiến trúc transformer kết hợp với attention Hình Sơ đồ vị trí áp dụng self-attention kiến trúc transformer Hình Sơ đồ attension tương tác giữa các véc tơ embedding của encoder và decoder Hình Tồn tiến trình pre-training fine-tuning của BERT Hình Sơ đồ kiến trúc BERT cho nhiệm vụ ngôn ngữ mô hình đánh dấu Hình Các bước tạo Input tác vụ NSP Hình Mô hình đầu của NSP Hình Kiến trúc gồm nhiều layers tại encoder của model BERT Hình Sơ đồ phân tích cảm xúc Bảng Thống kê dữ liệu tác vụ xuôi dịng Bảng Điểm hiệu suất (tính %) kiểm tra gắn thẻ POS phân tích cú pháp phụ thuộc Bảng Điểm hiệu suất (tính %) kiểm tra NER NLI Bảng Hiệu suất với các kích thước lô khác của các mô hình Bảng Hiệu suất GLUE BenchMARK BẢNG CÁC TỪ VIẾT TẮT Viết tắt Đầy đủ Ý nghĩa BERT Bidirectional Encoder Representations from Transformers Mô hình ngôn ngữ NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên NSP Next Sentence Prediction Dữ báo câu tiếp theo NER Name Entity Recognition Nhận diện thực thể câu NLI Natural Languague Inference Suy luận ngôn ngữ tự nhiên SQuAD Stanford Question Answering Dataset Tác vụ hỏi đáp SOTA State-Of-Art Hiện đại GLUE General Language Understanding Evaluation Điểm khái quát đánh giá mức độ hiểu ngôn ngữ MLM Masked Language Model Mô hình ngôn ngữ Masked RNN Recurrent Neural Network Mạng neural hồi quy ELMo Embeddings from Language Model Nhúng từ Mơ hình Ngơn ngữ CHƯƠNG MƠ HÌNH BERT 1.1 Khái niệm BERT ( Bidirectional Encoder Representations from Transformers ) mơ hình ngôn ngữ ( Language Model ) tạo Google AI và giới thiệu vào năm 2008 BERT coi là đột phá lớn Machine Learning khả ứng dụng của vào nhiều toán NLP ( Natural Language Processing ) khác nhau: Question Answering, Natural Language Inference, với kết tốt Các nhà nghiên cứu làm việc tại Google AI tái khẳng định, sự thiếu hụt dữ liệu huấn luyện những thách thức lớn lĩnh vực xử lý ngôn ngữ tự nhiên Đây lĩnh vực rộng lớn và đa dạng với nhiều nhiệm vụ riêng biệt, hầu hết tập dữ liệu đều đặc thù cho từng nhiệm vụ Để thực tốt những nhiệm vụ ta cần những dữ liệu lớn chứa hàng triệu thậm chí hàng tỷ ví dụ mẫu Tuy nhiên, thực tế hầu hết tập dữ liệu chứa vài nghìn vài trăm nghìn mẫu đánh nhãn tay người ( chuyên gia ngôn ngữ học ) Sự thiếu hụt dữ liệu có nhãn chất lượng cao để huấn luyện mơ hình gây cản trở lớn cho sự phát triển của NLP nói chung Để giải qút thách thức này, mơ hình xử lý ngơn ngữ tự nhiên sử dụng chế tiền xử lý dữ liệu huấn luyện việc transfer từ mô hình chung huấn luyện từ lượng lớn dữ liệu khơng gán nhãn Ví dụ số mô hình nghiên cứu trước để thực nhiệm vụ này Word2vec, Glove hay FastText Việc nghiên cứu mơ hình giúp thu hẹp khoảng cách giữa tập dữ liệu chuyên biệt cho huấn luyện việc xây dựng mô hình tìm đại diện chung của ngôn ngữ sử dụng số lượng lớn các văn chưa gán nhãn lấy từ trang web Các mô hình huấn luyện trước tinh chỉnh lại nhiệm vụ khác với dữ liệu nhỏ Question Answering, Sentiment Analysis, dẫn đến sự cải thiện đáng kể về độ xác cho so với các mô hình huấn luyện trước với dữ liệu Tuy nhiên, mơ hình kể có những ́u điểm riêng của nó, đặc biệt khơng thể sự đại diện theo ngữ cảnh cụ thể của từ từng lĩnh vực hay văn cảnh cụ thể Tiếp nối sự thành công định của các mơ hình trước đó, Google cơng bố thêm kỹ thuật mới gọi Bidirectional Encoder Representations from Transformers ( BERT ) 1.2 Tại lại cần BERT Một những thách thức lớn của NLP vấn đề dữ liệu Trên internet có hàng tá dữ liệu, những dữ liệu khơng đồng nhất; phần của dùng cho mục đích riêng biệt, giải quyết tốn cụ thể, ta cần trích dữ liệu thích hợp cho tốn của mình, kết ta có lượng dữ liệu Ví dụ : Trong OpenAI GPT, các tác giả sử dụng kiến trúc left-to-right, nghĩa là các từ phụ thuộc vào các từ trước Nhưng có nghịch lý mơ hình Deep Learning cần lượng dữ liệu lớn - lên tới hàng triệu - để có thể cho kết tốt Do vấn đề đặt ra: làm thế nào để tận dụng nguồn dữ liệu vô lớn có sẵn để giải qút tốn của mình Đó là tiền đề cho kỹ thuật mới đời: Transfer Learning Với Transfer Learning, mơ hình (model) "chung" với tập dữ liệu khổng lồ internet ( pre-training ) xây dựng có thể "tinh chỉnh" ( fine-tune ) cho toán cụ thể Nhờ có kỹ thuật mà kết cho tốn cải thiện rõ rệt, khơng xử lý ngôn ngữ tự nhiên mà còn các lĩnh vực khác Computer Vision, BERT là những đại diện ưu tú Transfer Learning cho xử lý ngơn ngữ tự nhiên, gây tiếng vang lớn không kết mang lại nhiều tốn khác nhau, mà cịn hồn tồn miễn phí, tất chúng ta đều có thể sử dụng BERT cho tốn của 1.3 Một số khái niệm 1.3.1 Nhiệm vụ phía sau (Downstream task) Là những nhiệm vụ học hỏi giám sát cải thiện dựa những mô hình huấn luyện trước Ví dụ: Chúng ta sử dụng lại biểu diễn từ học từ những mô hình huấn luyện trước văn lớn vào nhiệm vụ phân tích cảm xúc huấn luyện văn có kích thước nhỏ Áp dụng nhúng huấn luyện trước ( pretrain-embedding ) 10 giúp cải thiện mô hình Như vậy nhiệm vụ sử dụng nhúng huấn luyện trước gọi nhiệm vụ sau 1.3.2 Điểm khái quát đánh giá mức độ hiểu ngôn ngữ (GLUE score benchmark) GLUE score benchmark tập hợp số xây dựng để đánh giá khái quát mức độ hiểu ngôn ngữ của mơ hình NLP Các đánh giá thực dữ liệu tiêu chuẩn qui định tại convention về phát triển và thúc đẩy NLP Mỗi dữ liệu tương ứng với loại tác NLP vụ như: • Phân tích tình cảm (Sentiment Analysis) • • • • Hỏi đáp (Question and Answering) Suy luận ngôn ngữ tự nhiên (NLI - Natural Languague Inference) Dự báo câu tiếp theo (NSP - Next Sentence Prediction) Nhận diện thực thể câu (NER - Name Entity Recognition) 1.3.3 Phân tích cảm xúc (Sentiment Analysis) Phân loại cảm xúc văn thành nhãn tích cực (positive) tiêu cực (negative) Thường sử dụng hệ thống đánh giá bình luận của người dùng 1.3.4 Hỏi đáp (Question and Answering) Là thuật toán hỏi và đáp Đầu vào cặp câu (pair sequence) bao gồm: câu hỏi (question) có chức hỏi và đoạn văn (paragraph) chứa thông tin trả lời cho câu hỏi Một dữ liệu chuẩn nằm GLUE dataset sử dụng để đánh giá nhiệm vụ hỏi đáp là SQuAD - Stanford Question Answering Dataset 1.3.5 Suy luận ngôn ngữ (Natural Language Inference) Là nhiệm vụ suy luận ngôn ngữ đánh giá mối quan hệ giữa cặp câu, tương tự Textual Entailment 1.3.6 Quan hệ văn (Textual Entailment) Là nhiệm vụ đánh giá mối quan hệ định hướng giữa văn Nhãn đầu của cặp câu chia thành đối lập (contradiction), trung lập (neutral) hay có quan hệ kèm (textual entailment) Ví dụ, có câu: 11 • A: Hơm trời mưa • B: Tơi mang tới trường • • C: Hơm trời khơng mưa D: Hơm thứ Khi (A, B) có mối quan hệ kèm Các cặp câu (A, C) có mối quan hệ đối lập (A, D) trung lập 1.3.7 Ngữ cảnh (Contextual) Là ngữ cảnh của từ Một từ định nghĩa cách phát âm đặt những câu khác có thể mang ngữ nghĩa khác ngữ cảnh có thể coi mơi trường xung quanh từ để góp phần định nghĩa từ Ví dụ: - Câu A: Tôi đồng ý với ý kiến của anh Câu B: Lão Hạc phải kiếm từng đồng để ni cậu Vàng Thì từ “ đồng ” câu A B có ý nghĩa khác Chúng ta biết điều dựa vào ngữ cảnh của từ 1.3.8 Phương pháp Hiện đại (SOTA) Viết tắt của state-of-art những phương pháp, kỹ thuật tốt mang lại hiệu cao từ trước đến Mô hình biểu diễn mã hóa chiều dựa biến đổi (BERT-Bidirectional Encoder Representation from Transformer) Mô hình BERT Đây là lớp mơ hình SOTA nhiều nhiệm vụ của GLUE score benchmark 1.3.9 Mơ hình LTR Là mơ hình học bối cảnh theo chiều từ trái sang phải Chẳng hạn lớp model RNN 1.3.10 Mơ hình ngơn ngữ đánh dấu MLM (Masked Language Model) Là mơ hình mà bối cảnh của từ học từ phía bên trái bên phải lúc từ những dữ liệu khơng có giám sát 12 Dữ liệu vào đánh dấu (tức thay mã đánh dấu (token MASK)) cách ngẫu nhiên với tỷ lệ thấp Huấn luyện mô hình dự báo từ mã đánh dấu dựa bối cảnh xung quanh những từ không đánh dấu nhằm tìm biểu diễn của từ 1.4 Ngữ cảnh (Contextual) và vai trò NLP Bản chất của ngôn ngữ là âm phát để diễn giải dòng suy nghĩ của người Trong giao tiếp, từ thường không đứng độc lập mà chúng kèm với từ khác để liên kết mạch lạc thành câu Hiệu biểu thị nội dung truyền đạt ý nghĩa lớn so với từng từ đứng độc lập Ngữ cảnh câu có sự ảnh hưởng lớn việc giải thích ý nghĩa của từ Dựa đó, tḥt tốn xử lý ngôn ngữ tự nhiên tốt đều cố gắng đưa ngữ cảnh vào mơ hình nhằm tạo sự đột phá cải tiến Trong mơ hình BERT sử dụng tiếp cận Phân cấp mức độ phát triển của các phương pháp nhúng từ NLP có thể bao gồm nhóm: • Khơng bối cảnh (Non-context) Là tḥt tốn khơng tồn tại bối cảnh biểu diễn từ Đó là các thuật “ WORD2VEC, GLOVE, FASTTEXT ” Chúng ta có biểu diễn véc tơ cho từ mà không thay đổi theo bối cảnh Ví dụ : - Câu A : Đơn vị tiền tệ của Việt Nam là “ đồng ” - Câu B : Vợ “ đồng ” ý với ý kiến của chồng là tăng thêm tháng 500k tiền tiêu vặt Thì từ đồng mang ý nghĩa khác nên phải có hai biểu diễn từ riêng biệt Các tḥt tốn khơng có bối cảnh khơng đáp ứng sự đa dạng về ngữ nghĩa của từ NLP • Một chiều (Uni-directional): Là thuật toán bắt đầu xuất bối cảnh của từ Các phương pháp nhúng từ dựa RNN những phương pháp nhúng từ chiều Các kết biểu diễn từ có bối cảnh giải thích chiều từ trái qua phải từ phải qua trái Ví dụ: 13 - Câu C: Hôm mang 200 tỷ “ gửi ” ngân hàng - Câu D: Hôm mang 200 tỷ “ gửi ” … Như vậy véc tơ biểu diễn của từ gửi xác định thơng qua từ liền trước với Nếu dựa vào từ liền trước “ Hôm tơi mang 200 tỷ ” ta có thể nghĩ từ phù hợp vị trí tại cho vay, mua, tốn, Ví dụ đơn giản cho thấy tḥt tốn biểu diễn từ có bối cảnh tuân theo theo chiều gặp hạn chế lớn biểu diễn từ so với biểu diễn chiều ELMo ví dụ cho phương pháp chiều Mặc dù phương pháp ELMO có kiến trúc dựa mạng BiLSTM xem xét bối cảnh theo hai chiều từ trái sang phải từ phải sang trái những chiều này là độc lập nên ta coi là biểu diễn chiều Thuật toán ELMO cải tiến so với WORD2VEC và FASTTEXT là tạo nghĩa của từ theo bối cảnh Trong ví dụ về từ “đồng” câu A B có biểu diễn từ khác biệt • Hai chiều (Bi-directional): Ngữ nghĩa của từ không biểu diễn những từ liền trước mà còn giải thích tồn từ xung quanh Luồng giải thích tn theo đồng thời từ trái qua phải từ phải qua trái lúc Đại diện cho phép biểu diễn từ những mơ hình sử dụng kỹ thuật transformer Gần đây, những thuật toán NLP theo trường phái hai chiều BERT, ULMT, OpenAI GPT đạt những kết SOTA hầu hết nhiệm vụ của GLUE benchmark 1.5 Tiếp cận nông và học sâu ứng dụng huấn luyện trước (pre-training) NLP 1.5.1 Tiếp cận nông (shallow approach) - Imagenet Computer Vision Trong xử lý ảnh, chúng ta đều biết tới những mô hình huấn luyện trước (pretrained models) tiếng dữ liệu Imagenet với 1000 classes Nhờ số lượng classes lớn nên hầu hết nhãn phân loại ảnh thông thường đều xuất Imagenet có thể học chuyển giao lại nhiệm vụ xử lý ảnh nhanh tiện lợi Chúng ta kỳ vọng NLP có tợp hợp mô hình huấn luyện trước 14 ... lý Công nghệ Hải Phịng Nội dung hướng dẫn: + Tìm hiểu về mơ hình ngơn ngữ PhoBert + Tìm hiểu về bài toán phân tích quan điểm người dùng, phân loại quan điểm bình luận Tiếng Việt. .. CƠNG NGHỆ HẢI PHỊNG - TÌM HIỂU VỀ MƠ HÌNH NGƠN NGỮ PHOBERT CHO BÀI TOÁN PHÂN LOẠI QUAN ĐIỂM BÌNH LUẬN TIẾNG VIỆT ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY NGÀNH: CÔNG NGHỆ THÔNG TIN. .. ngơn ngữ PhoBert + Tìm hiểu về bài toán phân tích quan điểm người dùng, phân loại quan điểm bình luận Tiếng Việt + Tìm hiểu về ngôn ngữ lập trình Python Tinh thần thái độ sinh

Ngày đăng: 28/02/2023, 16:28