1. Trang chủ
  2. » Tất cả

Đồ án tốt nghiệp công nghệ thông tin tìm hiểu mô hình ngôn ngữ phobert cho bài toán phân loại quan điểm bình luận tiếng việt

20 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUẢN LÝ VÀ CÔNG NGHỆ HẢI PHÒNG ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ THÔNG TIN Sinh viên Nguyễn Thành Long Lớp CT2101C Giảng Viên Hướng Dẫn Ths Nguyễn Thị Xuân Hư[.]

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUẢN LÝ VÀ CƠNG NGHỆ HẢI PHỊNG - ĐỒ ÁN TỐT NGHIỆP NGÀNH: CÔNG NGHỆ THÔNG TIN Sinh viên : Nguyễn Thành Long Lớp : CT2101C Giảng Viên Hướng Dẫn: Ths.Nguyễn Thị Xuân Hương Hải Phòng – 2021 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUẢN LÝ VÀ CƠNG NGHỆ HẢI PHỊNG - TÌM HIỂU VỀ MƠ HÌNH NGƠN NGỮ PHOBERT CHO BÀI TOÁN PHÂN LOẠI QUAN ĐIỂM BÌNH LUẬN TIẾNG VIỆT ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY NGÀNH: CÔNG NGHỆ THÔNG TIN Sinh Viên : Nguyễn Thành Long Lớp : CT2101C Giảng Viên Hướng Dẫn : Ths.Nguyễn Thị Xuân Hương BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUẢN LÝ VÀ CƠNG NGHỆ HẢI PHỊNG NHIỆM VỤ ĐỀ TÀI TỐT NGHIỆP Sinh viên: Nguyễn Thành Long Lớp : CT2101C Ngành : Công nghệ thông tin Mã SV : 1712111008 Tên đề tài: Tìm hiểu mơ hình ngôn ngữ PhoBert cho bài toán phân loại quan điểm bình luận tiếng Việt CÁN BỘ HƯỚNG DẪN ĐỀ TÀI TỐT NGHIỆP Họ tên : Nguyễn Thị Xuân Hương Học hàm, học vị : Thạc sĩ Cơ quan công tác : Trường Đại học Quản lý Công nghệ Hải Phịng Nội dung hướng dẫn: + Tìm hiểu về mơ hình ngơn ngữ PhoBert + Tìm hiểu về bài toán phân tích quan điểm người dùng, phân loại quan điểm bình luận Tiếng Việt + Tìm hiểu về ngôn ngữ lập trình Python Đề tài tốt nghiệp giao ngày 16 tháng 07 năm 2021 Yêu cầu phải hoàn thành xong trước ngày 03 tháng 10 năm 2021 Đã nhận nhiệm vụ ĐTTN Đã giao nhiệm vụ ĐTTN Giảng viên hướng dẫn Sinh viên Hải Phòng, ngày tháng năm 2021 TRƯỞNG KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc PHIẾU NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN TỐT NGHIỆP Họ tên giảng viên: Nguyễn Thị Xuân Hương Đơn vị công tác: Khoa Công nghệ thông tin, Trường Đại học Quản lý Cơng nghệ Hải Phịng Họ tên sinh viên: Nguyễn Thành Long Ngành: Công nghệ thông tin Nội dung hướng dẫn: + Tìm hiểu về mơ hình ngơn ngữ PhoBert + Tìm hiểu về bài toán phân tích quan điểm người dùng, phân loại quan điểm bình luận Tiếng Việt + Tìm hiểu về ngôn ngữ lập trình Python Tinh thần thái độ sinh viên trình làm đề tài tốt nghiệp ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… Đánh giá chất lượng đồ án/khóa luận (so với nội dung yêu cầu đề nhiệm vụ Đ.T T.N mặt lý luận, thực tiễn, tính tốn số liệu…) ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… Ý kiến giảng viên hướng dẫn tốt nghiệp Đạt Không đạt Điểm:…………………… Hải Phòng, ngày tháng 10 năm 2021 Giảng viên hướng dẫn (Ký ghi rõ họ tên) CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc PHIẾU NHẬN XÉT CỦA GIẢNG VIÊN CHẤM PHẢN BIỆN Họ tên giảng viên: Đỗ Văn Chiểu Đơn vị công tác: Khoa Công nghệ thông tin, Trường Đại học Quản lý Cơng nghệ Phịng Họ tên sinh viên: Nguyễn Thành Long Hải Ngành: Công nghệ thơng tin Đề tài tốt nghiệp: Tìm hiểu mơ hình ngôn ngữ PhoBert cho bài toán phân loại quan điểm bình luận Tiếng Việt Phần nhận xét giảng viên chấm phản biện Những mặt hạn chế Ý kiến giảng viên chấm phản biện Được bảo vệ Không bảo vệ Điểm:…………………… Hải Phòng, ngày tháng 10 năm 2021 Giảng viên chấm phản biện (Ký ghi rõ họ tên) MỤC LỤC MỤC LỤC LỜI CẢM ƠN MỞ ĐẦU DANH MỤC CÁC HÌNH VẼ VÀ CÁC BẢNG BẢNG CÁC TỪ VIẾT TẮT CHƯƠNG MÔ HÌNH BERT 1.1 Khái niệm 1.2 Tại lại cần BERT 10 1.3 Một số khái niệm 10 1.3.1 Nhiệm vụ phía sau (Downstream task) 10 1.3.2 Điểm khái quát đánh giá mức độ hiểu ngôn ngữ (GLUE score benchmark) 11 1.3.3 Phân tích cảm xúc (Sentiment Analysis) 11 1.3.4 Hỏi đáp (Question and Answering) 11 1.3.5 Suy luận ngôn ngữ (Natural Language Inference) 11 1.3.6 Quan hệ văn (Textual Entailment) 11 1.3.7 Ngữ cảnh (Contextual) 12 1.3.8 Phương pháp Hiện đại (SOTA) 12 1.3.9 Mơ hình LTR 12 1.3.10 Mơ hình ngơn ngữ đánh dấu MLM (Masked Language Model) 12 1.4 Ngữ cảnh (Contextual) vai trò NLP 13 1.5 Tiếp cận nông học sâu ứng dụng huấn luyện trước (pre-training) NLP 14 1.5.1 Tiếp cận nông (shallow approach) 14 1.5.2 Học sâu (deep-learning) 15 1.6 Phương pháp TRANSFORMER 16 1.6.1 Encoder và Decoder BERT 16 1.6.2 Các tiến trình self-attention encoder-decoder attention ( phương pháp transformer ) 18 1.7 Mô hình BERT 20 1.7.1 Mơ hình BERT tinh chỉnh (Fine-tuning model BERT) 20 1.8 Cách huấn luyện BERT 22 1.8.1 Mô hình ngô ngữ đánh dấu (Masked Language Model) 22 1.8.2 Next Sentence Prediction (NSP) 24 1.9 Các kiến trúc mơ hình BERT 26 1.10 RoBerta 27 1.10.1 Khái niệm RoBerta 27 1.10.2 Dữ liệu 27 1.10.3 Extract fearture từ RoBerta 31 1.10.4 Điền từ ( Filling Mask ) 32 1.10.5 Trích suất đặc trưng ( Extract feature ) cho từ 32 CHƯƠNG PHOBERT 33 2.1 Sự đời của PhoBERT 33 2.2 Cấu trúc của PhoBERT 33 2.2.1 Dữ liệu trước huấn luyện 36 2.2.2 Tối ưu hóa 36 2.2.3 Thiết lập thử nghiệm 37 2.2.4 Kết thực nghiệm 38 2.2.5 Kết luận 41 2.3 Ứng dụng của PhoBert 41 CHƯƠNG ỨNG DỤNG PHOBERT VÀO BÀI TOÁN PHÂN TÍCH QUAN ĐIỂM BÌNH LUẬN TIẾNG VIỆT 42 3.1 Phát biểu bài toán 42 3.2 Dữ liệu Công cụ, môi trường thực nghiệm: 45 3.2.1 Dữ liệu 45 3.2.2 Công cụ và môi trường thực nghiệm: 46 ❖ Công cụ 46 Ngơn ngữ lập trình Python 46 Thư viện mã nguồn mở Tensorflow 47 Thư viện Transformers 48 Thư viện fastBPE 48 Thư viện fairseq 48 Thư viện VnCoreNLP 48 PhoBERT huấn luyện trước 48 ❖ Môi trường thực nghiệm: 48 3.3 Các bước thực 48 3.3.1 Cài đặt các thư viện cần thiết 49 3.3.2 Cài đặt thư viện vncorenlp 49 3.3.3 Tải về dữ liệu huấn luyện từ trang chủ thi của AIVIVN pre-trained của PhoBERT 50 3.3.4 Tải về dữ liệu của thi Phân tích sắc thái bình ḷn 50 3.3.5 Tách dữ liệu thành tập train validation theo tỉ lệ 90:10 51 3.3.6 Tạo mask gồm giá trị 0, để làm đầu vào cho thư viện transformers 52 3.3.7 Huấn luyện mô hình 53 KẾT LUẬN 57 TÀI LIỆU THAM KHẢO 58 LỜI CẢM ƠN Lời cho em gửi lời cảm ơn sâu sắc đến gia đình, người thân của em động viên, giúp đỡ, cổ vũ, tạo cho em thêm động lực để em có thể hoàn thành đồ án thời gian giao Em xin gửi lời cảm ơn đến Ban Giám Hiệu Trường Đại học Quản lý Công nghệ Hải Phòng, Ban, Ngành hỗ trợ hết mức tạo điều kiện tốt để em có thể đăng kí đồ án tốt nghiệp Em xin cảm ơn đến thầy, cô Khoa Công nghệ thông tin, Trường Đại học Quản lý Công nghệ Hải Phòng, giúp em có những kiến thức cực kì bổ ích vịng năm vừa qua, giúp em có nền tảng kiến thức vững để em có thẻ thực đồ án Em xin gửi lời cảm ơn chân thành đến cô Ths Nguyễn Thị Xuân Hương, dành nhiều thời gian công sức, về vật chất tinh thần giúp em có thể thể hồn thành đồ án cách trơn tru Em xin chân thành cảm ơn! Hải Phòng, ngày tháng năm 2021 Sinh viên Nguyễn Thành Long MỞ ĐẦU Trong xã hội người ln có nhu cầu giao tiếp thể hiện, hình thức sử dụng phổ biến là diễn đạt ngơn ngữ Ngôn ngữ sử dụng từ ngữ dấu hiệu để diễn tả thể qua lời nói, chữ viết hình ảnh Với sự bùng nổ của Internet trang mạng xã hội, trang web tài liệu, sách báo, trang sản phẩm, email, lượng lớn dữ liệu văn của ngôn ngữ tạo ngày Để giúp máy tính hiểu những dữ liệu công việc quan trọng để hỗ trợ quyết định dựa ngôn ngữ Xử lý ngôn ngữ tự nhiên nghiên cứu sự tương tác ngôn ngữ tự nhiên giữa máy tính và người Trong thực tế, việc sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên để xử lý và phân tích dữ liệu văn (ngôn ngữ tự nhiên của người) phổ biến, chẳng hạn các mô hình ngôn ngữ hay các mô hình dịch máy Để có thể xây dựng các phương pháp xử lý ngôn ngữ thì trước tiên chúng ta cần quan tâm đến việc biểu diễn ngôn ngữ tự nhiên thế nào Một số phương pháp biểu diễn ngôn ngữ giới thiệu sử dụng các nhiệm vụ xử lý ngôn ngữ tự nhiên như: sự xuất (Presence) tần suất xuất (Frequency), mơ hình ngôn ngữ (n-gram), thông tin nhãn từ loại (Parts of Speech), thơng tin phân tích ngữ pháp (Syntactic parsing), biểu diễn véc tơ từ (Word2Vec), nhúng ký tự (Character Embedding), mạng ngữ nghĩa (WordNet), mạng từ điển quan điểm (SentiWordNet), v.v Các phương pháp biểu diễn ngôn ngữ giúp trích xuất các đặc trưng từ ngơn ngữ sử dụng cho mơ hình xử lý ngơn ngữ tự nhiên giúp nâng cao hiệu cho các phương pháp phân tích Do đó, nghiên cứu về các phương pháp biểu diễn ngôn ngữ nhằm tìm các đặc trưng hữu ích cho toán NLP nhiệm vụ quan trọng Gần đây, Google AI giới thiệu mơ hình ngơn ngữ BERT coi bước đột phá lớn học máy khả ứng dụng của vào nhiều tốn xử lý ngơn ngữ tự nhiên khác với kết tốt Tiếp theo đó, PhoBERT đời nhằm xây dựng mơ hình ngơn ngữ BERT riêng cho tiếng Việt với kết tốt cho nhiều tốn xử lý ngơn ngữ tự nhiên tiếng Việt Với sự phát triển của trang mạng xã hội và các trang đánh giá sản phẩm, dữ liệu bình luận khen chê của khách hàng gia tăng cách nhanh chóng tạo thành kho dữ liệu đánh giá khổng lồ Việc hiểu xem khách hàng đánh giá về sản phẩm, dịch vụ hay vấn đề quan tâm tích cực hay tiêu cực nhiệm vụ nhà nghiên cứu quan tâm những thập niên gần và có nhiều ứng dụng thực tế Chính những lý đó, em chọn đề tài “ Tìm hiểu mô hình PhoBert cho bài toán phân loại quan điểm bình luận Tiếng Việt ”nhằm tìm hiểu các phương pháp mới biểu diễn cho ngơn ngữ tiếng Việt áp dụng cho tốn phân loại bình ḷn tiếng Việt Đồ án thiết kế gồm chương: Chương Mô hình BERT trình bày về mơ hình BERT khái niệm liên quan, chương 2: Mô hình PhoBERT trình bày về tìm hiểu cho mơ hình PhoBERT, Chương 3: Ứng dụng PhoBERT cho bài toán phân loại bình luận tiếng Việt trình bày về tốn, cơng cụ sử dụng và các cài đặt thử nghiệm, cuối phần kết luận DANH MỤC CÁC HÌNH VẼ VÀ CÁC BẢNG Hình Sơ đồ kiến trúc transformer kết hợp với attention Hình Sơ đồ vị trí áp dụng self-attention kiến trúc transformer Hình Sơ đồ attension tương tác giữa các véc tơ embedding của encoder và decoder Hình Tồn tiến trình pre-training fine-tuning của BERT Hình Sơ đồ kiến trúc BERT cho nhiệm vụ ngôn ngữ mô hình đánh dấu Hình Các bước tạo Input tác vụ NSP Hình Mô hình đầu của NSP Hình Kiến trúc gồm nhiều layers tại encoder của model BERT Hình Sơ đồ phân tích cảm xúc Bảng Thống kê dữ liệu tác vụ xuôi dịng Bảng Điểm hiệu suất (tính %) kiểm tra gắn thẻ POS phân tích cú pháp phụ thuộc Bảng Điểm hiệu suất (tính %) kiểm tra NER NLI Bảng Hiệu suất với các kích thước lô khác của các mô hình Bảng Hiệu suất GLUE BenchMARK BẢNG CÁC TỪ VIẾT TẮT Viết tắt Đầy đủ Ý nghĩa BERT Bidirectional Encoder Representations from Transformers Mô hình ngôn ngữ NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên NSP Next Sentence Prediction Dữ báo câu tiếp theo NER Name Entity Recognition Nhận diện thực thể câu NLI Natural Languague Inference Suy luận ngôn ngữ tự nhiên SQuAD Stanford Question Answering Dataset Tác vụ hỏi đáp SOTA State-Of-Art Hiện đại GLUE General Language Understanding Evaluation Điểm khái quát đánh giá mức độ hiểu ngôn ngữ MLM Masked Language Model Mô hình ngôn ngữ Masked RNN Recurrent Neural Network Mạng neural hồi quy ELMo Embeddings from Language Model Nhúng từ Mơ hình Ngơn ngữ CHƯƠNG MƠ HÌNH BERT 1.1 Khái niệm BERT ( Bidirectional Encoder Representations from Transformers ) mơ hình ngôn ngữ ( Language Model ) tạo Google AI và giới thiệu vào năm 2008 BERT coi là đột phá lớn Machine Learning khả ứng dụng của vào nhiều toán NLP ( Natural Language Processing ) khác nhau: Question Answering, Natural Language Inference, với kết tốt Các nhà nghiên cứu làm việc tại Google AI tái khẳng định, sự thiếu hụt dữ liệu huấn luyện những thách thức lớn lĩnh vực xử lý ngôn ngữ tự nhiên Đây lĩnh vực rộng lớn và đa dạng với nhiều nhiệm vụ riêng biệt, hầu hết tập dữ liệu đều đặc thù cho từng nhiệm vụ Để thực tốt những nhiệm vụ ta cần những dữ liệu lớn chứa hàng triệu thậm chí hàng tỷ ví dụ mẫu Tuy nhiên, thực tế hầu hết tập dữ liệu chứa vài nghìn vài trăm nghìn mẫu đánh nhãn tay người ( chuyên gia ngôn ngữ học ) Sự thiếu hụt dữ liệu có nhãn chất lượng cao để huấn luyện mơ hình gây cản trở lớn cho sự phát triển của NLP nói chung Để giải qút thách thức này, mơ hình xử lý ngơn ngữ tự nhiên sử dụng chế tiền xử lý dữ liệu huấn luyện việc transfer từ mô hình chung huấn luyện từ lượng lớn dữ liệu khơng gán nhãn Ví dụ số mô hình nghiên cứu trước để thực nhiệm vụ này Word2vec, Glove hay FastText Việc nghiên cứu mơ hình giúp thu hẹp khoảng cách giữa tập dữ liệu chuyên biệt cho huấn luyện việc xây dựng mô hình tìm đại diện chung của ngôn ngữ sử dụng số lượng lớn các văn chưa gán nhãn lấy từ trang web Các mô hình huấn luyện trước tinh chỉnh lại nhiệm vụ khác với dữ liệu nhỏ Question Answering, Sentiment Analysis, dẫn đến sự cải thiện đáng kể về độ xác cho so với các mô hình huấn luyện trước với dữ liệu Tuy nhiên, mơ hình kể có những ́u điểm riêng của nó, đặc biệt khơng thể sự đại diện theo ngữ cảnh cụ thể của từ từng lĩnh vực hay văn cảnh cụ thể Tiếp nối sự thành công định của các mơ hình trước đó, Google cơng bố thêm kỹ thuật mới gọi Bidirectional Encoder Representations from Transformers ( BERT ) 1.2 Tại lại cần BERT Một những thách thức lớn của NLP vấn đề dữ liệu Trên internet có hàng tá dữ liệu, những dữ liệu khơng đồng nhất; phần của dùng cho mục đích riêng biệt, giải quyết tốn cụ thể, ta cần trích dữ liệu thích hợp cho tốn của mình, kết ta có lượng dữ liệu Ví dụ : Trong OpenAI GPT, các tác giả sử dụng kiến trúc left-to-right, nghĩa là các từ phụ thuộc vào các từ trước Nhưng có nghịch lý mơ hình Deep Learning cần lượng dữ liệu lớn - lên tới hàng triệu - để có thể cho kết tốt Do vấn đề đặt ra: làm thế nào để tận dụng nguồn dữ liệu vô lớn có sẵn để giải qút tốn của mình Đó là tiền đề cho kỹ thuật mới đời: Transfer Learning Với Transfer Learning, mơ hình (model) "chung" với tập dữ liệu khổng lồ internet ( pre-training ) xây dựng có thể "tinh chỉnh" ( fine-tune ) cho toán cụ thể Nhờ có kỹ thuật mà kết cho tốn cải thiện rõ rệt, khơng xử lý ngôn ngữ tự nhiên mà còn các lĩnh vực khác Computer Vision, BERT là những đại diện ưu tú Transfer Learning cho xử lý ngơn ngữ tự nhiên, gây tiếng vang lớn không kết mang lại nhiều tốn khác nhau, mà cịn hồn tồn miễn phí, tất chúng ta đều có thể sử dụng BERT cho tốn của 1.3 Một số khái niệm 1.3.1 Nhiệm vụ phía sau (Downstream task) Là những nhiệm vụ học hỏi giám sát cải thiện dựa những mô hình huấn luyện trước Ví dụ: Chúng ta sử dụng lại biểu diễn từ học từ những mô hình huấn luyện trước văn lớn vào nhiệm vụ phân tích cảm xúc huấn luyện văn có kích thước nhỏ Áp dụng nhúng huấn luyện trước ( pretrain-embedding ) 10 giúp cải thiện mô hình Như vậy nhiệm vụ sử dụng nhúng huấn luyện trước gọi nhiệm vụ sau 1.3.2 Điểm khái quát đánh giá mức độ hiểu ngôn ngữ (GLUE score benchmark) GLUE score benchmark tập hợp số xây dựng để đánh giá khái quát mức độ hiểu ngôn ngữ của mơ hình NLP Các đánh giá thực dữ liệu tiêu chuẩn qui định tại convention về phát triển và thúc đẩy NLP Mỗi dữ liệu tương ứng với loại tác NLP vụ như: • Phân tích tình cảm (Sentiment Analysis) • • • • Hỏi đáp (Question and Answering) Suy luận ngôn ngữ tự nhiên (NLI - Natural Languague Inference) Dự báo câu tiếp theo (NSP - Next Sentence Prediction) Nhận diện thực thể câu (NER - Name Entity Recognition) 1.3.3 Phân tích cảm xúc (Sentiment Analysis) Phân loại cảm xúc văn thành nhãn tích cực (positive) tiêu cực (negative) Thường sử dụng hệ thống đánh giá bình luận của người dùng 1.3.4 Hỏi đáp (Question and Answering) Là thuật toán hỏi và đáp Đầu vào cặp câu (pair sequence) bao gồm: câu hỏi (question) có chức hỏi và đoạn văn (paragraph) chứa thông tin trả lời cho câu hỏi Một dữ liệu chuẩn nằm GLUE dataset sử dụng để đánh giá nhiệm vụ hỏi đáp là SQuAD - Stanford Question Answering Dataset 1.3.5 Suy luận ngôn ngữ (Natural Language Inference) Là nhiệm vụ suy luận ngôn ngữ đánh giá mối quan hệ giữa cặp câu, tương tự Textual Entailment 1.3.6 Quan hệ văn (Textual Entailment) Là nhiệm vụ đánh giá mối quan hệ định hướng giữa văn Nhãn đầu của cặp câu chia thành đối lập (contradiction), trung lập (neutral) hay có quan hệ kèm (textual entailment) Ví dụ, có câu: 11 • A: Hơm trời mưa • B: Tơi mang tới trường • • C: Hơm trời khơng mưa D: Hơm thứ Khi (A, B) có mối quan hệ kèm Các cặp câu (A, C) có mối quan hệ đối lập (A, D) trung lập 1.3.7 Ngữ cảnh (Contextual) Là ngữ cảnh của từ Một từ định nghĩa cách phát âm đặt những câu khác có thể mang ngữ nghĩa khác ngữ cảnh có thể coi mơi trường xung quanh từ để góp phần định nghĩa từ Ví dụ: - Câu A: Tôi đồng ý với ý kiến của anh Câu B: Lão Hạc phải kiếm từng đồng để ni cậu Vàng Thì từ “ đồng ” câu A B có ý nghĩa khác Chúng ta biết điều dựa vào ngữ cảnh của từ 1.3.8 Phương pháp Hiện đại (SOTA) Viết tắt của state-of-art những phương pháp, kỹ thuật tốt mang lại hiệu cao từ trước đến Mô hình biểu diễn mã hóa chiều dựa biến đổi (BERT-Bidirectional Encoder Representation from Transformer) Mô hình BERT Đây là lớp mơ hình SOTA nhiều nhiệm vụ của GLUE score benchmark 1.3.9 Mơ hình LTR Là mơ hình học bối cảnh theo chiều từ trái sang phải Chẳng hạn lớp model RNN 1.3.10 Mơ hình ngơn ngữ đánh dấu MLM (Masked Language Model) Là mơ hình mà bối cảnh của từ học từ phía bên trái bên phải lúc từ những dữ liệu khơng có giám sát 12 Dữ liệu vào đánh dấu (tức thay mã đánh dấu (token MASK)) cách ngẫu nhiên với tỷ lệ thấp Huấn luyện mô hình dự báo từ mã đánh dấu dựa bối cảnh xung quanh những từ không đánh dấu nhằm tìm biểu diễn của từ 1.4 Ngữ cảnh (Contextual) và vai trò NLP Bản chất của ngôn ngữ là âm phát để diễn giải dòng suy nghĩ của người Trong giao tiếp, từ thường không đứng độc lập mà chúng kèm với từ khác để liên kết mạch lạc thành câu Hiệu biểu thị nội dung truyền đạt ý nghĩa lớn so với từng từ đứng độc lập Ngữ cảnh câu có sự ảnh hưởng lớn việc giải thích ý nghĩa của từ Dựa đó, tḥt tốn xử lý ngôn ngữ tự nhiên tốt đều cố gắng đưa ngữ cảnh vào mơ hình nhằm tạo sự đột phá cải tiến Trong mơ hình BERT sử dụng tiếp cận Phân cấp mức độ phát triển của các phương pháp nhúng từ NLP có thể bao gồm nhóm: • Khơng bối cảnh (Non-context) Là tḥt tốn khơng tồn tại bối cảnh biểu diễn từ Đó là các thuật “ WORD2VEC, GLOVE, FASTTEXT ” Chúng ta có biểu diễn véc tơ cho từ mà không thay đổi theo bối cảnh Ví dụ : - Câu A : Đơn vị tiền tệ của Việt Nam là “ đồng ” - Câu B : Vợ “ đồng ” ý với ý kiến của chồng là tăng thêm tháng 500k tiền tiêu vặt Thì từ đồng mang ý nghĩa khác nên phải có hai biểu diễn từ riêng biệt Các tḥt tốn khơng có bối cảnh khơng đáp ứng sự đa dạng về ngữ nghĩa của từ NLP • Một chiều (Uni-directional): Là thuật toán bắt đầu xuất bối cảnh của từ Các phương pháp nhúng từ dựa RNN những phương pháp nhúng từ chiều Các kết biểu diễn từ có bối cảnh giải thích chiều từ trái qua phải từ phải qua trái Ví dụ: 13 - Câu C: Hôm mang 200 tỷ “ gửi ” ngân hàng - Câu D: Hôm mang 200 tỷ “ gửi ” … Như vậy véc tơ biểu diễn của từ gửi xác định thơng qua từ liền trước với Nếu dựa vào từ liền trước “ Hôm tơi mang 200 tỷ ” ta có thể nghĩ từ phù hợp vị trí tại cho vay, mua, tốn, Ví dụ đơn giản cho thấy tḥt tốn biểu diễn từ có bối cảnh tuân theo theo chiều gặp hạn chế lớn biểu diễn từ so với biểu diễn chiều ELMo ví dụ cho phương pháp chiều Mặc dù phương pháp ELMO có kiến trúc dựa mạng BiLSTM xem xét bối cảnh theo hai chiều từ trái sang phải từ phải sang trái những chiều này là độc lập nên ta coi là biểu diễn chiều Thuật toán ELMO cải tiến so với WORD2VEC và FASTTEXT là tạo nghĩa của từ theo bối cảnh Trong ví dụ về từ “đồng” câu A B có biểu diễn từ khác biệt • Hai chiều (Bi-directional): Ngữ nghĩa của từ không biểu diễn những từ liền trước mà còn giải thích tồn từ xung quanh Luồng giải thích tn theo đồng thời từ trái qua phải từ phải qua trái lúc Đại diện cho phép biểu diễn từ những mơ hình sử dụng kỹ thuật transformer Gần đây, những thuật toán NLP theo trường phái hai chiều BERT, ULMT, OpenAI GPT đạt những kết SOTA hầu hết nhiệm vụ của GLUE benchmark 1.5 Tiếp cận nông và học sâu ứng dụng huấn luyện trước (pre-training) NLP 1.5.1 Tiếp cận nông (shallow approach) - Imagenet Computer Vision Trong xử lý ảnh, chúng ta đều biết tới những mô hình huấn luyện trước (pretrained models) tiếng dữ liệu Imagenet với 1000 classes Nhờ số lượng classes lớn nên hầu hết nhãn phân loại ảnh thông thường đều xuất Imagenet có thể học chuyển giao lại nhiệm vụ xử lý ảnh nhanh tiện lợi Chúng ta kỳ vọng NLP có tợp hợp mô hình huấn luyện trước 14 ... lý Công nghệ Hải Phịng Nội dung hướng dẫn: + Tìm hiểu về mơ hình ngơn ngữ PhoBert + Tìm hiểu về bài toán phân tích quan điểm người dùng, phân loại quan điểm bình luận Tiếng Việt. .. CƠNG NGHỆ HẢI PHỊNG - TÌM HIỂU VỀ MƠ HÌNH NGƠN NGỮ PHOBERT CHO BÀI TOÁN PHÂN LOẠI QUAN ĐIỂM BÌNH LUẬN TIẾNG VIỆT ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY NGÀNH: CÔNG NGHỆ THÔNG TIN. .. ngơn ngữ PhoBert + Tìm hiểu về bài toán phân tích quan điểm người dùng, phân loại quan điểm bình luận Tiếng Việt + Tìm hiểu về ngôn ngữ lập trình Python Tinh thần thái độ sinh

Ngày đăng: 28/02/2023, 16:28

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN