NEURAL ARCHITECTURE SEARCH ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM LÊ SI LẮC KHÓA LUẬN TỐT NGHIỆP NGHIÊN CỨU BÀI TOÁN PHÂN TÍCH CẢM XÚC CỦA NGƯỜI DÙN[.]
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM LÊ SI LẮC KHÓA LUẬN TỐT NGHIỆP NGHIÊN CỨU BÀI TỐN PHÂN TÍCH CẢM XÚC CỦA NGƯỜI DÙNG A Research on Sentiment Analysis KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM TP HỒ CHÍ MINH, 2021 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN KHOA CÔNG NGHỆ PHẦN MỀM LÊ SI LẮC - 17520669 KHĨA LUẬN TỐT NGHIỆP NGHIÊN CỨU BÀI TỐN PHÂN TÍCH CẢM XÚC CỦA NGƯỜI DÙNG A Research on Sentiment Analysis KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN TS NGUYỄN LƯU THÙY NGÂN TP HỒ CHÍ MINH, 2021 DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số …………………… ngày ………………… Hiệu trưởng Trường Đại học Công nghệ Thông tin ………………………………………… – Chủ tịch ………………………………………… – Thư ký ………………………………………… – Ủy viên ………………………………………… – Ủy viên iv LỜI CẢM ƠN Lời đầu tiên, xin chân thành cảm ơn cô Nguyễn Lưu Thùy Ngân tận tình hướng dẫn, định hướng phản biện nhằm giúp đạt kết tốt cho khóa luận Nếu khơng có hướng dẫn từ cơ, mục tiêu khóa luận khơng thể hồn thành Bên cạnh đó, tơi mong muốn cảm ơn hỗ trợ anh Đặng Văn Thìn (nghiên cứu viên The UIT Natural Language Processing Group) hỗ trợ khơng ngừng nghỉ đóng góp định giúp tơi hồn thiện thật tốt đề tài khóa luận Tơi xin gửi lời cảm ơn đến Phịng thí nghiệm Truyền thơng Đa phương tiện trường Đại học Công nghệ thông tin đồng thời Seedcom Group nhiệt tình hỗ trợ tơi kiến thức trang thiết bị trình làm khóa luận Điều quan trọng nhất, tơi chân thành cảm ơn gia đình điểm tựa vững thời gian thực nghiên cứu Tôi xin chân thành cảm ơn v Mục lục TĨM TẮT KHỐ LUẬN MỞ ĐẦU 1.1 Đặt vấn đề 1.2 Đối tượng phạm vi nghiên cứu 1.2.1 Đối tượng nghiên cứu 1.2.2 Phạm vi nghiên cứu 1.3 Mục tiêu nghiên cứu 1.3.1 Kết nghiên cứu 1.4 Phát biểu toán 1.5 Cấu trúc khóa luận xiv TỔNG QUAN 2.1 Tổng quan phân tích cảm xúc 2.2 Tình hình nghiên cứu 2.2.1 Tình hình nghiên cứu giới 2.2.2 Tình hình nghiên cứu nước 2.2.3 Nhận xét 1 3 3 6 8 10 10 12 14 TỔNG QUAN VỀ CÁC BỘ NGỮ LIỆU PHÂN TÍCH CẢM XÚC PHẢN HỒI 3.1 Giới thiệu liệu 3.1.1 Vietnamese Language and Speech Processing Sentiment Analysis(VLSP) 3.1.2 Hotel Sentiment Analysis (HSA) 3.1.3 Vietnamese Students’ Feedback Corpus (UIT-VSFC) 3.1.4 Vietnamese Sentiment Analysis (VS) 15 16 16 17 18 19 vi 3.2 Tiền xử lý liệu LÝ THUYẾT 4.1 Mơ hình BERT 4.2 Các biến thể BERT dành cho tiếng Việt 4.3 Kỹ thuật làm giàu liệu (Data augmentation) 4.3.1 Character Augmenter 4.3.2 Word Augmenter 4.3.3 Contextual Word Embeddings Augmenter 20 22 22 23 24 25 25 26 KẾT QUẢ THỰC NGHIỆM 5.1 Kết 5.1.1 Thực nghiệm toán SA 5.1.1.1 VS 5.1.1.2 UIT_VSFC 5.1.1.3 VLSP 5.1.1.4 HSA 5.1.2 Thực nghiệm sử dụng bổ trợ mơ hình ngơn ngữ (Language Model) 5.1.3 Đánh giá tính hiệu kỹ thuật làm giàu liệu 5.1.3.1 Thực nghiệm đánh giá mơ hình truyền thống 5.1.3.2 Độ chuẩn xác nguồn liệu sinh 5.2 Ứng dụng 5.2.1 Đặc tả phần mềm (Software Requirement Specification) 5.2.1.1 Objective 5.2.1.2 Thiết kế 5.2.2 Công nghệ 5.2.2.1 Dash 5.2.2.2 Dash Bootstrap 5.2.2.3 Selenium 28 28 28 28 32 35 38 41 44 44 46 50 50 50 51 53 53 53 54 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1 Hạn chế 6.2 Hướng phát triển tương lai 55 56 56 vii A QUÁ TRÌNH HUẤN LUYỆN MƠ HÌNH NGƠN NGỮ (LANGUAGE MODEL) A.1 Dữ liệu A.2 Trích xuất tập từ vựng A.3 Bổ sung tập từ vựng trích xuất tiến hành huấn luyện mơ hình ngơn ngữ 59 B CÔNG BỐ KHOA HỌC 60 58 58 58 viii Danh sách hình vẽ 1.1 2.1 2.2 3.1 3.2 3.3 3.4 Minh họa hệ thống đánh giá nhà hàng người dùng trang web Yelp Biểu đồ trình bày cấp độ ngơn ngữ học gồm cấp độ phổ biến: Ngữ âm học (Phonetics), Âm vị học (Phonology), Hình thái học (Morphology), Cú pháp (Syntax), Ngữ nghĩa học (Semantics) Ngữ dụng học (Pragmatics) Mô tả ba nhiệm vụ ABSA: Mục đích tốn trích xuất mục tiêu ý kiến, trường hợp "sushi" "phục vụ" Đối với toán xác định thực thể khía cạnh (aspect category detection), thiết đặt danh mục xác định trước, nhiệm vụ xác định: thực thểkhía cạnh, khía cạnh "sushi" "Food" thực thể biểu thị khía cạnh "Quality" Xác định cảm xúc khía cạnh mục tiêu (sentiment polarity) - tích cực tiêu cực Tỉ lệ thời gian dành cho giai đoạn để xây dựng hệ thống khoa học ngữ liệu Nguồn: báo cáo học ngữ liệu 2016 [5] Bộ liệu VLSP (a) Phân bố nhãn tập liệu tương ứng tập huấn luyện tập kiểm tra (b) Tỉ lệ đồ dài câu ứng với nhãn có liệu Bộ liệu HSA (a) Phân bố nhãn tập liệu tương ứng tập huấn luyện đánh giá (b) Tỉ lệ đồ dài câu ứng với nhãn có liệu Bộ liệu UIT-VSFC (a) Phân bố nhãn tập liệu tương ứng tập huấn luyện, kiểm thử đánh giá (b) Tỉ lệ đồ dài câu ứng với nhãn có liệu 10 15 17 18 19 ix 3.5 Bộ liệu VS (a) Phân bố nhãn tập liệu tương ứng tập huấn luyện, kiểm thử đánh giá (b) Tỉ lệ đồ dài câu ứng với nhãn có liệu 20 4.1 4.2 4.3 Kiến trúc mơ hình BERT trình bày [9] Biểu diễn giá trị từ Mô tả BERT Fill-Mask 23 26 27 5.1 5.2 5.3 5.4 5.5 5.6 Mô tả sử dụng mơ hình ngơn ngữ Thống kê số lượng câu bình luận theo độ dài câu Dữ liệu sinh bộ ngữ liệu UIT_VSFC Dữ liệu sinh bộ ngữ liệu HSA Dữ liệu sinh bộ ngữ liệu KSE Thơng tin độ dài trung bình bình luận đồng thời tập từ vựng phổ cập liệu thu thập Thông tin chi tiết kết dự đoán tập liệu 41 42 47 48 49 52 52 A.1 Mơ tốn Masked Language Model 59 5.7 x Danh sách bảng 3.1 5.1 5.2 5.3 5.4 Thống kê tóm tắt cho kho ngữ liệu thử nghiệm N: kích thước liệu c: Số lớp mục tiêu l pre−avg : Trung bình độ dài câu trước trình tiền xử lý l pre−max : Độ dài câu dài trước trình tiền xử lý lavg : Trung bình độ dài câu sau trình tiền xử lý lmax :Độ dài câu dài sau trình tiền xử lý |V |: Kích thước từ vựng Test: Kích thước tập đánh giá (CV có nghĩa đánh giá thơng qua kiểm chéo (cross-validation) Kết PhoBERTBase kết hợp với bốn mức độ làm giàu ngữ liệu (data augmentation) liệu VS [46] Chúng tơi tiến hành tính tốn số Macro F1 -score [46] dựa thống kê kết nhãn liệu Theo đơn vị % Thống kê tính hiệu mức độ làm giàu ngữ liệu dựa kết từ bốn tỉ lệ ngữ liệu sinh (10%, 20%, 30% 40%) thông qua độ lệch chuẩn giá trị trung bình liệu VS [46] Kết PhoBERTBase kết hợp với bốn mức độ làm giàu ngữ liệu (data augmentation) liệu UIT-VSFC [29] Chúng tơi tiến hành tính tốn số Macro F1 -score dựa thống kê kết nhãn liệu Theo đơn vị % Thống kê tính hiệu mức độ làm giàu ngữ liệu dựa kết từ bốn tỉ lệ ngữ liệu sinh (10%, 20%, 30% 40%) thơng qua độ lệch chuẩn giá trị trung bình liệu UIT-VSFC [29] 20 30 31 33 34 Chương TỔNG QUAN VỀ CÁC BỘ NGỮ LIỆU PHÂN TÍCH CẢM XÚC PHẢN HỒI 16 Từ hình 3.1 trích xuất từ báo cáo khoa học ngữ liệu [5], thấy q trình xây dựng hệ thống khoa học ngữ liệu gần toàn thời gian liên quan đến ngữ liệu với 88% tổng thời gian (9% thời gian dành cho cơng tác phân tích ngữ liệu, 19% thời gian cho việc thu thập ngữ liệu 60% thời gian dành cho việc làm tổ chức lại ngữ liệu) 3.1 Giới thiệu liệu Trong nghiên cứu, liệu sử dụng để thực trình thực nghiệm bao gồm: Hotel Sentiment Analysis (HSA), VLSP Sentiment Analysis(VLSP), Vietnamese Students’ Feedback Corpus (UIT-VSFC), Vietnamese Sentiment Analysis (VS) 3.1.1 Vietnamese Language and Speech Processing Sentiment Analysis(VLSP) Hoạt động liên quan đến tốn phân tích tình cảm tiếng Việt tổ chức VLSP 2016 (SA-VLSP2016) Với tổng cộng 12190 câu (xem Hình 3.2), liệu bao gồm bình luận ngắn gọn báo kỹ thuật thu thập từ diễn đàn mạng xã hội (tinhte.vn, vnexpress.net Facebook), với nhãn liệu gồm tích cực (positive), tiêu cực (negative) trung tính (neutral) giới thiệu [28] Các bình luận phức tạp ứng với đối tượng đề cập, người dùng lại có cảm xúc khác nhau, ví dụ: “quán bán đồ ăn ngon, nhân viên không thân thiện giá đắt” Do đó, nhóm tác giả đặt số ràng buộc tập liệu sau: • Bộ liệu chứa đánh giá có ý kiến cá nhân • Dữ liệu thường bình luận ngắn, chứa ý kiến đối tượng Không có giới hạn số lượng khía cạnh đối tượng đề cập nhận xét • Nhãn (tích cực/tiêu cực/trung tính) cảm xúc chung tồn câu đánh giá Chương TỔNG QUAN VỀ CÁC BỘ NGỮ LIỆU PHÂN TÍCH CẢM XÚC PHẢN HỒI 17 • Bộ liệu thu thập từ mạng xã hội, không tự tạo thủ công Thông thường, khó để đánh giá nhận xét trung lập ý kiến ln có xu hướng tiêu cực tích cực Nhóm tác giả thường đánh giá trung lập khơng thể định tích cực hay tiêu cực Nhãn trung lập sử dụng cho trường hợp có ý kiến tích cực tiêu cực kết hợp chúng lại, nhận xét trở nên trung lập (b) (a) HÌNH 3.2: Bộ liệu VLSP (a) Phân bố nhãn tập liệu tương ứng tập huấn luyện tập kiểm tra (b) Tỉ lệ đồ dài câu ứng với nhãn có liệu 3.1.2 Hotel Sentiment Analysis (HSA) Bộ liệu trình bày nghiên cứu [12] Bộ liệu lấy từ Agoda1 , tảng cho phép người dùng đặt phịng khách sạn trực tuyến Nhóm tác giả trích xuất đánh giá tiếng Việt từ 50 khách sạn đặt Việt Nam (chủ yếu Hà Nội, Hồ Chí Minh, Đà Nẵng, Nha Trang) Sau đó, tiến hành số bước tiền xử lý Đồng thời, liệu loại bỏ câu không chuẩn tiếng Việt, tức câu khơng có đầy đủ âm tiết/dấu câu Bộ ngữ liệu gồm 3304 câu, có 1980 câu gán nhãn tích cực, 777 câu phủ định 547 câu trung lập (xem Hình 3.3) Agoda: https://www.agoda.com/ Chương TỔNG QUAN VỀ CÁC BỘ NGỮ LIỆU PHÂN TÍCH CẢM XÚC PHẢN HỒI (a) 18 (b) HÌNH 3.3: Bộ liệu HSA (a) Phân bố nhãn tập liệu tương ứng tập huấn luyện đánh giá (b) Tỉ lệ đồ dài câu ứng với nhãn có liệu 3.1.3 Vietnamese Students’ Feedback Corpus (UIT-VSFC) UIT-VSFC, liệu thực lĩnh vực giáo dục Cụ thể, liệu thu thập dựa phản hồi bạn sinh viên trình tham gia học tập trường, thực nghiên cứu [44] Bộ liệu UIT-VSFC sử dụng cho hai nhiệm vụ khác nhau: (1) phân loại dựa cảm xúc (sentiment-based) dựa chủ đề (topic-based) Họ thu thập phản hồi sinh viên thông qua khảo sát sinh viên vào cuối học kỳ 2013 2016, với 16.000 phản hồi Có hai loại phản hồi chính: (1) phản hồi từ giảng viên cho sinh viên để giúp đỡ học sinh nhận thức điểm yếu điểm mạnh để cải thiện nghiên cứu (2) phản hồi từ sinh viên cho giảng viên để phản ánh cải thiện giảng dạy họ Đặc biệt, sinh viên đưa ý kiến loạt vấn đề khác Ví dụ: phản hồi sinh viên thể sinh viên thích khơng thích giảng giảng viên giảng dạy xuất sắc tệ Chương TỔNG QUAN VỀ CÁC BỘ NGỮ LIỆU PHÂN TÍCH CẢM XÚC PHẢN HỒI (a) 19 (b) HÌNH 3.4: Bộ liệu UIT-VSFC (a) Phân bố nhãn tập liệu tương ứng tập huấn luyện, kiểm thử đánh giá (b) Tỉ lệ đồ dài câu ứng với nhãn có liệu 3.1.4 Vietnamese Sentiment Analysis (VS) VS [47] tập liệu đánh giá người dùng sản phẩm gồm 17.500 đánh giá/nhận xét từ trang thương mại điện tử Việt Nam (gồm TinhTe.vn, Tiki.vn, v.v.) gắn nhãn tích cực/tiêu cực/trung tính ba người Nhóm tác giả sử dụng xác thực chéo (fold cross-validation) lần để báo cáo kết thử nghiệm Tập liệu xuất Github2 nghiên cứu https://github.com/ntienhuy/MultiChannel Chương TỔNG QUAN VỀ CÁC BỘ NGỮ LIỆU PHÂN TÍCH CẢM XÚC PHẢN HỒI (a) 20 (b) HÌNH 3.5: Bộ liệu VS (a) Phân bố nhãn tập liệu tương ứng tập huấn luyện, kiểm thử đánh giá (b) Tỉ lệ đồ dài câu ứng với nhãn có liệu Data HSA VS UIT-VSFC VLSP N 3304 17500 16174 6150 c 3 3 l pre−avg 13.67 32.14 14.22 28.86 l pre−max 161 905 161 2885 lavg 9.00 27.88 9.57 26.15 lmax 124 712 124 2481 |V | 1434 5816 4336 9496 Test CV CV 3166 1050 BẢNG 3.1: Thống kê tóm tắt cho kho ngữ liệu thử nghiệm N: kích thước liệu c: Số lớp mục tiêu l pre−avg : Trung bình độ dài câu trước trình tiền xử lý l pre−max : Độ dài câu dài trước trình tiền xử lý lavg : Trung bình độ dài câu sau trình tiền xử lý lmax :Độ dài câu dài sau trình tiền xử lý |V |: Kích thước từ vựng Test: Kích thước tập đánh giá (CV có nghĩa đánh giá thông qua kiểm chéo (cross-validation) 3.2 Tiền xử lý liệu Công tác tiền xử lý, làm ngữ liệu tiến hành qua số công tác sau với bước trình bày nghiên cứu [7], kết hợp với vài xử lí tơi trình bày phía bên dưới: • Đầu tiên, trường hợp bình luận khơng phải ngơn ngữ tiếng Việt loại bỏ Đồng thời, bình luận người dùng mà tồn bình luận tiếng Việt viết không dấu tiến hành loại bỏ Chương TỔNG QUAN VỀ CÁC BỘ NGỮ LIỆU PHÂN TÍCH CẢM XÚC PHẢN HỒI 21 • Tiếp theo, thư viện UETSegmentationt3 để tiến hành phân tách bình luận người dùng thành câu đơn Tuy nhiên, ngữ liệu thu thập từ trang mạng nên nhiều bình luận người dùng khơng ngữ pháp thiếu dấu câu, sử dụng dấu câu không Thế nên, tiến hành thêm điều chỉnh dấu câu cho đoạn bình luận trước phân tách thành câu đơn • Cuối loại bỏ câu trùng ngữ liệu https://github.com/phongnt570/UETsegmenter 22 Chương LÝ THUYẾT Trong phần này, chúng tơi thực trình bày lí thuyết phương pháp tinh chỉnh dựa mơ hình ngơn ngữ đào tạo trước (pre-trained language model) BERT, biến thể cho tiếng Việt 4.1 Mơ hình BERT Biểu diễn Thể Mã hóa Hai chiều từ Transformer (Bidirectional Encoder Representations from Transformers hay viết tắt BERT) kỹ thuật học máy dựa transformer dùng cho việc huấn luyện trước xử lý ngôn ngữ tự nhiên (NLP) phát triển Google Jacob Devlin cộng từ Google tạo công bố BERT vào năm 2018 [9] Mơ hình BERT tiếng Anh ban đầu kèm với hai dạng tổng quát đào tạo trước:[1]: (1) mơ hình the BERTbase , kiến trúc mạng thần kinh chứa 12-lớp, 768-lớp ẩn, 12-đầu, 110M tham số, (2) mơ hình BERTlarge , kiến trúc mạng thần kinh chứa 24-lớp, 1024-lớp ẩn, 16-đầu, 340 triệu tham số Cả hai huấn luyện từ BooksCorpus [51] với 800 triệu từ, phiên Wikipedia tiếng Anh1 với 2,500 triệu từ BERT có nguồn gốc từ biểu diễn theo ngữ cảnh trước đào tạo trước bao gồm học trình tự bán giám sát (semi-supervised sequence learning), [6] Generative Pre-Training, ELMo [33], and ULMFit [19] Khơng mơ hình trước đó, BERT biểu diễn ngôn ngữ không giám sát hai chiều sâu, đào tạo trước sử dụng kho ngữ liệu văn túy https://vi.wikipedia.org/wiki/Wikipedia_ti%E1%BA%BFng_Anh Chương LÝ THUYẾT 23 Các mơ hình khơng có ngữ cảnh Word2vec hay GloVe (học máy) tạo biểu diễn từ nhúng đơn cho từ tập từ vựng, BERT tính đến ngữ cảnh cho lần xuất từ cho trước Ví dụ: vectơ từ "running" có biểu diễn vectơ Word2vec giống hai lần xuất từ "running" câu "He is running a company" (anh điều hành công ty) "He is running a marathon" (anh chạy marathon), BERT cung cấp nhúng từ theo ngữ cảnh khác tùy thuộc theo câu ví dụ HÌNH 4.1: Kiến trúc mơ hình BERT trình bày [9] 4.2 Các biến thể BERT dành cho tiếng Việt Cho đến nay, có nhiều mơ hình ngôn ngữ đào tạo trước với cài đặt khác cho tiếng Việt bao gồm mơ hình đơn đa ngơn ngữ Danh sách mơ hình có sẵn cho tiếng Việt tóm tắt sau: • PhoBERTBase [26]: Đây mơ hình ngơn ngữ đào tạo trước cấp độ từ (word-level) cho tiếng Việt Mơ hình huấn luyện đánh giá 20GB nguồn liệu (Wikipedia + tin tức) có hai phiên Kết thử nghiệm chứng minh mơ hình hoạt động tốt mơ hình XLM-R [4] bốn tác vụ downstreams • viBERT4News: Mơ hình huấn luyện dựa 20GB liệu tin tức dựa kiến trúc BERT [10] cho tiếng Việt Nhóm tác giả sử dụng Downstream tasks are what the field calls those supervised-learning tasks that utilize a pretrained model or component Chương LÝ THUYẾT 24 word sentence piece mã hóa BERT (BERT tokenization) Ứng dụng mơ hình đồng thời tích hợp vào hệ thống ViNLP cho tiếng Việt • viBERT [41]: Tương tự viBERT4News, mơ hình huấn luyện liệu trang báo mạng xử lý trước Tuy nhiên, từ vựng mô hình sửa đổi từ mơ hình mBERT cách loại bỏ từ vựng không xuất liệu huấn luyện Do hạn chế tài ngun, mơ hình huấn luyện 10GB liệu • viELECTRA [41]: Nhóm tác giả sử dụng kiến trúc ELECTRA 60GB liệu từ hai nguồn (NewsCorpus + OscarCorpus) Mơ hình đào tạo trước (pre-trained model) chia sẻ dạng mã nguồn mở để nghiên cứu mở rộng nghiên cứu cho cộng đồng • mBERT [10]: BERT đa ngôn ngữ nghiên cứu [10], huấn luyện liệu Wikipedia 104 ngơn ngữ khác bao gồm tiếng Việt • XLM-R [4]: XLM-R đề xuất [4] để thực nhiệm vụ đa ngôn ngữ đạt kết ấn tượng (SOTA) nhiều nhiệm vụ NLP, đặc biệt ngôn ngữ tài nguyên liệu (lowresources languages) May mắn thay, tiếng Việt có số lượng mặt ngữ liệu lớn thứ liệu huấn luyện nhóm tác giả 4.3 Kỹ thuật làm giàu liệu (Data augmentation) Data augmentation (làm giàu liệu) ngày trở thành tiêu điểm năm gần đây, từ nguồn liệu huấn luyện hạn chế tự động tạo nhiều liệu đào tạo coi học bán giám sát Sennrich et al [38], Sugiyama Yoshinaga [40] sử dụng kỹ thuật back translate (dịch ngược) để tạo nguồn liệu nhằm cải thiện hiệu suất mơ hình Trong nghiên cứu nhóm tác giả [13] đề xuất cách tiếp cận nhằm tăng cường liệu đào tạo để cải thiện mơ hình dịch thuật Về bản, cách tiếp cận nhắm mục tiêu vào từ có tần suất thấp để tạo cặp câu chứa từ (rare words) ViNLP: https://github.com/bino282/ViNLP Chương LÝ THUYẾT 25 ngữ cảnh tạo cách đa dạng Kobayashi [22] đề xuất sử dụng kĩ thuật với việc đa dạng hoá ngữ cảnh câu Họ ngẫu nhiên thay từ từ dự đốn khác mơ hình ngôn ngữ (language models) cải tiến với kiến trúc có điều kiện nhãn cho phép mơ hình tăng cường câu mà khơng phá vỡ tính tương thích nhãn Wei Zou [49] áp dụng số kỹ thuật tăng liệu dễ dàng (Easy Data Augmentation - EDA), cụ thể từ thay từ đồng nghĩa, hốn đổi ngẫu nhiên, chèn ngẫu nhiên, xóa ngẫu nhiên để tạo liệu Mặc dù kỹ thuật dễ thực hiện, không phụ thuộc vào ngoại cảnh tài nguyên, chúng phần nhiều cải thiện đáng kể hiệu suất hoạt động mơ hình Và nghiên cứu này, tơi gơm nhóm kĩ thuật liệu thành cấp độ - dưa tính chất hoạt động của, gồm có làm giàu liệu mức độ kí tự (character augmenter), mức độ từ (word augmenter) mức độ ngữ cảnh (contextual augmenter) 4.3.1 Character Augmenter Tăng cường liệu cấp độ ký tự Các tình lỗi đánh máy hầu hết ứng dụng có tính sửa từ Chúng tơi mô lỗi cách thức sau, (1) thêm ký tự ngẫu nhiên (insert character randomly), (2) lặp ký tự (repeat character randomly), (3) xoá ký tự (delete character randomly), (4) hoán vị ký tự (swap character randomly) Trong nghiên cứu này, ứng với câu đầu vào ngẫu nhiên sinh liệu việc mô lỗi 4.3.2 Word Augmenter Substitute word by word2vec similarity Wang Yang [48] giới thiệu việc sử dụng tính đồng nghĩa từ vựng để tạo nguồn liệu Trong báo, Wang Yang đề xuất sử dụng K-Nearest Neighbors (KNN) độ tương đồng cosine để tìm từ tương tự để thay Trong nghiên cứu này, ứng với câu, tỉ lệ số lượng từ thay 20% tổng số từ câu Chương LÝ THUYẾT 26 HÌNH 4.2: Biểu diễn giá trị từ 4.3.3 Contextual Word Embeddings Augmenter Masked Language Model Các mơ hình Transformers BERT, ROBERTA ALBERT huấn luyện lượng lớn văn cách sử dụng nhiệm vụ có tên “Masked language modeling” mơ hình phải dự đốn từ che dựa ngữ cảnh Chính lý này, sử dụng để làm giàu nguồn liệu Ví dụ: sử dụng mơ hình BERT đào tạo trước, che số phần văn u cầu mơ hình BERT dự đốn giá trị (token) cho vị trí So với cách tiếp cận trước đây, văn tạo mạch lạc mặt ngữ pháp mơ hình có tính đến ngữ cảnh đưa dự đoán Garg et al [16] sử dụng ý tưởng để tạo ví dụ đối nghịch để phân loại văn Tương tự mức độ làm giàu ngữ liệu mức từ, ứng với câu, tỉ lệ số lượng từ thay 20% tổng số từ câu Chương LÝ THUYẾT 27 HÌNH 4.3: Mơ tả BERT Fill-Mask Tải FULL (82 trang): https://bit.ly/3fQM1u2 Dự phòng: fb.com/KhoTaiLieuAZ Back Translation nhằm mục đích xây dựng liệu đa dạng dựa cơng cụ dịch thuật, nhiều nhóm nghiên cứu sử dụng để cải tiến mơ hình dịch [12–15, 23] Kỹ thuật giải cách sử dụng trình dịch để dịch liệu gốc sang ngơn ngữ định, sau lấy liệu dịch sang trình dịch độc lập để dịch ngược lại ngôn ngữ gốc Thông thường, liệu dịch ngược khơng hồn tồn giống với liệu gốc Tiếng Anh ngôn ngữ có nhiều liệu đào tạo để dịch, ngôn ngữ khác lại thiếu liệu đào tạo cho mơ hình dịch Vì vậy, tiếng Anh sử dụng làm ngôn ngữ đa phương tiện để có thêm liệu Ví dụ câu “Tơi thích mua thiết bị tiệm này”, Google thực dịch câu sang tiếng Anh: “I really like to buy the device at this store”, sau đưa câu dịch dịch lại sang tiếng Việt là: "Tôi thực muốn mua thiết bị cửa hàng này" Cách tiếp cận đơn giản dễ hiểu hữu ích để tăng cường liệu giữ lại ý nghĩa liệu gốc, đặt địi hỏi cao công cụ dịch Trong thử nghiệm, thực sử dụng Google Cloud Translation API4 Trong nghiên cứu này, chúng tơi đồng thời cịn tiến hành dịch ngược theo chuỗi (Chained Back Translation) Chúng tiến hành dịch ngôn ngữ sau, tiếng Việt -> tiếng Anh -> tiếng Trung Quốc (Quan Thoại) -> tiếng Việt https://cloud.google.com/translate 28 Chương KẾT QUẢ THỰC NGHIỆM Trong chương nêu số kết luận từ nghiên cứu kết đạt q trình thực nghiệm Bên cạnh đó, tơi trình bày chi tiết phần ứng dụng thực cho toán 5.1 5.1.1 Kết Thực nghiệm tốn SA Ở chương này, tơi trình bày kết thực nghiệm ngữ liệu sử dụng mơ hình PhoBERTBase với kiến trúc thiết kế trình bày chi tiết [25] thiết bị phần cứng VGA Card LEADTEK nVidia Quadro RTX 8000 48GB GDDR6 Chi tiết môi trường cài đặt1 Trong nghiên cứu này, để đánh giá hiệu phương pháp tiếp cận, sử dụng độ đo gồm Accuracy, Weighted F1 -score, Macro F1 - Micro F1 score Vì phần lớn ngữ liệu dùng để đánh giá đa phần rơi vào trường hợp liệu cân (imbalance dataset) Mặt khác, độ đo đề cập phân tích tính hiệu dành cho tốn cân ngữ liệu [17, 3] Tải FULL (82 trang): https://bit.ly/3fQM1u2 Dự phịng: fb.com/KhoTaiLieuAZ 5.1.1.1 VS Bảng 5.1 trình bày chi tiết kết đạt trình thực thi, ứng với mức độ tỉ lệ làm giàu liệu Kết đạt dùng để so sánh https://github.com/lacls/Vietnamese-SA-with-SOTA-approaches/blob/master/req txt Chương KẾT QUẢ THỰC NGHIỆM 29 với cách tiếp cận tối ưu trước đây, trình bày [46] Từ Bảng 5.2, ta dễ dàng quan sát Nhìn chung, mức độ làm giàu liệu mang đến kết cải thiện Trong đó, mang lại kết tối ưu kỹ thuật dịch ngược (từ tiếng Việt sang tiếng Trung ngược lại) - mức độ ngữ nghĩa, với tỉ tăng cao 3.7% thấp 3.10% Tương tự vậy, kết kỹ thuật dịch ngược vô khả quan với việc sử dụng song song hai cặp ngơn ngữ nguồn - đích khác nhau, trường hợp tiếng Việt, tiếng Anh tiếng Trung Và đa phần, tỉ lệ làm giàu liệu mang lại kết cao từ 20-30% Mặc dù, đánh giá cao khả "hiểu" mặt ngữ nghĩa phương pháp Contextual Word Embedding, nhiên, với liệu mang lại kết cách tương đối (tốt so với với mức độ từ kí tự) Lý yếu đây, phần nhiều độ phủ tập từ vựng/nội dung (vì nguồn liệu huấn luận trước tin tức Wikipedia) nên phần nhiều khó tồn diện đạt kết mong muốn (tơi có trình bày phương án cải thiện đề mục 5.1) Chương KẾT QUẢ THỰC NGHIỆM Level of data augmentation Character Augmenter Word Augmenter Contextual Word Embeddings Augmenter Augmentation _ 10 _ 20 _ 30 _ 40 _ 10 _ 20 _ 30 _ 40 _ 10 _ 20 _ 30 _ 40 10 Vi_Zh 20 30 40 Back Translate 10 Vi_En 20 30 40 10 Vi_Zh_En 20 30 9166421 40 10 Vi_En_Zh 20 30 40 30 Accuracy 91.7 (+1.3) 91.52 (+1.12) 90.87 (+0.47) 90.23 (-0.17) 91.72 (+1.32) 91.52 (+1.12) 91.08 (+0.68) 91.48 (+1.08) 92.71 (+2.31) 91.82 (+1.42) 91.08 (+0.68) 91.48 (+1.08) 93.42 (+3.02) 94.43 (+4.03) 94.09 (+3.69) 93.77 (+3.37) 93.37 (+2.97) 93.69 (+3.29) 92.01 (+1.61) 91.29 (+0.89) 92.73 (+2.33) 91.83 (+1.43) 91.08 (+0.68) 91.48 (+1.08) 94.37 (+3.97) 94.69 (+4.29) 93.03 (+2.63) 92.31 (+1.91) Balance Acc 91.56 (+1.24) 91.58 (+1.26) 90.42 (+0.1) 90.8 (+0.48) 91.58 (+1.26) 91.58 (+1.26) 91.06 (+0.74) 91.47 (+1.15) 92.66 (+2.34) 91.79 (+1.47) 91.06 (+0.74) 91.47 (+1.15) 93.48 (+3.16) 94.29 (+3.97) 94.06 (+3.74) 93.75 (+3.43) 93.35 (+3.03) 93.69 (+3.37) 92.01 (+1.69) 91.25 (+0.93) 92.69 (+2.37) 91.8 (+1.48) 91.06 (+0.74) 91.47 (+1.15) 94.35 (+4.03) 94.69 (+4.37) 93.01 (+2.69) 92.29 (+1.97) Weighted F1 91.57 (+1.19) 91.67 (+1.29) 90.4 (+0.02) 90.79 (+0.41) 91.6 (+1.22) 91.67 (+1.29) 91.01 (+0.63) 91.42 (+1.04) 92.67 (+2.29) 91.77 (+1.39) 91.01 (+0.63) 91.42 (+1.04) 93.4 (+3.02) 94.28 (+3.9) 94.05 (+3.67) 93.73 (+3.35) 93.34 (+2.96) 93.64 (+3.26) 91.95 (+1.57) 91.2 (+0.82) 92.7 (+2.32) 91.78 (+1.4) 91.01 (+0.63) 91.42 (+1.04) 94.34 (+3.96) 94.64 (+4.26) 92.96 (+2.58) 92.24 (+1.86) Macro F1 91.43 (+1.14) 91.48 (+1.19) 90.23 (-0.06) 90.64 (+0.35) 91.45 (+1.16) 91.48 (+1.19) 90.99 (+0.7) 91.4 (+1.11) 93.64 (+3.35) 91.75 (+1.46) 90.99 (+0.7) 91.4 (+1.11) 93.35 (+3.06) 94.24 (+3.95) 94.01 (+3.72) 93.69 (+3.4) 93.3 (+3.01) 93.62 (+3.33) 91.9 (+1.61) 91.21 (+0.92) 93.67 (+3.38) 91.76 (+1.47) 90.99 (+0.7) 91.4 (+1.11) 94.3 (+4.01) 94.62 (+4.33) 92.94 (+2.65) 92.23 (+1.94) BẢNG 5.1: Kết PhoBERTBase kết hợp với bốn mức độ làm giàu ngữ liệu (data augmentation) liệu VS [46] Chúng tơi tiến hành tính tốn số Macro F1 -score [46] dựa thống kê kết nhãn liệu Theo đơn vị % Micro F1 91.7 (+1.3) 91.52 (+1.12) 90.87 (+0.47) 90.23 (-0.17) 91.27 (+0.87) 91.52 (+1.12) 91.08 (+0.68) 91.48 (+1.08) 92.71 (+2.31) 91.82 (+1.42) 91.08 (+0.68) 91.48 (+1.08) 93.42 (+3.02) 94.43 (+4.03) 94.09 (+3.69) 93.77 (+3.37) 93.37 (+2.97) 93.69 (+3.29) 92.01 (+1.61) 91.29 (+0.89) 92.73 (+2.33) 91.83 (+1.43) 91.08 (+0.68) 91.48 (+1.08) 94.37 (+3.97) 94.69 (+4.29) 93.03 (+2.63) 92.31 (+1.91) ... với nghiên cứu này, thực tốn phân tích cảm xúc bình luận/ phản hồi người dùng 1.3 Mục tiêu nghiên cứu Trong nghiên cứu này, tơi tiến hành nghiên cứu, tìm hiểu giải mục tiêu sau: • Nghiên cứu thực... tốn phân tích cảm xúc người dùng, phân tích hướng nghiên cứu thực nước liên quan đến tốn Trình bày tốn nghiên cứu tiến hành nghiên cứu thực • Chương 3: Trình bày khái lược bốn liệu sử dụng nghiên. .. nhiên, nghiên cứu xem đặt móng cho phân tích ý kiến nghiên cứu Pang cộng [32] Kể từ nghiên cứu toán ngày quan tâm phát triển • Cơng trình [32] tiến hành nghiên cứu phân tích ý kiến từ phản hồi người