Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
1,7 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** XÂY DỰNG ỨNG DỤNG GOM CỤM CÁC BÀI BÁO KHOA HỌC THEO CHỦ ĐỀ LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai, năm 2023 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** XÂY DỰNG ỨNG DỤNG GOM CỤM CÁC BÀI BÁO KHOA HỌC THEO CHỦ ĐỀ Chuyên ngành: Công nghệ thông tin Mã số: 8480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai, 2023 i LỜI CẢM ƠN Em xin gửi lời cảm ơn đến Ban Giám Hiệu trường Đại học Lạc Hồng tạo điều kiện để em học tập tiếp thu kiến thức quý báu năm học qua Em xin gửi lời cảm ơn sâu sắc đến giảng viên hướng dẫn PGS TS tận tình hướng dẫn, định hướng, hỗ trợ em suốt trình thực luận văn Em xin chân thành cảm ơn đến gia đình, đồng nghiệp, bạn bè bạn học viên khóa cao học Cơng nghệ thơng tin tạo điều kiện giúp đỡ tơi suốt q trình thực hoàn thành luận văn Mặc dù cố gắng để thực Luận văn cách hồn chỉnh nhất, nhiên khơng thể tránh khỏi hạn chế thiếu sót Tơi mong nhận góp ý bảo tận tình q thầy để luận văn hồn thiện Xin chân thành cảm ơn./ Đồng Nai, ngày 10 tháng 01 năm 2023 Học viên ii LỜI CAM ĐOAN Tác giả xin cam đoan cơng trình nghiên cứu riêng tơi, kiến thức trình bày luận văn tơi tự tìm hiểu, nghiên cứu trình bày lại Trong q trình làm luận văn tơi tham khảo tài liệu có liên quan ghi rõ nguồn tài liệu tham khảo Các tài liệu, kết nghiên cứu nêu luận văn trung thực chưa công bố cơng trình khoa học khác Nếu có điều khơng trung thực, tơi xin hồn tồn chịu trách nhiệm./ Đồng Nai, ngày 10 tháng 01 năm 2023 Học viên iii MỤC LỤC MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT .v DANH MỤC HÌNH ẢNH vii DANH MỤC BẢNG viii CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI 1.1 Lý chọn đề tài .1 1.2 Mục tiêu luận văn .2 1.3 Phạm vi đối tượng nghiên cứu .2 1.4 Nội dung thực 1.5 Phương pháp thực .2 1.6 Đóng góp luận văn .2 1.7 Kết cấu luận văn CHƯƠNG 2: BERT VÀ MỘT SỐ VẤN ĐỀ LIÊN QUAN TRONG VIỆC PHÂN LOẠI 2.1 Các cơng trình nghiên cứu 2.2 Một số phương pháp phân loại câu 2.3 BERT 10 2.4 RoBERTa 18 2.5 PhoBERT 23 2.6 Thuật toán tối ưu hóa 26 2.7 Hàm trung bình mũ 29 CHƯƠNG 3: ỨNG DỤNG GOM CỤM CÁC BÀI BÁO KHOA HỌC THEO CHỦ ĐỀ 30 3.1 Mô tả toán 30 3.2 Xây dựng kho ngữ liệu 33 3.3 Phân lớp liệu mơ hình PhoBERT 34 3.4 Đánh giá mơ hình 35 3.5 Xây dựng ứng dụng Website 37 CHƯƠNG 4: THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ .42 iv 4.1 Ngơn ngữ lập trình Python 42 4.2 Cấu hình máy tính 42 4.3 Thống kê xử lý liệu .42 4.4 Fine-tunning mơ hình PhoBERT 43 4.5 Kết thực nghiệm .44 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 51 5.1 Kết luận 51 5.2 Hướng phát triển đề tài .51 TÀI LIỆU THAM KHẢO 53 v DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Thuật ngữ viết tắt AI BERT Tên tiếng Anh Tên Tiếng Việt Trí tuệ nhân tạo Artificial Intelligence Bidirectional Encoder Representations Bộ biểu diễn mã hóa hai chiều from Transformers từ Transformers BoW Bag of Words Túi đựng từ BPE Byte Pair Encoding CV Computer Vision Thị giác máy tính DP Dependency Paser Phân tích cú pháp phụ thuộc DS Data Science Khoa học máy tính GLUE General Lenguage Thuật tốn nén liệu (Mã hóa cặp Byte) Understanding Thang đo đánh giá hiểu biết Evaluation ngôn ngữ chung Information System Hệ thống thơng tin MLM Masked Language Modeling Mơ hình ngơn ngữ bị che NER Name Entity Recognition Nhận dạng tên thực thể NLI Natural Languague Inference Suy luận ngôn ngữ tự nhiên NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên NS Network System Hệ thống máy tính NSP Next Sentence Prediction Dự đoán câu POS Part of Speech Gán nhãn từ loại RNN Recurrent Neural Network Mạng nơ-ron hồi quy IS vi SGD SOTA Stochastic Gradient Descent State of the Art Độ dốc ngẫu nhiên Hiện đại, tiên tiến lĩnh vực khoa học vii DANH MỤC HÌNH ẢNH Hình 2.1 Mơ hình huấn luyện phân loại câu dùng máy học truyền thống .9 Hình 2.2 Mơ hình q trình huấn luyện dự đốn sử dụng mạng nơ-ron 10 Hình 2.3 Sơ đồ kiến trúc Transformer Attention 12 Hình 2.4 Dùng Transformer để dịch từ tiếng Anh sang tiếng Pháp 13 Hình 2.5 Tiến trình pre-training fine-tunning BERT 13 Hình 2.6 Sơ đồ kiến trúc BERT cho nhiệm vụ ngôn ngữ mơ hình bị ẩn 15 Hình 2.7 Kiến trúc mơ hình BERT cho tác vụ NSP 16 Hình 2.8 Giải thuật tối ưu hóa Adam 27 Hình 2.9 Chuẩn hóa L2 suy giảm trọng số cho thuật tốn Adam 28 Hình 2.10 Suy giảm trọng số chuẩn hóa 28 Hình 3.1 Mơ hình phân loại báo khoa học theo chủ đề 31 Hình 3.2 Quá trình học máy để tạo mơ hình phân lớp 32 Hình 3.3 Q trình dự đốn mơ hình phân lớp 32 Hình 3.4 Sơ đồ phân loại báo khoa học theo chủ đề 35 Hình 3.5 Chia liệu thành phần .37 Hình 3.6 Cây thư mục ứng dụng Web 39 Hình 3.7 Sơ đồ thiết kế ứng dụng hoàn chỉnh 40 Hình 3.8 Tên miền ngẫu nhiên ngrok tạo 40 Hình 3.9 Giao diện ứng dụng Web gom cụm báo khoa học 41 Hình 4.1 Kết mơ hình BERT trước thay đổi liệu .45 Hình 4.2 Kết mơ hình PhoBERT trước thay đổi liệu .46 Hình 4.3 Kết mơ hình PhoBERT sau thay đổi liệu 46 Hình 4.4 Kết mơ hình PhoBERT sau thay đổi liệu 47 Hình 4.5 Kết mơ hình BERT sau thay đổi liệu 47 Hình 4.6 Độ chuẩn xác độ lỗi mơ hình BERT .48 Hình 4.7 Độ chuẩn xác độ lỗi mơ hình PhoBERT 49 viii DANH MỤC BẢNG Bảng 2.1 Bảng liệu mẫu WOS Bảng 2.2 Bảng thống kê kho ngữ liệu cơng trình phân loại thư rác Bảng 3.1 Số lượng báo liệu .33 Bảng 4.1 Cấu hình máy tính dùng để huấn luyện mơ hình .42 Bảng 4.2 Thống kê số lượng chủ đề chuẩn bị hội nghị FAIR 43 Bảng 4.3 Bộ siêu tham số đề xuất mơ hình BERT PhoBERT .43 Bảng 4.4 Thống kê số lượng chủ đề chuẩn bị hội nghị FAIR 44 Bảng 4.5 Bộ siêu tham số đề xuất mơ hình BERT PhoBERT .44 Bảng 4.6 Bộ siêu tham số hai mơ hình với tham số batch size 46 Bảng 4.7 Kết thực nghiệm hai mơ hình liệu kiểm thử .49 40 Hình 3.7 mơ tả ứng dụng thiết kế mơi trường máy tính Google Colab Ngơn ngữ viết chủ yếu Python, giao diện ứng dụng viết HTML Sơ đồ xây dựng ứng dụng hồn chỉnh: Hình 3.7 Sơ đồ thiết kế ứng dụng hồn chỉnh Sau kết nối vào mơi trường Colab, tiến hành tải lên mơ hình huấn luyện mục 3.3 kết nối vào ngrok để chạy ứng dụng Tiếp đến, thực thi chương trình hồn tất, trang web với tên miền ngẫu nhiên (sử dụng ngrok phiên miễn phí) xuất Sau đó, nhấn vào đường liên kết tơ màu vàng hình 3.8 để đến trang web Hình 3.8 Tên miền ngẫu nhiên ngrok tạo Giao diện ứng dụng hình 3.9 gồm chức như: • Thêm tệp tin (Upload): Bài báo khoa học đưa lên ứng dụng lưu vào thư mục riêng 41 • Hiển thị: Bài báo hiển thị trực tiếp hình web để người dùng kiểm tra xác báo mà họ muốn dự đốn • Dự đốn (Predict): Sau đưa tệp tin lên, hệ thống tự động xử lý rút trích thơng tin văn gồm phần tóm tắt từ khóa, đưa kết dự đốn sau • Lưu trữ: Hệ thống tự động lưu trữ thông tin báo gồm tên tệp tin đưa lên, phần tóm tắt, phần từ khóa kết dự đoán vào thư mục Định dạng tệp tin lưu trữ “xlsx” hiển thị đường dẫn đến thư mục chứa tệp Hình 3.9 Giao diện ứng dụng Web gom cụm báo khoa học 42 CHƯƠNG 4: THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 4.1 Ngơn ngữ lập trình Python Python ngơn ngữ lập trình hướng đối tượng, bậc cao, mạnh mẽ Nó tạo Guido van Rossum trình 1985- 1990 Giống Perl, mã nguồn Python có GNU General Public License (GPL) Ưu điểm Python: ⚫ Ngôn ngữ lập trình đơn giản, dễ học ⚫ Miễn phí, mã nguồn mở ⚫ Ngôn ngữ thông dịch cấp cao ⚫ Thư viện tiêu chuẩn lớn để giải tác vụ phổ biến ⚫ Hướng đối tượng 4.2 Cấu hình máy tính Q trình huấn luyện kiểm thử cài đặt môi trường Google Colab với GPU A100-SXM4-40GB, sử dụng ngơn ngữ lập trình Python, thư viện Huggingface, framework Pytorch số thư viện khác Các thơng số máy tính thể bảng 4.1 Bảng 4.1 Cấu hình máy tính dùng để huấn luyện mơ hình Thiết bị Thơng số CPU Intel (R) Xeon (R) CPU @ 2.20GHz (6 cores, 12 threads) RAM 87 GB DDR4 GPU GPU A100-SXM4-40GB SSD 500GB 4.3 Thống kê xử lý liệu Dữ liệu mẫu sử dụng báo liệu gồm 214 báo tổng hợp hội nghị FAIR từ năm 2020 đến 2021 Luận văn đề xuất sử dụng phương pháp gia tăng liệu (Data Augmentation) nhằm tăng độ xác 43 trình học Tổng số báo liệu tăng lên từ 214 báo thành 855 báo Bảng 4.2 mô tả liệu báo chia phần gồm tập kiểm tra, tập huấn luyện tập kiểm thử Trong đó, tập kiểm tra gồm 18 báo, chủ đề chọn báo Đối với tập huấn luyện kiểm thử, tổng số báo lại 837, chia ngẫu nhiên theo tỉ lệ 90:10, tương ứng với 751 86 báo Số báo chủ đề không đồng đều, thấp chủ đề Khoa học liệu có 85 báo, cao chủ đề Hệ thống mạng có 180 báo Bảng 4.2 Thống kê số lượng chủ đề chuẩn bị hội nghị FAIR Số thứ tự Chủ đề Tập kiểm Tập kiểm Tập huấn Tổng tra thử luyện số 15 134 149 NLP (Xử lý ngôn ngữ tự nhiên) CV (Thị giác máy tính) 16 136 152 AI (Trí tuệ nhân tạo) 16 140 156 NS (Hệ thống mạng) 18 162 180 IS (Hệ thống thông tin) 12 103 115 DS (Khoa học liệu) 76 85 Tổng cộng 18 86 751 837 4.4 Fine-tunning mơ hình PhoBERT Mơ hình PhoBERT sử dụng thuật toán tối ưu AdamW với siêu tham số cấu hình q trình fine-tuning PhoBERT mơ tả bảng 4.3 Bảng 4.3 Bộ siêu tham số đề xuất mơ hình BERT PhoBERT Mơ hình Tốc độ học BERT 0.005 PhoBERT 2e-5 Batch size Độ dài Epoch Bộ liệu 32 256 10 837 44 Để lựa chọn siêu tham số này, luận văn trải qua nhiều lần thử nghiệm việc lựa chọn giá trị phù hợp để mơ hình sau huấn luyện đạt kết kiểm thử cao Luận văn tiến hành thực thử nghiệm siêu tham số liệu có 214 báo với số báo tiếng Anh xen kẽ với báo tiếng Việt Bảng 4.3 mơ tả siêu tham số dùng cho mơ hình BERT PhoBERT thực liệu trước sau sử dụng kỹ thuật tăng cường liệu Bảng 4.4 Thống kê số lượng chủ đề chuẩn bị hội nghị FAIR Bộ siêu tham số BERT PhoBERT Tốc độ học 0.001/0.005 0.001/2e-5 Batch size 16/32 Độ dài 256 Epoch 50 Tỉ lệ tập huấn luyện: Số lượng Số lượng liệu trước liệu sau 214 837 90:10 tập kiểm thử Sau tiếp tục thử nghiệm siêu tham số liệu áp dụng kỹ thuật tăng cường liệu Kết thu với thơng số thử nghiệm trình bày chi tiết phần 4.5 4.5 Kết thực nghiệm Sử dụng tham số thứ mô tả bảng 4.5 Bảng 4.5 Bộ siêu tham số đề xuất mơ hình BERT PhoBERT Mơ hình Tốc Batch độ học size 0.001 16 Độ dài Epoch Bộ Tập huấn luyện: liệu kiểm thử 214 90:10 BERT PhoBERT 256 50 45 Với liệu kết hai mơ hình BERT PhoBERT thể hình 4.1 4.2 Dựa vào dự đốn kết trước thực kỹ thuật tăng cường liệu, thấy hai mơ hình xảy Overfitting Underfitting Với biểu đồ mơ hình BERT hình 4.1, epoch thứ 8, độ xác tập huấn luyện đạt tiệm cận 100%, nhiên độ xác tập kiểm thử lại dao động khoảng từ 10% đến 20% 50 epoch Như vậy, liệu huấn luyện chưa đủ số lượng lớn để tổng quát hóa, dẫn đến kết kiểm thử thấp gây tượng Overfitting Đối với mơ hình PhoBERT hình 4.2, dễ thấy độ xác liệu huấn luyện hoàn toàn chưa đạt kết mong đợi, dao động khoảng từ 14% đến khoảng 25% Tóm lại, với kết độ xác độ lỗi mơ hình BERT PhoBERT cho thấy liệu sử dụng ít, dẫn đến tượng Overfitting Underfitting, gây cân không đạt kết đầu mong muốn Hình 4.1 Kết mơ hình BERT trước thay đổi liệu 46 Hình 4.2 Kết mơ hình PhoBERT trước thay đổi liệu Việc áp dụng kỹ thuật tăng cường liệu điều đáng mong đợi, vậy, bước thực áp dụng kỹ thuật lên liệu có nhằm tăng số lượng liệu từ 214 lên 837 liệu Bảng 4.6 Bộ siêu tham số hai mô hình với tham số batch size Mơ hình Tốc Batch độ học size 0.001 16 Độ dài Epoch Bộ Tập huấn luyện: liệu kiểm thử 837 90:10 BERT 256 50 PhoBERT Với tham số thứ bảng 4.6, thay đổi liệu xử lý tăng cường liệu kết thu mơ hình bị Overfitting hình 4.3 Với kết không tốt, luận văn dừng việc huấn luyện mơ hình lại để thực việc huấn luyện với việc thay đổi tham số batch size Hình 4.3 Kết mơ hình PhoBERT sau thay đổi liệu Tham số batch size thay đổi từ 16 thành 32 tạo khác biệt số lượng báo huấn luyện tăng lên epoch, điều làm tăng độ xác giảm độ mát hai mơ hình Thử nghiệm mơ hình PhoBERT, kết đạt sau thay đổi tham số thể hình 4.4 Tại epoch thứ 10, độ xác liệu huấn luyện đạt 100%, liệu kiểm thử đạt kết tương tự Điều cho thấy tham số batch size đóng vai trị to lớn việc huấn luyện mơ hình 47 Hình 4.4 Kết mơ hình PhoBERT sau thay đổi liệu Từ thử nghiệm mô hình PhoBERT trên, luận văn áp dụng tham số thứ mơ hình BERT Kết nhận khả quan với dự đoán trước Hình 4.5 Kết mơ hình BERT sau thay đổi liệu Hình 4.5 mơ tả độ chuẩn xác độ lỗi mơ hình BERT Tại epoch thứ đến epoch thứ 10, mơ hình có chút dao động, nhìn chung từ epoch thứ 11 trở đi, mơ hình đạt ngưỡng cực đại hai đánh giá Cụ thể độ xác mơ hình đạt 100% từ epoch thứ 11 trở đi, độ lỗi giảm dần cực tiểu, xấp xỉ 0.03% Điều cho thấy mơ hình BERT đạt kết tốt tương tự với mơ hình PhoBERT nhờ vào q trình tiền xử lý liệu trước Tuy nhiên, kết trình huấn luyện kiểm thử, mơ hình cần thử nghiệm thực tế để biết mơ hình phù hợp áp dụng vào xây dựng ứng dụng gom cụm báo khoa học hội nghị khoa học 48 Dựa vào kết đạt để giảm thời gian huấn luyện kiểm thử, luận văn thay đổi tham số epoch từ 50 cịn 10 Kết đánh giá mơ hình thể hình 4.6 4.7 Đối với mơ hình BERT, luận văn giữ ngun tham số cịn lại, với mơ hình PhoBERT, luận văn thử nghiệm thay đổi tham số tốc độ học từ 0.001 thành 2e-5 Việc thay đổi xuất phát từ đề xuất báo khoa học mơ hình PhoBERT [11] Tuy vậy, kết mơ hình thay đổi nhỏ không ảnh hưởng đến kết huấn luyện kiểm thử Hình 4.6 Độ chuẩn xác độ lỗi mơ hình BERT Mơ hình BERT đánh giá liệu cho hai mơ hình huấn luyện (train) kiểm thử (vald) Độ xác độ mát dao động khoảng 10% từ epoch thứ đến epoch thứ Cụ thể hơn, độ xác bắt đầu tiệm cận 100% epoch thứ trở đi, độ mát không bám theo đường huấn luyện (màu xanh) hình 4.6 Hình 4.7 thể kết đánh giá liệu mơ hình BERT cho thấy việc phân loại chủ đề cho tất báo có kết xác (Accuracy) xấp xỉ 100% epoch thứ 4, tương ứng với tập kiểm thử; epoch thứ với tập huấn luyện Đối với mơ hình mát, độ mát trình huấn luyện giảm dần tiệm cận epoch thứ Mô hình đánh giá dựa vào số độ chuẩn xác (Precision), độ bao phủ (Recall) độ đo F1 Thực đánh giá mơ hình theo chủ đề thư viện phân lớp sklearn, sau tiến hành thống kê kết 49 Hình 4.7 Độ chuẩn xác độ lỗi mơ hình PhoBERT Bảng 4.7 Kết thực nghiệm hai mơ hình liệu kiểm thử BERT Chủ đề Precision Recall PhoBERT F1Score Precision Recall F1- Support Score NLP 1.00 1.00 1.00 1.00 1.00 1.00 CV 0.75 1.00 0.86 1.00 1.00 1.00 AI 1.00 1.00 1.00 1.00 1.00 1.00 NS 1.00 1.00 1.00 1.00 1.00 1.00 IS 1.00 0.67 0.8 0.99 1.00 1.00 DS 1.00 1.00 1.00 1.00 0.99 1.00 1.00 18 1.00 18 Tỷ lệ 0.94 xác Weight 0.96 0.94 0.94 1.00 1.00 macroaverage Như bảng 4.7 thể kết thực nghiệm, cho thấy số lượng tập huấn luyện kiểm thử ít, tất chủ đề mơ hình PhoBERT phân 50 loại tốt cho kết F1-Score xấp xỉ 100% Đối với mơ hình BERT, F1Score cho mơ hình đạt 94%, cao chủ đề NLP, AI DS đạt 100%, thấp chủ đề IS đạt 80% Xét hai chủ đề CV IS hai mơ hình BERT PhoBERT, ta thấy chủ đề CV mơ hình BERT có kết F1-Score thấp 14% so với mơ hình PhoBERT Tương tự, chủ đề IS đạt điểm thấp 20% Cả hai chủ đề chiếm 13,80% 18,596% liệu Kết dự đoán cho thấy chủ đề dự đốn thấp lượng liệu chủ đề liệu chưa nhiều để huấn luyện tốt 51 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Trong báo này, luận văn nghiên cứu xây dựng ứng dụng mơ hình PhoBERT để gom cụm bài khoa học theo chủ đề cho trước, dựa phần tóm tắt từ khóa Những điều nhằm hỗ trợ Ban quản lý hội nghị FAIR giảm thời gian kiểm tra xếp báo theo chủ đề trước họp Do đó, luận văn giúp giải vấn đề đặt xử lý văn hội thảo khoa học thực hóa vấn đề tạo ứng dụng giúp ban chương trình tổ chức phân loại viết theo theo phiên họp Bộ liệu gồm 837 báo gán chủ đề sử dụng phương pháp tăng cường liệu, gồm 134 báo NLP, 136 báo CV, 140 báo AI, 162 báo NS, 103 báo IS 76 báo DS sử dụng để đánh gia chất lượng mơ hình học Bộ liệu tiền xử lý gồm tên chủ đề, phần tóm tắt từ khóa Luận văn đề xuất mơ hình PhoBERT giải tốt liệu trên, việc rút trích thơng tin tự động phân loại báo khoa học tác giả gửi đăng tạp chí hoàn toàn khả thi Ngoài ra, luận văn thử nghiệm mơ hình BERT để đánh giá so sánh kết thực nghiệm hai mơ hình Mơ hình BERT đạt điểm F1-Score 94% thấp 6% so với mơ hình PhoBERT Việc huấn luyện mơ hình tinh chỉnh PhoBERT đạt kết cao cho đánh giá với tập kiểm thử epoch thứ với F1-Score đạt 100%, độ chuẩn xác – bao phủ đạt tối đa 100%, độ xác 100%; tập kiểm tra chứa báo cho chủ đề đạt kết tương tự Các kết cho thấy hiệu vượt trội kiến trúc PhoBERT toán phân loại liệu tiếng Việt Các kết nghiên cứu đề tài cho thấy mơ hình máy học dễ dàng áp dụng vào tốn thực tế hội nghị khoa học FAIR 5.2 Hướng phát triển đề tài Thu thập xây dựng liệu chứa số lượng hội nghị khoa học vào năm trước 2020-2021, giảm thiểu việc sử dụng kỹ thuật tăng cường liệu, huấn luyện lại mơ hình với siêu tham số trình bày luận văn 52 Đề tài cần thực mơ hình học khơng giám sát nhằm giúp việc giải toán phân loại chủ đề bao đa dạng thực tế Từ đó, việc đánh giá kết mơ hình học giám sát khơng giám sát tạo lựa chọn phù hợp để tiếp tục việc xây dựng ứng dụng TÀI LIỆU THAM KHẢO [1] Susie Xi Rao, et al (2022), Keyword Extraction in Scientific Documents, SwissText 2022, arXiv:2207.01888, https://doi.org/10.48550/arXiv.2207.01888 [2] Thaer Sahmoud, Dr Mohammad Mikki (2022), Spam Detection Using BERT, Jun 07, 2022, arXiv:2206.02443, https://arxiv.org/abs/2206.02443 [3] Nguyễn Diệu Linh, PGS TS Ngô Xuân Bách, Phân loại câu hỏi pháp quy tiếng Việt sử dụng mơ hình BERT, Học viện Cơng nghệ Bưu Viễn thơng, 2021, http://dlib.ptit.edu.vn/handle/HVCNBCVT/3186 [4] Trần Thanh Điện, Thái Nhựt Thanh Nguyễn Thái Nghe, Giải pháp phân loại báo khoa học bằng kĩ thuật máy học, 2019, Tạp chí Khoa học Trường Đại học Cần Thơ 55(4A): 29-37, https://ctujsvn.ctu.edu.vn/index.php/ctujsvn/article/view/3336 [5] Prafulla Bafna; Dhanya Pramod; Anagha Vaidya, Document clustering: TF-IDF approach, 2016, IEEE, https://ieeexplore.ieee.org/document/7754750 [6] Levy, O., & Goldberg, Y., Dependency-based word embeddings In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), June 2014, https://aclanthology.org/P14-2050/, 302-308 [7] Mikolov, Tomas; et al., Efficient Estimation of Word Representations in Vector Space, 2013, arXiv:1301.3781 [8] Jeffrey Pennington, Richard Socher, Christopher Manning, GloVe: Global Vectors for Word Representation, 2014, https://aclanthology.org/D14-1162/ [9] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding, May 24 2019, arXiv:1810.04805, https://arxiv.org/abs/1810.0480 [10] Yinhan L., Myle O., Naman G., Jingfei D., Mandar J., Danqi C., Omer L., Mike L., Luke Z., Veselin S., RoBERTa: A Robustly Optimized BERT Pretraining Approach, Jun 26 2019, arXiv:1907.11692, https://arxiv.org/abs/1907.11692 [11] Dat Quoc Nguyen, Anh Tuan Nguyen, PhoBERT: Pre-trained language models for Vietnamese, 2020, https://arxiv.org/abs/2003.00744 [12] Zhu et al., Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books, 2019, https://paperswithcode.com/dataset/bookcorpus [13] Sennrich et al., Neural Machine Translation of Rare Words with Subword Units, Aug 31 2015, https://arxiv.org/abs/1508.07909v5 [14] Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang, Shijin Wang, and Guoping Hu, Pre-Training with Whole Word Masking for Chinese, 2019, https://arxiv.org/abs/1906.08101 [15] Guillaume Lample, Alexis Conneau, Cross-lingual Language Model Pretraining, 2019, https://arxiv.org/abs/1901.07291 [16] Myle Ott, Sergey Edunov, Alexei Baevski, Angela Fan, Sam Gross, Nathan Ng, David Grangier, Michael Auli; fairseq: A Fast, Extensible Toolkit for Sequence Modeling, June 2019, https://aclanthology.org/N19-4009/ [17] Diederik P Kingma, Jimmy Ba, Adam: A Method for Stochastic Optimization, Dec 22 2014, https://arxiv.org/abs/1412.6980 [18] Duc-Vu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen, A Simple Ensemble Model for Vietnamese Dependency Parsing, 2019 [19] Timothy Dozat, Christopher D Manning, Deep Biaffine Attention for Neural Dependency Parsing, 2016, https://arxiv.org/abs/1611.01734 [20] Thomas Wolf et al., Transformers: State-of-the-Art Natural Language Processing, 2020, https://aclanthology.org/2020.emnlp-demos.6/ [21] Ilya Loshchilov, Frank Hutter, Decoupled Weight Decay Regularization, 2017, https://arxiv.org/abs/1711.05101v3 [22] Thanh Vu, Dat Quoc Nguyen, Dai Quoc Nguyen, Mark Dras, Mark Johnson, VnCoreNLP: A Vietnamese Natural Language Processing Toolkit, 2018, https://arxiv.org/abs/1801.01331