1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân lớp tin tức tiếng việt dựa trên mô hình bert

96 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 96
Dung lượng 7,22 MB

Nội dung

Qua quátrình phân loại, người dùng có thể dễ dàng quản lý và tìm kiếm văn bản liênquan đến các chủ đề cụ thể, từ đó tiết kiệm thời gian và nỗ lực trong việc tìmkiếm thông tin.Trong luận

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH ∞0∞ LÊ HỒ QUANG LUÂN PHÂN LỚP TIN TỨC TIẾNG VIỆT DỰA TRÊN MÔ HÌNH BERT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH TP HỒ CHÍ MINH, NĂM 2023 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH ∞0∞ LÊ HỒ QUANG LUÂN PHÂN LỚP TIN TỨC TIẾNG VIỆT DỰA TRÊN MƠ HÌNH BERT Chun ngành: Khoa học máy tính Mã số chuyên ngành: 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Giảng viên hướng dẫn: TS TRƯƠNG HỒNG VINH TP HỒ CHÍ MINH, NĂM 2023 TRƯỜNG ĐẠI HỌC MỞ CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM THÀNH PHỐ HỒ CHÍ MINH Độc lập – Tự – Hạnh phúc KHOA ĐÀO TẠO SAU ĐẠI HỌC GIẤY XÁC NHẬN Tôi tên là: Lê Hồ Quang Luân Ngày sinh: 02/10/1986 Nơi sinh: Ninh Thuận Chuyên ngành: Khoa Học Máy Tính Mã học viên: 1884801010013 Tơi đồng ý cung cấp tồn văn thông tin luận văn tốt nghiệp hợp lệ quyền cho Thư viện trường đại học Mở Thành phố Hồ Chí Minh Thư viện trường đại học Mở Thành phố Hồ Chí Minh kết nối tồn văn thơng tin luận văn tốt nghiệp vào hệ thống thông tin khoa học Sở Khoa học Công nghệ Thành phố Hồ Chí Minh Ký tên Lê Hồ Quang Luân CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc Ý KIẾN CHO PHÉP BẢO VỆ LUẬN VĂN THẠC sĩ CỦA GIẢNG VIÊN HƯỚNG DẪN Tôi tên: Lê Hồ Quang Luân Ngày sinh: 02/10/1986 Nơi sinh: Ninh Thuận Mã học viên: 1884801010013 Lớp:MCOM018B Địa liên lạc: 1199 Cách mạng tháng 8, Ninh An, Bàu Năng, Dương Minh Châu, Tây Ninh Điện thoại:0901.638.388 Email: luanlhq.188i@ou.edu.vn Tên đề tài: Phân Lớp Tin Tức Tiếng Việt Dựa Trên Mơ Hình Bert hrýíV? Ý kiến giáo viên hướng dẫn việc cho phép học viên 1'.; 1.1 bảo vệ luận văn trước Hội đồng: Thành phổ Hồ Chí Minh, ngày Ư tháng Ồ.5 năm 2023 Người nhận xét LỜI CAM ĐOAN Tôi tên Lê Hồ Quang Luân, học viên cao học lớp MCOM018A niên khố 2018 - 2020 Tơi xin cam đoan luận văn “Phân lớp tin tức tiếng việt dựa mơ hình BERT” cơng trình nghiên cứu khoa học độc lập riêng hướng dẫn thầy tiến sĩ Trương Hoàng Vinh Các kết nghiên cứu luận văn tự tìm hiểu, phân tích cách khách quan phù hợp với thực tiễn Kết nghiên cứu công bố luận án trung thực Các tài liệu sử dụng luận văn có trích xuất nguồn gốc rõ ràng, theo quy định Kết luận văn chưa nộp để nhận cấp trường đại học sở đào tạo khác Tôi xin cam đoan chịu hoàn toàn trách nhiệm nội dung Thành phố Hồ Chí Minh, năm 2023 Lê Hồ Quang Luân i LỜI CẢM ƠN Tôi xin gửi lời cám ơn đến người giúp tơi hồn thành luận văn Trước tiên, tơi xin bày tỏ lịng biết ơn sâu sắc tới Tiến sĩ Trương Hồng Vinh, tơi thật may mắn có người hướng dẫn nhiệt tình mẫu mực Nếu khơng có hướng dẫn hỗ trợ kiên nhẫn Thầy ấy, vượt qua thử thách mà gặp phải suốt trình viết lách Ngồi ra, tơi biết ơn tất q Thầy Cơ ngành Khoa học Máy tính khoa Sau Đại Học, trường Đại học Mở Thành phố Hồ Chí Minh giảng dạy suốt hai năm học trường Tôi cám ơn bạn bè tôi, người tham gia vào giai đoạn quy trình giúp tơi hồn thành luận văn Cám ơn bạn hỗ trợ kịp thời, mang tính xây dựng Bên cạnh đó, tơi vô cám ơn Anh Chị công tác văn phòng Khoa Đào Tạo Sau Đại Học trường Các Anh Chị ln nhiệt tình giúp đỡ giải đáp thắc mắc suốt trình học làm luận văn Cuối cùng, tơi xin gửi lời cám ơn đến gia đình tơi, người ln đồng hành hết lịng u thương, hỗ trợ tơi suốt q trình học tập vật chất lẫn tinh thần Nếu động viên khích lệ gia đình tơi khơng có đủ động lực để vượt qua khó khăn tự tin bước tiếp Trân trọng cám ơn tất ii TÓM TẮT Trong sống hàng ngày, văn trở thành phương tiện truyền thông thông tin thiếu cho cá nhân tổ chức Với đa dạng ngôn ngữ tự nhiên, độ dài cấu trúc, văn xuất nhiều hình thức viết tay điện tử Chức văn không giới hạn việc lưu trữ truy cập thơng tin, mà cịn đóng vai trị quan trọng việc tổ chức thơng tin thông thường quan trọng Với nguồn gốc từ nguồn tin tức tài liệu nội công ty, việc phân loại văn trở nên quan trọng Qua q trình phân loại, người dùng dễ dàng quản lý tìm kiếm văn liên quan đến chủ đề cụ thể, từ tiết kiệm thời gian nỗ lực việc tìm kiếm thông tin Trong luận văn, tác giả thực công việc xây dựng liệu phân loại văn tin tức tiếng Việt, với 21,796 mẫu với 10 chủ đề tải từ trang website tin tức Việt Nam Bộ liệu có tiềm sử dụng nghiên cứu tương lai ứng dụng thực tế Ba mơ hình triển khai huấn luyện liệu này: mơ hình LSTM, mơ hình BERT mơ hình PhoBERT LSTM mơ hình mạng thần kinh tái phân cấu dựa kiến trúc RNN, BERT PhoBERT mơ hình dựa Transformer, huấn luyện liệu lớn Sau huấn luyện, mơ hình đánh giá độ đo hiệu suất độ xác (accuracy), độ phủ (recall), độ xác trung bình (average precision) iii F1-score Kết cho thấy mô hình PhoBERT mang lại kết tốt tất độ đo, vượt trội so với LSTM BERT Điều chứng tỏ khả phân loại văn tiếng Việt mơ hình PhoBERT ưu việt Từ kết này, luận văn nhận thấy mơ hình PhoBERT lựa chọn tốt để phân loại văn tiếng Việt Các kết ứng dụng tác vụ xử lý ngôn ngữ tự nhiên, từ việc phân loại tin tức, phân tích ý kiến đến tổng hợp văn nhiều ứng dụng khác iv ABSTRACT In everyday life, text has become an indispensable means of communication and information for individuals and organizations With diverse natural lan- guages, lengths, and structures, text appears in various forms such as handwrit- ing and electronic documents The function of text goes beyond storage and information retrieval; it plays a vital role in organizing both regular and impor- tant information With sources ranging from news articles to internal company documents, text classification has become extremely important Through the classification process, users can easily manage and search for relevant documents on specific topics, saving time and effort in information retrieval In the thesis, the construction of a new dataset for Vietnamese news text classification was carried out, consisting of 21,796 samples with 10 different topics collected from Vietnamese news websites This dataset holds potential for future research and practical applications Three models were deployed and trained on this dataset: the LSTM model, the BERT model, and the PhoBERT model LSTM is a reoccurring neural net- work model based on the RNN architecture, while BERT and PhoBERT are Transformer-based models trained on large-scale data After training, the mod- els were evaluated using performance metrics such as accuracy, recall, average precision, and F1-score The results showed that the PhoBERT model achieved the best performance across all metrics, outperforming LSTM and BERT This v demonstrates the superior capability of PhoBERT in Vietnamese text classifi- cation Based on these results, the thesis concludes that PhoBERT is the best choice for Vietnamese text classification These findings can be applied to various nat- ural language processing tasks, including news classification, sentiment analysis, text summarization, and many other applications vi

Ngày đăng: 27/02/2024, 16:42

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN