Đánh giá kết quả thuật tốn

Một phần của tài liệu (LUẬN văn THẠC sĩ) tổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chí (Trang 53 - 57)

Dựa vào kết quả ở phân 3.2.2 ta thống kê được độ chính xác của từng thuật tốn theo bảng dưới sau:

Bảng 3. 6 Bảng tổng hợp kết quả của 3 thuật tốn

Thuật tốn Accuracy F1 - Score

Naive Bayes 0,973 0,97263

Thuật tốn phân loại

dựa trên từ đại diện 0,842 0,824384

LSTM 0,817 0,799967

Thuật tốn cĩ độ chính xác cao nhất là thuật tốn Naive Bayes với độ chính xác 97,3% và F1- score là 0,97263. Thuật tốn cĩ độ chính xác thấp nhất là thuật tốn LSTM với độ chính xác 81,7 và F1-score là 0,799967.

Vậy trong 3 thuật tốn khi thực hiện phân loại văn bản tiếng Việt, cụ thể là các bài báo mạng bằng tiếng Việt, ta nên sử dụng thuật tốn Naive Bayes để thực hiện phân loại văn bản.

Chúng ta cĩ thể áp dụng các thuật tốn này để giải quyết bài tốn phân loại văn bản và cụ thể là phân loại tin tức điện tử, các bài báo trên mạng Internet với mơ hình cĩ thể sử dụng cả 3 thuật tốn để tăng độ chính xác hơn nữa.

3.3 Kết luận

Trong chương này, luận văn đã trình bày việc cài đặt các thuật tốn phân loại nội dung bài báo trên mạng và thực nghiệm trên bài báo thật để phân loại nội dung văn bản theo chủ đề của một bài báo. Đánh giá kết quả nhận được và độ chính xác của các thuật tốn được mơ tả trong luận văn.Kết quả của thuật tốn rất hữu ích cho việc tìm kiếm và là dữ liệu đầu vào cho các thuật tốn học máy khác.

KẾT LUẬN Những đĩng gĩp của luận văn

Luận văn đã nghiên cứu và trình bày chi tiết các cơng thức, kiến thức và dữ liệu liên quan đến ba thuật tốn phân loại văn bản phổ biến nhằm mục đích đánh giá độ chính xác của từng thuật tốn, lựa chọn thuật tốn phù hợp cho bài tốn phân loại văn bản tiếng Việt.

Luận văn cũng trình bày kết quả cài đặt thuật tốn phân loại, thực hiện xây dựng tập dữ liệu kiểm thử , kịch bản kiểm thử cho thuật tốn. Thực nghiệm phân loại các bài báo tiếng Việt dựa trên thuật tốn đã được cài đặt để đánh giá độ chính xác của từng thuật tốn.

Những hạn chế cịn tồn tại

Chưa xây dựng được một ứng dụng sử dụng thuật tốn để phân loại văn bản trong thực tế.

Chưa xây dựng được ứng dụng phân loại ý kiến bình luận trong bài báo.

Hướng phát triển tiếp theo của luận văn

Học viên sẽ tìm hiểu thêm các cơng thức, thuật tốn phân loại văn bản khác kết hợp thuật tốn trình bày trong luận văn để tăng độ chính xác, hiệu năng khi phân loại và gán nhãn nội dung của văn bản.

Xây dựng một ứng dụng hồn chỉnh để phân loại văn bản, phân loại ý kiến bình luận trong một bài báo mạng.

So sánh các thuật tốn phân loại, nghiên cứu tìm ra thuật tốn phân loại văn bản hiệu quả nhất

TÀI LIỆU THAM KHẢO Tiếng Việt

[1]Nguyễn Nhật An, “Nghiên cứu, phát triển các kĩ thuật tự động tĩm tắt văn bản tiếng Việt” – Viện khoa học và cơng nghệ quân sự

[2]Nguyễn Thị Kim Anh, Trịnh Thị Ngọc Hương (2016), Nghiên cứu kỹ thuật đánh giá độ tương đồng văn bản ứng dụng trong so sánh văn bản tiếng Việt, Báo cáo nghiên cứu khoa học, Đại học Hàng hải Việt Nam, Hải Phịng

[3]Nguyễn Thái Ân, “Ứng dụng deep learning cho phân tích cảm xúc với dữ liệu twitter” – Học việc cơng nghệ bưu chính viễn thơng

[4]Nguyễn Tạ, “Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc” , - Trường đại học Lạc Hồng

[5]Trần Thị Thu Thảo, Vũ Thị Chinh (2012), Xây dựng hệ thống phân loại tài liệu tiếng Việt, Báo cáo nghiên cứu khoa học, Đại học Lạc Hồng, Đồng Nai.

[6]Hà Quang Thụy (2009), Giáo trình khai phá dữ liệu Web, NXB Giáo dục, Hà Nội

[7]Ủy ban Khoa học Xã hội Việt Nam (1983), Ngữ pháp tiếng Việt, NXB Khoa học Xã hội, Hà Nội

Tiếng Anh

[8]Jey Han Lau, David Newman, Sarvnaz Karimi, Timothy Baldwin (2010) “Best Topic Word Selection for Topic Labelling” pp. 605 – 613

[9] Steven Bird, Ewan Klein, Edward Loper (2009), Natural language processing with Python, O'Reilly Media, America

Link Tham Khảo [10] https://colah.github.io/posts/2015-08-Understanding-LSTMs/ [11] https://ongxuanhong.wordpress.com/2015/08/25/danh-gia-mo-hinh-model- evaluation/ [12] https://viblo.asia/p/phan-loai-van-ban-tieng-viet-tu-dong-phan-1- yMnKM3bal7P [13] https://viblo.asia/p/trich-chon-thuoc-tinh-trong-doan-van-ban-voi-tf-idf- Az45bAOqlxY [14] https://www.maxreading.com/sach-hay/dai-cuong-ve-tieng-viet/dac-diem- tieng-viet-29201.html [15] https://github.com/duyvuleo/VNTC [16] https://sites.google.com/site/diepnn80/datamininginfo/cacdodohaydungchobaito anphanloai

Một phần của tài liệu (LUẬN văn THẠC sĩ) tổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chí (Trang 53 - 57)

Tải bản đầy đủ (PDF)

(57 trang)