CHƯƠNG 3. TRIỂN KHAI VÀ ĐÁNH GIÁ KẾT QUẢ
3.3. Đánh giá kết quả
3.3.2. Đánh giá mô hình phân loại công văn theo lĩnh vực
Với mô hình đã đƣợc xây dựng ở trên, bản luận văn tiến hành xây dựng ứng dụng thực tế, và thực hiện thống kê tỉ lệ chính xác dựa trên các chỉ số precision, recall, f1- score đối với mô hình phân loại đã hoàn thiện. Quá trình thử nghiệm cho ra kết quả tương đối khả quan đối với từng lĩnh vực văn bản cụ thể và trong những trường hợp cụ thể. Luận văn xây dựng mô hình phân loại văn bản sử dụng hai phương pháp (PP1, PP2) làm sạch dữ liệu tại mục 3.2.1 và 3.2.2 sau đó sử dụng vector của các văn bản đầu ra tại hai phương pháp đó tiến hành xây dựng mô hình phân loại văn bản. Kết quả nhƣ sau:
PP1: Trích chọn đặc trưng các văn n trong từng ĩnh vực, trong quá làm s ch dữ liệu sử d ng bộ xử ý văn n lo i bỏ t t c các ký tự không mang nghĩa
Kết quả thu nhận đƣợc sau quá trình kiểm thử hệ thống nhƣ sau:
B ng 3.2: Kết qu đánh giá bộ phân lo i văn b n theo 10 ĩnh vực, sử d ng bộ xử ý văn n lo i bỏ các ký tự không mang nghĩa (PP1)
Lĩnh vực precision recall f1-score Tổng VB kiểm thử
VB có nhiều ký
tự lỗi
Công nghệ thông tin và Viễn thông
0.53 0.67 0.59 15 3
Đất đai 0.97 0.78 0.87 50 10
Giáo dục đào
tạo 0.91 0.78 0.84 37 7
Giao thông 0.42 0.54 0.47 24 5
Khoa học –
Công nghệ 0.57 0.86 0.69 14 3
Nông nghiệp 0.85 0.74 0.79 38 8
Phòng chống
lụt bảo 0.98 0.62 0.76 13 3
Thi đua –
Khen thưởng 0.98 0.96 0.97 46 9
Xây dựng 0.59 0.89 0.71 27 5
Y tế 0.9 0.75 0.82 36 7
Trung
bình/Tổng 0.82 0.78 0.79 300 60
PP2: Trích chọn đặc trưng các văn n trong từng ĩnh vực, trong quá làm s ch dữ liệu sử d ng bộ xử ý văn n lo i bỏ t t các các ký tự đặc biệt, thay thế các ký tự lỗi định d ng thành ký tự có nghĩa
Kết quả thu nhận đƣợc sau quá trình kiểm thử hệ thống nhƣ sau:
B ng 3.3: Kết qu đánh giá ộ phân lo i văn n theo 10 ĩnh vực, sử d ng bộ xử ý văn n lo i bỏ các ký tự đặc biệt, thay thế các ký tự lỗi định d ng thành ký tự có nghĩa (PP2)
Lĩnh vực precision recall f1-score Tổng VB kiểm thử
VB có nhiều ký
tự lỗi
Công nghệ thông tin và Viễn thông
1.00 0.8 0.89 15 3
Đất đai 1.00 0.98 0.99 50 10
Giáo dục đào
tạo 0.92 0.95 0.93 37 7
Giao thông 0.87 0.54 0.67 24 5
Khoa học –
Công nghệ 0.60 0.86 0.71 14 3
Nông nghiệp 0.90 0.95 0.92 38 8
Phòng chống
lụt bảo 0.92 0.85 0.88 13 3
Thi đua –
Khen thưởng 0.98 0.96 0.97 46 9
Xây dựng 0.72 0.85 0.78 27 5
Y tế 0.92 0.94 0.93 36 7
Trung
bình/Tổng 0.91 0.9 0.9 300 60
Biểu đồ so sánh kết quả hai phương pháp:
Hình 3.12: Biểu đồ so sánh kết qu hai phương pháp (PP1, PP2)
Thống kê trên cho thấy, mức độ chính xác khi sử dụng mô hình nhận dạng đƣợc đề xuất là khá cao.
Kết quả trên cũng cho thấy rằng, việc sử dụng kỷ thuật xử lý văn bản và mô hình phân lớp SVM đối với bài toán phân loại văn bản thực sự hiệu quả.
Bên cạnh đó từ hai kết quả đánh giá và biểu đồ so sánh ở trên (PP1, PP2) ta thấy việc xác định các ký tự bị lỗi do việc văn bản không phải là Font chữ Unicode (PP2) sẽ cho việc đánh giá có kết quả tốt hơn. Điều này cũng giúp cho việc phân loại trong tương lai, khi các văn bản đưa vào là các văn bản không phải định dạng Font chữ Unicode cũng có thể phân loại đƣợc một cách chính xác nhất.
Do đó tôi chọn phương pháp (3.2.2) thay thế các ký tự lỗi định dạng thành ký tự có nghĩa (PP2) để áp dụng cho bài toán phân loại công văn theo lĩnh vực.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Trong các cơ quan nhà nước hiện nay, việc sử dụng văn bản điện tử thay cho văn bản giấy ngày càng phổ biến. Việc lưu trữ, tìm kiếm văn bản cũng dễ dàng hơn nhờ máy tính. Nhƣng công việc phân loại văn bản vẫn còn làm bằng thủ công, dựa vào con người là chính. Do đó cần phải có nghiên cứu để phân loại các văn bản, công văn một cách tự động. Luận văn này cũng đã bao trùm được các phương pháp phân loại văn bản được sử dụng rộng rãi hiện nay trong đó tập trung vào các phương pháp tiền xử lý văn bản và sử dụng thuật toán Máy vector hỗ trợ để phân loại văn bản.
Trong bài toán học máy việc có đƣợc dữ liệu sạch rất quan trọng trong việc phân loại hiệu quả. Luận văn tập trung giải quyết những khác biệt giữa tiền xử lý văn bản Tiếng Anh và Tiếng Việt. Thừa kế phương pháp tiền xử lý văn bản Tiếng Anh, bổ sung cải tiến để áp dụng vào Tiếng Việt một cách hiệu quả nhất, nhằm loại bỏ những từ không cần thiết cho việc phân loại và giảm chiều của vector đặc trƣng. Luận văn cũng đề xuất đƣợc việc tìm kiếm những văn bản có nhiều ký tự lỗi để và xác định đƣợc văn bản nào nhiều lỗi là do lỗi định dạng chữ không phải là Unicode để đƣa ra phương án thay thế các định dạng chữ đó thành các ký tự có ý nghĩa nhằm trích rút ra vector đặc trƣng phục vụ cho việc phân loại chính xác nhất.
Với những kết quả nhạ n được từ thực nghiẹ m, tôi thấy rằng có co sở để tin tưởng vào mọ t kết quả khả quan trong viẹ c ứng dụng các giải thuạ t SVM, kết hợp với các phƣo ng pháp trích chọn đạ c trƣng hợp lí cho bài toán phân loại văn bản. Trong khuôn khổ luận văn tôi cũng đã xây dựng đƣợc ứng dụng đơn giản phân loại công văn theo lĩnh vực áp dụng tại tỉnh Quảng Bình.
Hướng phát triển trong tương lai của đề tài này là nghiên cứu điều chỉnh các phương pháp phân loại văn bản sao cho phù hợp với ngôn ngữ Tiếng Việt. Đồng thời thử nghiệm thêm các hàm nhân khác của SVM nhƣ: Polynomial, RFB, sigmoid và những các biểu diễn vector đặc trƣng khác của văn bản nhƣ doc2vec. Nhằm so sánh kết quả với phương pháp hiện tại. Sau đó áp dụng để phân loại thêm nhiều loại văn bản không chỉ giới hạn văn bản trong cơ quan hành chính mà phân loại tin tức theo thể loại, phần mềm lọc spam mail, …