3. Bố cục và cấu trúc của luận văn
5.5. Thực nghiệm và kết quả thực nghiệm
Để kiểm tra tính hiệu quả của việc áp dụng phân cụm vào bài toán phân loại văn bản, thực nghiệm tiến hành thử nghiệm trên tập Corpus, trình bày ở 5.4. Thực nghiệm cũng tiến hành với các kích thƣớc của tập huấn luyện khác nhau từ bé đến lớn nhằm kiếm tra tính hiệu quả của phƣơng pháp bao gồm 2%, 5%, 10%, 25%, 50%, 75%, 90% (*) dữ liệu là có nhãn. Tại mỗi trƣờng hợp, thực nghiệm tƣơng ứng đƣợc thực hiện cho SVM thông thƣờng, không sử dụng phân cụm, để có kết quả đối sánh.
Thực nghiệm đƣợc tiến hành với 5 nhóm văn bản là Du lịch, Giáo dục, Kinh tế, Pháp luật, Thể thao, và đƣợc tiến hành qua các bƣớc:
Bước 1: Thực hiện phân đoạn từ và tạo các ma trân tƣơng ứng cho tập huấn luyện và kiểm thử, và xây dựng các ma trận thuộc tính cho tập dữ liệu huấn luyên và kiểm thử, cho từng trƣờng hợp nêu ở (*).
Bước 2: Sau đó tạo các siêu thuộc tính và tính trọng số cho chúng, và bổ sung vào các vector tƣơng ứng với mỗi tài liệu, sử dụng công cụ bổ trợ mở rộng tập dữ liệu sử dụng phân cụm, giới thiệu ở 7.6
Bước 3: Sử dụng thƣ viện LIBSVM [35] để tiến hành huấn luyện và kiểm thử, sử dụng các tập huấn luyện và kiểm thử mở rộng,
Sử dụng kỹ thuật k-fold cross validation, bảng sau cho giá trị k thực hiện ứng với từng tỉ lệ dữ liệu training:
% 2% 5% 10% 25% 50% 75% 90%
k 50 20 10 4 2 4 10
Bảng 5-1 cho kết quả so sánh giữa phƣơng pháp phân loại sử dụng SVM thƣờng và phƣơng pháp sử dụng phân cụm, cột “SVM+Clu”, biểu thị kết quả của phƣơng pháp sử dụng phân cụm, lần lƣợt cho các trƣờng hợp 2%, 5%, 10%, 25%, 50%, 75% và 90%.
Nhận xét:
- Hiệu năng phân loại: Thực nghiệm trên các nhóm văn bản Du lịch, Giáo dục, Kinh tế, Pháp luật, Thể thao. Phƣơng pháp sử dụng phân cụm luôn cho
kết quả tốt hơn. Với tỷ lệ tập huấn luyện càng bé, chênh lệch càng lớn. Khoảng cách này thu hẹp dần khi tăng tỷ lệ tập dữ liệu huấn luyện.
- Thời gian: Phƣơng pháp sử dụng phân cụm có thời gian lâu hơn do phải tiến hành phân cụm dữ liệu và kích thƣớc không gian thuộc tính cũng lớn hơn.
Nhận xét chung: Thực nghiệm cho thấy phƣơng pháp sử dụng phân cụm đặc biệt thích hợp khi phải làm việc với tập huấn luyện (tập dữ liệu có nhãn nhỏ), và cho độ chính xác cao hơn.
Bảng 5-1: Kết quả thực nghiệm phân lọai sử dụng phân cụm
% training
Du lịch Giáo Dục Kinh Tế Pháp Luật Thể thao
Trung bình (Micro- Average) SVM SVM+ Clu SVM SVM+ Clu SVM SVM+ Clu SVM SVM+ Clu SVM SVM+ Clu SVM SVM+ CLu 2% 55,73 73,66 42,96 63,52 49,34 60,63 58,42 64,676 56,235 69,00 47,76 58,32 5% 67,37 81,57 53,97 73,79 57,84 69,09 66,27 69,63 58,95 77,26 56,95 66,14 10% 83,62 90,68 77,69 91,13 73,72 80,00 85,32 89,51 76,58 91,99 79,54 88,75 25% 86,63 94,33 81,80 94,38 78,07 80,00 89,94 91,69 81,90 93,50 83,78 90,92 50% 88,28 94,35 87,255 95,10 85,40 84,80 90,60 93,27 82,40 94,10 86,85 92,41 75% 91,72 96,88 89,61 94,51 85,60 85,80 92,76 92,86 94,00 96,20 90,77 93,38 90% 93,73 97,63 89,12 94,51 87,70 88,00 92,97 92,97 95,80 96,30 91,92 94,01
Đồ thị, Hình 5-4, sau biểu diễn tƣơng quan kết quả phân loại có sử dụng phân cụm so với phƣơng pháp SVM thƣờng với sự thay đổi kích thƣớc tập huấn luyện từ thấp đến cao.
Hình 5-4: Biểu đồ so sánh độ chính xác theo tỷ lệ tập huấn luyên
5.6.Tổng kết chƣơng
Chƣơng 5 trình bày một số vấn đề khó khăn khi giải quyết bài toán phân loại văn bản. Một trong các vần đề đó tập dữ liệu huấn luyện. Nhu cầu thực tế cho thấy, phân loại văn bản cũng cần phải thực hiện ngay chỉ khi chỉ có một lƣợng nhỏ dữ liệu gán nhãn bởi vì việc thu thập dữ liệu huấn luyện là một việc tẻ nhạt, mất nhiều thời gian và tốn kém. Và một trong những phƣơng pháp giải quyết vấn đề này là sử dụng phân cụm dữ liệu trong phân loại văn bản.
Có nhiều thuật toán phân cụm dữ liệu đã đƣợc giới thiệu cho đến nay, nhƣng tổng quát lại chúng tuân theo hai cách tiếp cận là phân vùng và phân cấp. Việc sử dụng phân cụm đƣợc sử dụng để lựa chọn thuộc tính hoặc tăng chất lƣợng tập huấn luyện, bằng cánh tận dụng các thông tin từ tập dữ liệu không nhãn.
Chƣơng 5 chủ yếu tập trung vào cách tiếp cận tăng cƣờng khả năng tập dữ liệu huấn luyện. Một số phƣơng pháp tiêu biểu để thực hiện việc bổ sung các thuộc tính mới, sinh ra từ kết quả phân cụm, cho không gian thuộc tính, phƣơng pháp của Katamura, 5.3.2, và phƣơng pháp của Kyriakopoulou, 5.3.3, hay tạo ra nhãn cho tập dữ liệu không nhãn, phƣơng pháp của Zeng, H.J., trình bầy ở 5.3.2.
Thực nghiệm trên corpus tiếng Việt cho thấy kết quả vƣợt trội của phƣơng pháp sử dụng phân cụm so với phƣơng pháp SVM thông thƣờng đặc biệt là với trƣờng hợp tập huấn luyện có nhãn là nhỏ, mặc dù SVM đƣợc coi là tốt nhất trong số các phƣơng pháp cơ bản. Thực nghiệm này chứng tỏ một hƣớng triển khai khả thi bài toán phân loại văn bản tiếng Việt để cho kết quả tốt ngay cả khi chỉ có một bộ dữ liệu có nhãn nhỏ, và không phải dùng đến một corpus huấn luyện lớn. Phù hợp với Việt Nam là một nƣớc đang phát triển, và vẫn còn nhiều hạn chế trong cộng đồng để xây dựng một bộ corpus huấn luyện đầy đủ và công phu cho phân loại văn bản nói riêng và xử lý ngôn ngữ tự nhiên nói chung.
CHƢƠNG 6 - CẢI TIẾN GIẢI THUẬT CHIẾT XUẤT THUỘC TÍNH NHÓM XÂU CON CHÍNH VÀ ÁP DỤNG TRONG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT
6.1. Giới thiệu
Phân loại văn bản sử dụng học máy là một trong những tác vụ quan trọng nhất để tổ chức và quản lý thông tin. Hầu hết các phƣơng pháp phân loại truyền thống sử dụng học máy đều coi văn bản nhƣ là một tập hợp các từ. Ngoài ra, trong một số phƣơng pháp phân loại văn bản khác, văn bản đƣợc xử lý nhƣ một chuỗi các ký tự- xâu con. Cách tiếp cận dựa trên xâu con có các ƣu điểm sau:
- Các thuộc tính là các phần của một từ, hay thuộc tính cấu thành từ một từ đặc biệt (các cụm từ).
- Tránh đƣợc vấn đề tách từ, phƣơng pháp này tỏ ra thích hợp với các ngôn ngữ Á đông nhƣ tiếng Trung, tiếng Việt, tiếng Hàn, tiếng Nhật …, bởi vì các ngôn ngữ này không sử dụng dấu cách để phân biệt các từ nhƣ trong các ngôn ngữ Âu Ấn nhƣ tiếng Anh, tiếng Pháp…
- Các thuộc tính không phải alphabet có thể đƣợc xét đến, điều này đặc biệt quan trọng cho việc áp dụng phân loại văn bản cho lọc spam mail. Bởi vì các mail spam, có khuynh hƣớng trá hình bằng cách sử dụng các thuộc tính không phải alphabet.
Ví dụ: “q.u.ả.n.g_c.á.o” thay vì “quảng cáo” để lọt qua các bộ lọc.
- Các văn bản khác nhau có thể đƣợc xử lý theo một cách đồng nhất (các trang web, mail, nội dung chat).
Các nghiên cứu phân loại văn bản dựa trên chuỗi trƣớc đầy hầu nhƣ tập trung vào một số biến thể của mô hình chuỗi Markov. Tuy nhiên các phƣơng pháp học sản sinh (generative learning) thƣờng kém hiệu quả hơn các phƣơng thức học phân biệt (discriminative learning). Mặc dù các phƣơng thức học phân biệt nhƣ SVM, Adaboost khá thành công với phân loại văn bản dựa trên các thuộc tính là các từ, nó không có hiệu quả khi áp dụng trực tiếp vào phân
loại văn bản dựa trên các xâu con khi coi mọi xâu con trong Corpus là các thuộc tính.
Chƣơng này trình bày phƣơng pháp phân loại văn bản dựa trên việc xem xét các nhóm xâu con chính nhƣ là các thuộc tính, lần đầu đƣợc giới thiệu bởi Dell Zhang [30], 2006, cùng với những cải tiến và áp dụng trong phân loại văn bản tiếng Việt. Ý tƣởng của phƣơng pháp là xây dựng không gian thuộc tính các nhóm xâu con chính, bằng cách xác định và tách các nhóm xâu con chính từ tập ngữ liệu. Ở đây cấu trúc dữ liệu cây hậu tố đƣợc sử dụng để biểu diễn tập văn bản và xác định các xâu con chính. Phần tiếp theo trình bày về cây hậu tố và các khái niệm liên quan.