Giới thiệu

3. Bố cục và cấu trúc của luận văn

5.1. Giới thiệu

Mặc dù có nhiều phƣơng pháp cho phân loại văn bản đã đƣợc đề xuất, một số cho kết quả tốt nhƣ kNN và SVM, tuy nhiên hầu hết chúng dựa trên mốt số lƣợng lớn dữ liệu gán nhãn, cả SVM và kNN đều cho kết quả không tốt khi tập dữ liệu gán nhãn nhỏ. Nhu cầu thực tế cho thấy, phân loại văn bản cũng cần phải thực hiện ngay chỉ khi chỉ có một lƣợng nhỏ dữ liệu gán nhãn bởi vì việc thu thập dữ liệu huấn luyện là một việc tẻ nhạt, mất nhiều thời gian và tốn kém. Một trong các phƣơng pháp để giải quyết vấn đề này là sử dụng phân cụm (clustering) trong phân loại văn bản.

Phân cụm đã đƣợc sử dụng trong một số nghiên cứu về phân loại văn bản nhƣ là một phƣơng pháp thay thế cho việc lựa chọn thuộc tính để giảm kích thƣớc không gian thuộc tính, nó cũng đƣợc sử dụng nhƣ là một kỹ thuật để tăng chất lƣợng của tập huấn luyện. Trong trƣờng hợp thứ hai, phân cụm đƣợc sử dụng để khám phá dạng cấu trúc trong các mẫu huấn luyện và mở rộng các vector thuộc tính từ các thuộc tính mới lấy đƣợc từ các cụm. Nó cũng đƣợc sử dụng để tăng cƣờng cho một lƣợng nhỏ các mẫu có nhãn từ các mẫu chƣa có nhãn bằng cách sản sinh ra các thông tin nhãn cho dữ liệu chƣa có nhãn từ kết quả của phân cụm trên cả hai dữ liệu đã gán nhãn và chƣa có nhãn.

Hình 5-1 dƣới cho cái nhìn trực quan của việc áp dụng phân cụm vào trong phân loại văn bản. Các mẫu gán nhãn của tập huấn luyện đƣợc thể hiện bằng hai dấu + và –, các mẫu không nhãn đƣợc thể hiện bằn dấu chấm (•). Sử dụng một bộ phân loại, đã đƣợc huấn luyện với các mẫu huấn luyện, có thể tìm đƣợc một siêu phẳng A, thay vì một siêu phẳng mong muốn B, Hình 5-1- a. Trong Hình 5-1-b, cả hai tập dữ liệu (huấn luyện và kiểm thử) đƣợc phân cụm thành 2 cụm không gối lên nhau. Trong trƣờng hợp lý tƣởng, hai cụm này chứa các mẫu xác nhận và phủ nhận của toàn bộ dữ liệu một cách riêng rẽ. Sau đó các thuộc tính mới đƣợc tạo ra và bổ sung vào các vector thuộc tính đang có. Tất cả các vector trong cùng một cụm đƣợc tăng cƣờng các thuộc

tính mới nhƣ nhau. Tập dữ liệu đƣợc chuyển đổi thành một hệ tọa độ mới. Nếu tất cả các vector thuộc tính trong cùng một cụm đƣợc tăng cƣờng cùng các cặp (thuộc tính, trọng số), các vector này sẽ “xích lại” gần nhau hơn, và kết quả là tăng cƣờng mật độ của tập dữ liệu, đƣa đến việc tìm ra siêu phẳng B cực đại biên, Hình 5-1-c, và hiệu quả của bộ phân loại đƣợc cải tiến.

Hình 5-1: Phân loại kết hợp phân cụm

Phƣơng pháp k-Nearest Neighbour

Phƣơng pháp Linear Least Square Fit LLSF