Kỹ thuật chọn lựa động đặc trưng

Một phần của tài liệu Toàn văn luận án Tiếp cận đồ thị biểu diễn , khai thác văn bản và ứng dụng (Trang 97)

Nhằm nâng cao tốc độ gom cụm, cũng như chất lượng cụm, ta cần thực hiện việc chọn lựa đặc trưng (giảm không gian đặc trưng mà không làm ảnh hưởng đến chất lượng cụm). Các phương pháp chọn lựa đặc trưng đã áp dụng thành công cho bài toán phân loại văn bản trong nhiều năm qua [105]. Tuy nhiên chúng ít được dùng trong bài toán gom cụm do sự thiếu thông tin về nhãn lớp. Theo nghiên cứu của Liu [55], khi biết thông tin về nhãn lớp, các phương pháp chọn lựa đặc trưng có giám sát như độ lợi thông tin (IG) và χ2

có hiệu quả gom cụm tốt hơn nhiều so với các phương pháp chọn lựa đặc trưng không giám sát (như tần suất văn bản (DF), cường độ từ (TS), dựa trên Entropy). Tuy nhiên, các phương pháp chọn lựa đặc trưng có giám sát không thể áp dụng trực tiếp cho bài toán gom cụm văn bản do thiếu thông tin về nhãn

Bên cạnh đó, phần lớn những phương pháp chọn lựa đặc trưng kể trên đều áp dụng cho tập dữ liệu tĩnh, không có biến động và việc rút trích đặc trưng chỉ thực hiện một lần duy nhất trước khi bắt tay vào gom cụm. Khi dữ liệu gom cụm thay đổi theo thời gian như các tin tức trên trang báo điện tử thì tập đặc trưng có thể bị thay đổi: các từ lúc trước không phải là đặc trưng thì nay chúng có thể là đặc trưng quan trọng và ngược lại. Do đó, chúng ta cần một phương pháp rút trích có khả năng kiểm soát được sự thay đổi này. Liu [55] đã nhận thấy mối tương hỗ giữa rút trích đặc trưng và gom cụm văn bản. Kết quả gom cụm tốt cung cấp các nhãn lớp tốt giúp chọn lựa các đặc trưng tốt cho từng lớp. Mặt khác, các đặc trưng tốt sẽ giúp tăng độ chính xác của quá trình gom cụm và như vậy sẽ cung cấp các nhãn lớp tốt hơn.

Dựa trên ý tưởng của Liu, luận án đề xuất kỹ thuật chọn lựa động đặc trưng dựa trên độ lợi thông tin. Đây là phương pháp chọn lựa đặc trưng có giám sát áp dụng cho bài toán gom cụm văn bản động.

Trong kỹ thuật chọn lựa đặc trưng đề xuất, độ lợi thông tin được dùng để tính toán sự liên quan của từ mỗi khi có văn bản mới được gom cụm và có sự thay đổi trong cấu trúc cụm. Sự thay đổi về cụm là sự hình thành một cụm hoàn toàn mới hoặc khi gộp chung hai cụm thành một. Đây là những trường hợp có khả năng làm thay đổi độ lợi thông tin của các từ trong tập dữ liệu. Sau đó, dựa vào giá trị độ đo liên quan trên, các từ không liên quan sẽ bị loại. Cuối cùng, các từ có giá trị liên quan cao được chọn và tạo thành không gian đặc trưng mới và các vectơ văn bản được cập nhật dựa trên không gian đặc trưng mới này để gom cụm văn bản mới vào. Quá trình lựa chọn động đặc trưng thể hiện trong Hình 4.4.

Qua quá trình thử nghiệm, khi dùng giá trị N=10% số từ thu được để tạo tập đặc trưng mới và tính toán độ tương tự simdf giữa các vectơ văn bản thì chất lượng gom cụm ổn định. Bên cạnh đó, do số lượng cụm từ chung giữa các văn bản tương đối nhỏ nên luận án không thực hiện việc chọn lựa đặc trưng trên các cụm từ chung mà sự dụng toàn bộ các cụm từ chung khi tính toán độ tương tự simsp giữa các văn bản.

Hình 4.4. Quá trình chọn lựa động đặc trƣng [CT7]

Một phần của tài liệu Toàn văn luận án Tiếp cận đồ thị biểu diễn , khai thác văn bản và ứng dụng (Trang 97)