1. 2 Một số khái niệm
2.2.2. Xây dựng các bộ phân lớp nhị phân
Các bộ phân lớp nhị phân thông thường được học với cả dữ liệu học dương và âm. Trong phương pháp phân lớp phân cấp, một bộ phân lớp nhị phân được xây dựng cho mỗi lớp. Các bộ phân lớp này được chia thành hai loại :
– Bộ phân lớp xác định một tài liệu có thuộc lớp nào đó hay không gọi là bộ phân lớp cục bộ (local-classifier)
– Bộ phân lớp xác định một tài liệu có thuộc nhánh nào đó không được gọi là bộ
phân lớp nhánh (subtree-classifier).
Sự phân biệt giữa bộ phân lớp cục bộ và bộ phân lớp nhánh được đề xuất bởi Dumais và Chen [21].
Để xây dựng các bộ phân lớp nhị phân trong phân lớp phân cấp, việc rất quan trọng là phải xác định tập dữ liệu học cho mỗi bộ phân lớp.
Kí hiệu Parent(Ci) là lớp cha của Ci và Coverage(Ci ) với Ci thuộc taxonomy là tập tất cả các lớp thuộc nhánh có gốc là Ci gồm cả Ci . Một tài liệu
j
d ∈Coverage(Ci ) là đúng nếu dj thuộc bất kì lớp nào của Coverage(Ci ). Ví dụ taxonomy hình 2.2 :
Coverage(Tin học ) = {Tin học, Phần cứng, Phần mềm, Tán ngẫu }
Tập dữ liệu học cho các bộ phân lớp được lựa chọn theo chiến thuật sau:
♦ Bộ phân lớp nhánh của lớp gốc Croot: – Dữ liệu dương : dj∈Coverage C( root) – Dữ liệu âm :dj∉Coverage C( root)
♦ Bộ phân lớp nhánh cho nút trong Ci của taxonomy: – Dữ liệu dương : dj∈Coverage C( )i
– Dữ liệu âm :dj∉Coverage C( )i và dj∈Coverage Parent C( ( )i ) ♦ Bộ phân lớp cục bộ cho nút trong Ci của taxonomy:
– Dữ liệu âm :dj∉Ci và dj∈Coverage C( )i
♦ Bộ phân lớp cục bộ cho lá Cl của taxonomy: – Dữ liệu dương : dj∈Cl
– Dữ liệu âm :dj∉Cl và dj∈Coverage Parent C( ( )l )