Khi xem xét sự phụ thuộc của tài liệu dj D vào lớp tài liệu ci C thì người ta lại chia ra làm 3 loại như sau:
Phân loại nhị phân - Binary case TC: là trường hợp phân loại mà tài liệu phân loại chỉ thuộc về một trong 2 lớp có sẵn.
Phân loại đa lớp - Multi class case TC: là trường hợp phân loại mà tài liệu dj
chỉ thuộc về duy nhất một lớp ci nào đó.
Φ : → (4.3)
Phân loại thuộc về nhiều nhãn - Multi label case TC: là trường hợp phân loại mà tài liệu dj có thể thuộc về nhiều lớp tài liệu ci.
Φ : → 2 (4.4)
Hình 4.1: Các loại phân loại tài liệu
Ví dụ: một tài liệu nói về môn thể thao ”đi bộ” có thể là nhánh con của lớp
”điền kinh” thuộc nhánh lớn ”oplimpic” cũng có thể là nhánh con của lớp ”các môn phục hồi chức năng” thuộc nhánh lớn ”y học”.
Trong hai hướng tiếp cận phân loại multi-class và multi label thông thường người ra vẫn sử dụng hướng tiếp cận binary case làm bước căn bản. Từ bước căn bản này hệ thống sẽ thu được các số đo về sự phụ thuộc của tài liệu vào và lớp xem xét. Các số đo này sẽ được xếp hạng theo thứ tự từ lớn trở xuống. Với hệ thống chỉ chọn giá trị lớn nhất thì ta có multi class case, với hệ thống chọn ngưỡng chấp nhận thì ta có một tập các lớp chấp nhận và do đó hệ thống trở thành multi label. Cụ thể cần xác định hàm như sau:
Φ ∶ → (4.5)
Và kết quả trả về là true nếu Φ ( ) > , trong đó ∈ được gọi là ngưỡng. Và như vậy các loại phân loại tài liệu ở trên có thể được mô tả như sau:
Tài liệu
Phân loại nhị phân
Yes No
Phân loại đa lớp
Ci
C1 Cj
Phân loại đa nhãn
Ci
Φ = ế Φ ( ) >
ế ượ ạ (4.6)
Φ ( ) = max {Φ ( ), ∀ ∈ } (4.7)
Φ ( ) = { ∈ , Φ ( ) > , ∀ ∈ } (4.8)
Mục tiêu luận văn đề ra giải thuật phân loại được mô hình theo thuyết vạn vật hấp dẫn. Mối liên hệ của tài liệu mới đưa vào và kiến trúc phân loại được xác định dựa theo việc lựa vị trí cân bằng bền cho chất điểm (theo mục 2.9). Luận văn chọn hướng tiếp cận bài toán phân loại đa lớp.