Calibrated Label Ranking (CLR)

2.3 Các phương pháp phân lớp đa nhãn sử dụng độ gần nhau giữa các nhãn

2.3.3 Calibrated Label Ranking (CLR)

2.3.3.1 Giới thiệu phương pháp Calibrated Label Ranking

Ý tưởng cơ bản của phương pháp này là chuyển bài tốn học đa nhãn thành bài tốn xếp hạng nhãn, trong đĩ bài tốn xếp hạng nhãn được thực hiện bằng việc sử dụng kỹ thuật so sánh cặp pairwise [13] [9].

Với q nhãn {𝑦1,𝑦2,… 𝑦𝑞 } ta sẽ cĩ tổng q(q-1)/2 bộ phân lớp nhị phân cĩ thể được tạo ra bởi kỹ thuật so sánh pairwise, một cho mỗi cặp (𝑦𝑗, 𝑦𝑘) (1 ≤ 𝑗 < 𝑘 ≤ 𝑞). Cụ thể là với mỗi cặp nhãn (𝑦𝑗, 𝑦𝑘), đầu tiên giải thuật so sánh cặp pairwise sẽ tạo một bộ huấn luyện nhị phân tương ứng bằng việc xem xét sự phù hợp cĩ liên quan của mỗi ví dụ huấn luyện với 𝑦𝑗 𝑣à 𝑦𝑘:

𝒟𝑗𝑘 = {(𝑥𝑖, 𝜓(𝑌𝑖, 𝑦𝑗, 𝑦𝑘)) | 𝜙(𝑌𝑖, 𝑦𝑘), 1 ≤ 𝑖 ≤ 𝑚} (8)

Trong đĩ 𝜓(𝑌𝑖, 𝑦𝑗, 𝑦𝑘) = {+1, 𝑛ế𝑢 𝜙(𝑌𝑖, 𝑦𝑗) = +1 𝑣à 𝜙(𝑌𝑖, 𝑦𝑘) = −1 −1, 𝑛ế𝑢 𝜙(𝑌𝑖, 𝑦𝑗) = −1 𝑣à 𝜙(𝑌𝑖, 𝑦𝑘) = +1

Nĩi cách khác, chỉ những thể hiện phù hợp với hoặc 𝑦𝑗 ℎ𝑜ặ𝑐 𝑦𝑘 thì mới được bao gồm trong 𝒟𝑗𝑘. Sau đĩ, sử dụng giải thuật học nhị phân ℬ bất kỳ để học bộ phân lớp nhị phân 𝑔𝑗𝑘 : 𝒳 → ℝ; 𝑣í 𝑑ụ 𝑔𝑗𝑘 ← ℬ (𝐷𝑗𝑘); Do vậy, với bất kỳ ví dụ huấn luyện (𝑥𝑖, 𝑌𝑖) nào, thể hiện 𝑥𝑖 sẽ được bao gồm trong quá trình học của các bộ phân lớp nhị phân |𝑌𝑖||𝑌𝑖|. Với thể hiện 𝑥 ∈ 𝒳, hệ thống học sẽ bầu trọn cho 𝑦𝑗 𝑛ế𝑢 𝑔𝑗𝑘 > 0 𝑣à 𝑦𝑘 𝑛ế𝑢 𝑛𝑔ượ𝑐 𝑙ạ𝑖.

Cho thể hiện mới 𝑥, Calibrated Label Ranking đầu tiên sẽ đưa x vào q(q – 1)/2

bộ phân lớp nhị phân đã được huấn luyện để đạt được các bầu trọn (votes) trên mỗi nhãn:

𝜁(𝑥, 𝑦𝑗) = Σ𝑘=1𝑗−1⟦𝑔𝑘𝑗 (𝑥) ≤ 0⟧ + Σ𝑘=𝑗+1𝑞 ⟦𝑔𝑗𝑘 (𝑥) > 0⟧(1 ≤ 𝑗 ≤ 𝑞) (9)

Dựa trên định nghĩa trên, ta khĩ cĩ thể xác minh rằng Σ𝑗=1𝑞 𝜁(𝑥, 𝑦𝑗) = q(q – 1)/2.

Trong đĩ, các nhãn trong 𝒴 cĩ thể được xếp hạng theo các bầu trọn của chúng.

Sau đĩ, sử dụng thêm một vài hàm xác định ngưỡng để phân đơi danh sách các nhãn đã được xếp hạng vào tập phù hợp và tập khơng phù hợp. Để đạt điều này sử dụng kỹ thuật so sánh cặp pairwise, Calibrated Label Ranking kết hợp nhãn ảo 𝑦𝑉 vào mỗi ví dụ huấn luyện (𝑥𝑖, 𝑌𝑖). Cĩ thể hiểu nhãn ảo cĩ nhiệm vụ giống như một điểm

phân tách nhân tạo giữa các nhãn phù phợp của thể hiện 𝑥𝑖 và các nhãn khơng phù hợp. Theo nghĩa khác, 𝑦𝑉 sẽ được xếp hạng thấp hơn 𝑦𝑗 ∈ 𝑌𝑖 và cao hơn 𝑦𝑘 ∈ 𝑌̅𝑖.

Cùng với q(q-1)/2 bộ phân lớp nhị phân, q bộ phân lớp nhị phân bổ trợ sẽ được thêm vào, mỗi bộ cho mỗi cặp nhãn mới (𝑦𝑗, 𝑦𝑉). Giống với cơng thức (8), tập huấn luyện tương ứng với cặp nhãn (𝑦𝑗, 𝑦𝑉) sẽ được xây dựng như sau:

𝒟𝑗𝑉 = {(𝑥𝑖, 𝜑(𝑌𝑖, 𝑦𝑗, 𝑦𝑉)) 1 ≤ 𝑖 ≤ 𝑚} (10)

Trong đĩ 𝜑(𝑌𝑖, 𝑦𝑗, 𝑦𝑉) = {+1, 𝑛ế𝑢 𝑦𝑗 ∈ 𝑌𝑖 −1, 𝑛𝑔ượ𝑐 𝑙ạ𝑖

Sau đĩ, sử dụng giải thuật học nhị phân ℬ bất kỳ để học bộ phân lớp nhị phân 𝑔𝑗𝑉 : 𝒳 → ℝ; 𝑣í 𝑑ụ 𝑔𝑗𝑉 ← ℬ (𝐷𝑗𝑉); Khi đĩ tổng số bầu trọn theo cơng thức (9) sẽ được cập nhật với các bộ phân lớp mới:

𝜁∗(𝑥, 𝑦𝑗) = 𝜁(𝑥, 𝑦𝑗) + ⟦𝑔𝑗𝑉 (𝑥) > 0⟧ (1 ≤ 𝑗 ≤ 𝑞) (11)

Thêm vào đĩ tổng số bầu trọn trên nhãn ảo sẽ được tính:

𝜁∗(𝑥, 𝑦𝑉) = Σ𝑗=1𝑞 ⟦𝑔𝑗𝑉 (𝑥) ≤ 0⟧ (12)

Do vậy tập nhãn được dự đốn cho thể hiện mới 𝑥 sẽ là:

𝑌 = {𝑦𝑗 | 𝜁∗(𝑥, 𝑦𝑗) > 𝜁∗(𝑥, 𝑦𝑉), 1 ≤ 𝑗 ≤ 𝑞} (13)

So sánh cơng thức (10) với cơng thức (1), ta dễ dàng thấy rằng tập huấn luyện 𝒟𝑗𝑉 trong Calibrated Label Ranking là giống với tập huấn luyện 𝒟𝑗 trong Binary Relevance. Do vậy, Calibrated Label Ranking được xem như phiên bản cải tiến của giải thuật so sánh cặp pairwise. Ở đĩ, q(q-1)/2 bộ phân lớp nhị phân được thêm vào

2. for k = j + 1 to q do

3. Khởi tạo tập dữ liệu huấn luyện 𝐃𝐣𝐤 theo cơng thức (8); 4. 𝐠𝐣𝐤 ← 𝓑 (𝐃𝐣𝐤);

5. endfor 6. endfor

7. for j = 1 to q do

8. Khởi tạo tập dữ liệu huấn luyện 𝐃𝐣𝐕 theo cơng thức (10); 9. 𝐠𝐣𝐕 ← 𝓑 (𝐃𝐣𝐕 );

10. endfor

11.Trả về 𝐘 theo cơng thức (13) (Kết hợp với cơng thức (11) – (12))

Hình 2.6: Mã giả của phương pháp CLR

Nhận xét: Calibrated Label Ranking là phương pháp theo cách tiếp cận bậc 2,

phương pháp này xây dựng bộ phân lớp nhị nhân cho cặp nhãn bất kỳ trong tập nhãn. Khác với phương pháp Binary Relevance và Classifier Chain tạo các bộ phân lớp nhị phân theo kiểu một – với – phần cịn lại (one - vs - rest), Calibrated Label Ranking tạo các bộ phân lớp nhị phân theo kiểu một – với – một (one – vs – one) do vậy phương pháp này cĩ ưu điểm là làm giảm ảnh hưởng tiêu cực của vấn đề mất cân bằng nhãn.

2.3.3.2 Tích hợp độ đo gần nhau giữa các nhãn vào Calibrated Label Ranking

Calibrated Label Ranking là phương pháp học máy đa nhãn theo cách tiếp cận chuyển đổi bài tốn học đa nhãn thành bài tốn xếp hạng nhãn. Từ việc tìm hiểu phương pháp Calibrated Label Ranking như đã trình bày ở trên, luận văn xin đưa ra đề xuất cho việc tích hợp độ gần nhau giữa các nhãn vào Calibrated Label Ranking. Cụ thể là, ta sẽ tích hợp vào cơng thức (9) như sau:

𝜁(𝑥, 𝑦𝑗) = ∑ [⟦𝑔𝑘𝑗 (𝑥) ≤ 0⟧ × 𝑑𝑘𝑗] + ∑ [⟦𝑔𝑗𝑘 (𝑥) > 0⟧ × 𝑑𝑗𝑘] 𝑞 𝑘=𝑗+1 𝑗−1 𝑘=1 (14) 𝑑𝑘𝑗 𝑙à 𝑘ℎ𝑜ả𝑛𝑔 𝑐á𝑐ℎ 𝑔𝑖ữ𝑎 2 𝑛ℎã𝑛 𝑦𝑗 𝑣à 𝑦𝑘 (1 ≤ 𝑗 ≤ 𝑞)

Ngồi ra, trong quá trình học bộ phân lớp việc xếp hạng nhãn được tính theo giá trị của 𝜁 ở cơng thức (9). Như vậy, cĩ thể xảy ra trường hợp khi 2 hoặc nhiều nhãn cĩ cùng giá trị 𝜁, ta sẽ phải quyết định nhãn nào sẽ được xếp hạng trước. Bằng việc sử dụng độ gần nhau giữa các nhãn ta cĩ thể giải quyết được vấn đề này, cụ thể là ta sẽ xét xem trong các nhãn cĩ cùng giá trị 𝜁 nhãn nào gần với nhãn cĩ xếp hạng cao nhất thì sẽ được cho là cĩ ranking cao hơn nhãn cịn lại.

Một số phần mềm sử dụng

Danh sách một số nhãn